当前位置：网站首页>基因对疾病的影响规律--读论文

基因对疾病的影响规律--读论文

2022-08-09 04:14:00 【育种数据分析之放飞自我】

读读论文，用谷歌学术翻译一下，重要的部分做一下笔记。正文部分是翻译，加黑部分是个人笔记。

本次学习的论文：https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4412738/

1. 前言

我们对疾病遗传基础的理解已经从对总体遗传力或家族性的描述发展到对大量风险位点的识别。人们可以使用大量的测量方法来量化这些基因位点对疾病的影响，这些方法可以指导新实验的决策，例如，是专注于已识别的变异的生物学还是花更多的精力去发现新的变异。然而，不同的度量方法可以赋予一个变量不同的重要性。我们考虑并对比了最常用的测量方法，特别是疾病责任的遗传力、近似遗传力、兄弟姐妹复发风险、使用对数相对风险量表的总体遗传方差、用于风险预测的受试者操作曲线下的面积和人群归因比例，并给出了在评估遗传变异对疾病的贡献时应明确考虑的使用指南。

是着眼已有的变异进行深挖，还是发掘更多的变异，需要从测量方法、统计、应用几方面进行权衡。

2. 介绍

检测到的疾病和其他性状的基因位点数量迅速增加。这些包括来自下一代测序研究的高风险孟德尔位点和来自全基因组关联研究（GWAS）的许多高度重复的低外显率变体。1,2接下来的两个重要问题是，这些位点和变体在多大程度上影响了疾病的总体负担，还有多少变体有待发现。3这可以使用许多措施进行评估，其中许多措施是在传统上不同的领域（如数量遗传学和流行病学）内制定的，在后基因组时代，这些领域的边界现在变得模糊了（图1）。定量遗传学方法计算疾病易感性的遗传力或由遗传变异解释的兄弟姐妹复发风险等指标。更具流行病学或转化性的方法可能会评估其对整体遗传方差（使用对数相对风险（logRR）量表）、用于风险预测的受试者操作曲线（AUC）下面积或人群归因分数（PAF）的影响。

可以使用许多不同的方法来评估已知的遗传因素在多大程度上影响疾病的整体遗传变异。这些包括：a.遗传力、b.同胞相对风险、c.对数相对风险遗传方差、d.受试者操作曲线下面积（AUC）和e.群体归因分数。这些测量方法以传统上不同的学科为基础，如数量遗传学和流行病学，这些学科最近开始融合。虽然后者最初是为了解决不同的问题而开发的，但目前正在重新调整其用途，以评估可以解释多少遗传变异。我们通过仿真和应用比较了这些措施。

六种方法评估：1，遗传力倾向；2，近似遗传力；3，兄弟复发风险；4，logRR遗传方差；5，AUC（Area Under the Curve）；6，PAF(Population Attributable Fraction)

这些指标中的每一项都可以计算成一个比例，以量化已知风险位点在多大程度上解释了疾病的潜在遗传基础。被解释的遗传力通常被计算为由风险位点解释的疾病的变异比例相对于总体遗传力。5,7由基因座解释的兄弟姐妹复发或logRR遗传变异的比例提供了它们对疾病影响的类似度量。AUC表示已知的风险位点如何对患病个体进行分类;将该指标除以从遗传力计算出的遗传风险预测因子的最大可达到的AUC，可量化最大AUC的解释比例最后，PAF近似计算了在没有确定的遗传风险因素的情况下，人口中疾病发病率或死亡率降低的比例。

尽管所有这些措施都是有效的，并且具有相同的界限（从0到100％），但对于给定的数据集，它们可能会传达有关风险变异对疾病的影响的不同信息。这导致了文献中这些措施的对比和混乱。例如，据报道，nod2中克罗恩病变体的相同关联结果解释了遗传的1-2％，遗传风险的5.1％和PAF的18.2％的遗传性。9换句话说，疾病的明显比例，解释了。``通过风险变体可以在各种措施之间变化很大，因此，一种衡量方法可能会导致遗传学家和流行病学家之间的解释截然不同。

在这里，我们比较了用于评估疾病的遗传基础的六项措施，这是通过风险变异来理解其相似性和差异的遗传基础。我们估计责任的遗传力，近似遗传力，兄弟姐妹复发风险，LOGRR遗传差异，AUC和PAF在一系列风险等位基因频率以及通过经验计算以及对乳腺癌研究中的数据应用中的相对风险进行了解释，Crohn’s氏病，类风湿关节炎和精神分裂症。我们描述了这些措施之间的相互关系，并在评估遗传贡献对疾病的总体影响时为其适当的计算和解释提供了指导。最后，我们提供了一个在线工具，可以从协会研究摘要统计数据中计算这些措施：风险等位基因频率和相对风险。

3. 对个别风险基因座的遗传影响措施

3.1 比例很重要

这里考虑的测量方法之间的一个关键区别是测量它们的尺度(框1，表1)。评估单个基因座对疾病风险的贡献，在这里，我们比较了六种用于评估疾病的遗传基础在多大程度上可以由风险变异解释的方法，以了解它们的异同。通过对乳腺癌、克罗恩病、类风湿性关节炎和精神分裂症研究数据的经验计算和应用，我们估计了责任的遗传力、近似遗传力、兄弟复发风险、logRR遗传方差、AUC和PAF在风险等位基因频率和相对风险范围内的解释。我们描述了这些度量之间的相互关系，并在评估遗传贡献对疾病的总体影响时为它们的适当计算和解释提供了指导。最后，我们提供了一个在线工具来从关联研究汇总统计数据中计算这些度量:风险等位基因频率和相对风险。

3.2 遗传力解释比例

使用表1和框1中的方法和符号，我们可以估计由风险变量i解释的责任量表中表型方差的比例为h2L[i] =VAL[i]/VPL =VAL[i]/ (VGL[i] + 1)，13,14，其中h2L[i]是解释的遗传力，VL[i]是加性(=A)，表型(=P)，遗传(=G)方差。在这个尺度上，我们只考虑来自位点的附加贡献(VAL[i])，这允许与现有的从家庭数据(h2L)得出的责任遗传力估计进行比较。13、15、16此外,假设下的一个小的相对危险度(RR)变体B(即RRBb接近1)和乘法模型上观察到的范围(例如,RRBb2 = RRBb),一个近似的遗传是由h2L-approx[我]= 2 p(1−p) (RRBb−1)2 / v2, p是风险等位基因的频率B.18, 21日,22日在这里v是患病个体的平均负债,近似为z / K, z是标准正态分布的高度的阈值T K比例,这样T= Φ−1(1−K)(即总体疾病风险;然后h2L[i]/h2L(或h2L-approx[i]/h2L)估计第i个风险变量解释的总遗传力的比例。

3.3 兄弟姐妹复发风险解释

风险变异的影响也可以量化相对于总体兄弟姐妹复发风险(λS)9。兄弟姐妹共享VAO/2 + VDO/4的风险17，其中VAO和VDO是观察到的风险量表上的加性和显性遗传方差。因此，可归因于第i个风险变异的风险增加为。由表1我们可以估计VAO[i] = k2bb2p(1−p)(p(RRBB−RRBB)+(1−p)(RRBB−1))2,VDO[i] = k2bbp2(1−p)2(RRBB+1−2 RRBB)2。λs[i]与λs的比值表示变体对兄弟姐妹复发风险的影响，其中λs通常从已发表的估计中获得。

而λs[i]/ λs在零假设条件下会给出无意义的值。当λs[i] =1时，该比值错误地表明第i个变异对遗传风险有贡献，当λs =1时，该比值等于1。取而代之的是对数(log(λs[i])/log(λs))的比值。

在这里，λs[i]=1时，对数的比值适当地表明第i个遗传变异对风险没有贡献。对数的比值给出了在(0,1)范围内更均匀分布的值。当然，尺度的变化会导致量化的不同

3.4 对数相对风险量表上的遗传变异

3.5 曲线下面积的比例

我们还可以通过第i个风险变量来确定基于所有遗传信息的风险预测模型所能达到的最大可能AUC的多少。首先，我们可以使用解释负债规模(h2L[i])4的方差来估计第i个变量的AUC，其中x = - z/K, T为总体阈值，v = - x * K(1 - K)(如上文和框1所述)接下来，我们通过将总体遗传力h2L(例如，从双胞胎研究中估计)代入上述方程，确定可达到的最大AUC 4。虽然AUC上限为1.0，但遗传因素的AUC一般较低。然后，我们可以估计由风险变量解释的最大AUC的比例为比例AUC, pAUC = [(AUCL[i]−0.5)/(AUCMax−0.5)]2。我们对这一度量进行平方，因为它与遗传力的平方根相关，允许与其他更直观地解释的度量进行比较。这个测量值一般从0 (AUC=0.5)到1 (AUC=1)

4.6 人口归因于分数

PAF评估了多少疾病可以“归因于”遗传风险变异。这通常用于近似修改或消除接触对公共健康的影响。虽然我们目前无法通过干预来消除或消除风险变异，但遗传paf常用于估计有多少疾病可归因于风险变异。我们可以通过风险变异(即减去基线风险)导致疾病的比率除以总体风险来计算，

在这里插入图片描述
这些方程强调，PAF是“去除”遗传风险变异对疾病总体风险的影响。注意，以前的工作给出了一个不正确的PAF19方程。

4. 单变量测量的比较

我们首先评估了上述方法如何评估单一基因变异对疾病的影响。具体来说，我们计算了携带一个额外风险等位基因的风险等位基因频率(RAFs)和遗传相对风险(RRs)范围内的度量。我们假设人群的总体患病风险为0.01，兄弟姐妹复发风险为5——这与55%的责任量表上的整体遗传遗传力和基因型rr的乘法模型一致。请注意，我们分别给出了PAF的计算，因为它给出的估计通常比其他度量大一个数量级。

用所有的测量方法解释的遗传风险的比例是相似的，对于不太常见和/或对疾病影响不大的变异来说是相当有限的(图2)。然而，当RAF增加到某个点时，以及当rr增加时，这些测量方法就会产生分歧。传统的遗传力估计总是表明，无论RAF和RR如何，遗传变异对疾病的影响是最小的之一(图2，红线)。当RR < 1.5时，近似遗传力给出了相似的值，但随着RR的增加，这越来越高估了遗传力，正如推导所预期的那样。解释的兄弟姐妹复发风险表明，当RAF≤0.25时，遗传变异对疾病的贡献最大，但当RAF较大时，遗传变异对疾病的贡献较小(图2，绿线)。而被解释的logRR遗传变异则呈现相反的趋势，当RAF < 0.25时，logRR遗传变异低于兄弟姐妹复发的风险，而在更常见的风险变异中，logRR遗传变异则更高。最后，pac始终表明对所解释疾病的遗传基础的最高估计之一(图2，橙色线)。虽然这些差异可能看起来很小，但它们只对个体变异如此。在众多风险变量中聚合，度量中明显存在较大的差异，如下面的应用所示。

几种方法的比较

5. 多种危险位点对疾病的贡献

为了确定多个风险基因座对疾病的贡献，从摘要统计数据中，单个基因座的方法是独立的，可以汇总。具体而言，对于责任量表上的遗传力，近似遗传力，同级相对风险和LOGRR遗传方差，从每个基因座计算的贡献之和计算总分。同样，使用责任的总遗传力来计算AUC。为了计算由于多种风险变体而导致的PAF，不能简单地将单个变体PAF添加在一起，因为这忽略了大多数人会携带多个风险等位基因的事实。实际上，总结单个变体PAF可以迅速提供总体PAF> 100％。取而代之的是，我们可以在多个变体中计算关节PAF，这限制了总PAF，因为所有风险变体≤100％。具体而言，如果我们假设风险变体彼此独立，并且它们对疾病的综合作用是乘法的，则Paftotal = 1 -∏I（1 -PAFI）给出了PAF的联合估计。

6. 在复杂疾病中的应用

为了进一步探索这些测量方法如何暗示遗传变异对疾病的不同影响，我们通过乳腺癌、克罗恩病、类风湿性关节炎和精神分裂症的研究计算了它们。我们选择这些疾病是因为迄今为止它们已经得到了很好的研究，并具有一系列潜在的遗传结构。对于每一种疾病，我们选择那些先前在文献中报道的与疾病独立相关的基因座，并确定报告的风险等位基因，其频率，以及通过比值比估计的相对风险。更具体地说，乳腺癌的基因座是从NHGRI的目录中获得的(http://www.genome.gov/gwastudies)，而对于其他三种疾病，我们使用的是由相应出版物独立报道和选择的snp。虽然SNP选择的标准因出版物而异，而且正在进行的工作仍在继续发现这些性状的新位点，但这里考虑的SNP提供了测量方法差异的充分观点，包括额外的SNP不应在实质性上影响我们的发现。

乳腺癌，Breast cancer
克罗恩病，Crohn’s disease
类风湿性关节炎，Rheumatoid arthritis (RA)
精神分裂，Schizophrenia

7. 人口归因分数:一个有问题的测量方法

PAF也可用于评估遗传因素对疾病的影响，但这种方法有一些局限性PAF估计，如果从人群中去除一个危险因素，可能会减少多少疾病。在我们的经验比较中，即使在RAF=0.01和RR较低的情况下，PAF给出的估计值通常也比其他度量值大一个数量级。当RAF增加到0.50以上时，PAF是一个持续增加的指标，因为它直接依赖于RAF。即使是单一的变种，随着RAF和RR的增加，PAF可以接近100%的上限。例如，在我们的乳腺癌应用中，一个具有较大RAF(0.90)但对疾病影响不大(RR=1.20)的变体(rs10771399)具有非常大的PAF(28%)(表2)。类似地，如果一个罕见的遗传变体对疾病具有保护作用，另一个(非常常见的)等位基因可以提供非常大的PAF。例如，克罗恩病(次要等位基因频率=0.07%，RR=0.42)23的保护性IL23R编码变体(rs11209026)产生了惊人的81%的PAF(即，对于风险等位基因，RAF = 0.93, RR=1/0.42=2.37)(表2)。相比之下，我们的精神分裂症应用程序显示了一个具有巨大效应量(RR=26.0)的罕见变体(CNV在16p11.2, RAF = 0.0003)如何具有相对较小的PAF(=1.4%)(表2)。四种疾病的PAF均为90%(只有一半的克罗恩病风险变异为100%)(表2，补充表1-4)。

合并的PAF还显示出一个计算异常:每个额外风险变量的明显影响取决于哪些变量已经被纳入到该度量中。例如，假设一种疾病有两种遗传变异，每一种变异的单个PAF为0.50，相应的组合PAF为0.75(=1−(1−0.5)2)。如果干预措施消除了这些风险位点中的任何一个的风险变异的影响，将使人群中的发病率降低一半。在第二个位点采取干预措施将进一步减少剩余种群中发病率的一半，或在原始种群中发病率的四分之一。去除暴露的顺序将影响其对复合PAF的明显影响的大小。换句话说，给定风险变量对组合PAF的明显影响取决于已经发现的内容。即使风险变异具有相同程度的关联和风险等位基因频率，来自研究较少和研究较多的性状的新变异似乎也会产生更大的影响。此外，多个低外显风险snp的联合PAF与从人群中去除单一的高风险环境暴露(如减少吸烟以降低肺癌发病率)所获得的PAF不同。这里的区别不仅取决于风险因素的数量，还取决于它们的外显率和患病率，以及他们的改造或治疗干预的潜力。随着已知的风险基因座的数量持续增加——其中许多是相当常见的——基本上人群中的每个人都会携带一些风险等位基因。那么，任何针对风险位点的预防治疗都必须适用于几乎所有人群。

8. 措施取决于基线疾病风险

在此处评估的措施中，遗传力取决于基线疾病风险（K）。实际上，可以直接估算PAUC，但在这里是根据遗传力的责任计算得出的，该责任的遗传力是根据报告的风险等位基因频率计算得出的，RR和因此也取决于K。对于给定的RR，它们都随着k的增加而增加，它们都会增加K RR表示相对于野生型纯合子的风险，取决于K。遗传力和PAUC的比例实际上随着K的增加而较低，因此这些取决于K。风险，LOGRR遗传差异和PAF不依赖于K，这是这些度量的优势，因为定义K并不总是很简单。然而，对于大多数疾病而言，可以从文献中确定的K（可以从文献中确定）可能会很小。例如，对于乳腺癌，K的范围为10-15％，克罗恩病为0.3-0.5％，RA为1％至3.6％，而精神分裂症为0.5-1％。这样的范围可能对遗传力和AUC的比例产生有限的影响，因此对于K的错误指定，这将相对强大。我们注意到，尽管兄弟姐妹复发风险，LOGRR遗传差异和PAF似乎并不取决于K，但那里似乎并不取决于K。是一个内置的假设，即用于计算同胞风险的家庭数据中的基线疾病风险是相同的，就像用于计算单个变体风险贡献的人群一样，因为任何相对风险相对于基线表达。违反此假设可能会产生误导性结果。

为了使事情进一步复杂化，文献中关于基线风险的定义有些混乱，部分反映了学科的合并。 Falconer将K定义为二元性状的发生率12“或者在人类疾病的背景下” 13。两者的发病率（即，在一段时间内发生新病例的发生率）和患病率（即，任何一次受疾病影响的人口比例）在流行病学中具有非常精确的含义。实际上，计算遗传责任的相关基准是生命周期风险（LMR），即受影响或终身发生率的寿命概率。最有可能出现混乱，因为在定量遗传学理论中理想化的人群中逻辑思维的理想化人群中，参数流行率和LMR将是相同的。实际上，它们可能会大不相同。例如，精神分裂症是一种疾病，患有相对较早的发病年龄，诊断后的平均平均预期寿命（尽管与普通人群相比降低），因此每年的发病率，患病率和终生病态风险在2.5、46和46和分别为每10,000分，分别为33。作为另一个例子，请考虑运动神经元疾病，其中中位年龄约为60岁，预期寿命仅为2-5岁。在这里，估计的发病率，患病率和终生病态风险分别为每10,000分的0.3、0.6和25。对于较少常见的疾病，LMR的评估（或患病率或发病率）和对亲戚的风险与相当大的抽样差异有关，并且在研究之间估计了责任和兄弟姐妹相对风险的遗传力可能会有很大差异。最后，除了基线疾病的风险外，研究设计和时间依赖性影响也可能影响此处考虑的措施。

9. 关注均值还是方差?

在对比不同的测量方法时，需要考虑的另一个重要问题是，是否应该强调评估人群中变异对平均风险的影响还是遗传变异。在一个简单的相加模型下，对均值和方差的影响分别为2pa和2p(1−p)a2(见表1，假设d=0)。因此，在固定时或接近固定时的变量(p接近于1)可以对平均值产生相对较大的影响，而对变量没有影响。因此，对于一个给定的效应大小，“干预”更常见的变异可能有助于减少疾病，无论解释了多少变异。然而，如果有许多疾病的风险变异，就不可能有效地去除或影响所有的变异来降低风险。在这种情况下，使用关注平均值的度量(例如，PAF)是没有意义的。相反，我们建议使用有助于理解和解释均值附近变异的测量方法，这是遗传风险预测的一个关键组成部分。

10. 扩展和附加测量

我们的重点是对有限数量的变体的度量，在这种变体中，我们将单位稳定方法扩展到在风险变体之间独立性的假设下，将单位级别的方法扩展到多个基因座。因此，通常使用区域最相关的基因座。一定是，这需要对连锁不平衡的任意阈值，随着发现更多相关的基因座，这变得越来越不满意。为了克服这一点，可以将相关的基因座放在回归分析中，并且可以估计基因座之间的相互依赖性的方差解释。如果使用用于发现相关基因座的样本，则与是否从同一人群中得出的独立样本估算的贡献相比，可能会有一些方差通胀。基因组风险概况评分15,35是一种用于测试一个样品中鉴定的相关SNP的疗效的一种策略，以贡献另一个样本中的方差。简而言之，在发现样本中进行的GWA所确定的风险等位基因及其效应大小用于在独立目标样本中生成基因组概况风险评分（GPRS），使用发现样本中的p值的SNP以下是某些用户定义的SNP统计显着性的阈值。对于目标样本中的每个人来说，计算了GPRS，作为根据发现样本中效应大小加权的风险等位基因计数的总和。考虑到其他已知协变量后，通过对GPRS的目标表型的回归进行评估。功效统计量通常是Nagelkerke的R2或AUC，尽管责任量表上的表达可能更可解释。

为了说明基因座之间的相关结构，并估算了归因于跨基因组的可归因的方差的总比例，可以使用更复杂的混合模型，共同拟合所有变体5,37。这样的方法估计所有变体的差异，即所谓的芯片herainity（或SNP herainity）。一个人还可以基于变体的注释，例如，在与疾病相关的基因座和所有剩余变体相关的基因座的注释中，也可以对此方差进行划分。在这里，一个人符合已知基因座的遗传贡献，是一种随机效应，而其他所有基因座的遗传贡献则符合另一个基因座的遗传贡献。然后，这些比率将估算出多么众所周知的风险变体解释整体芯片可遗留能力。这些由遗传变异解释的遗传力的不同组成部分如图4所示.

疾病遗传力的各个方面：已知，隐藏和失踪
从家庭研究中估计的总遗传力中越来越多的比例可以通过在现有全基因组关联研究（底部）中检测到的已知变体来解释。这是这里考虑的关键措施之一。剩余的遗传力可以分解为“隐藏”与“仍然缺失”的遗传力。可以通过最大似然（GREML）模型从全基因组阵列中估算隐藏性遗传力。仍然缺失的遗传力是即使经过全基因组关联研究，也可能仍然存在，例如反映了遗传不同的体系结构（例如，稀有变体）。请注意，由于非添加遗传因素或非遗传因素的混淆，总遗传力可能会向上偏置。

请注意，此处评估的遗传变异并不是唯一用于确定风险变异的实用性的测量棒。在特定情况下（即某些患者），一组变体可能具有良好的临床效用，而没有解释人口的太大差异，反之亦然。此外，除了AUC之外，还提出了许多措施来评估已知变体的风险预测特性。38但是，由于其中许多措施没有产生一个单一的，有界的摘要值，并且背景因素依赖于上下文，它们对评估遗传没有用来。变异本身。

11. 结论和展望

虽然历史上不同的定量遗传学和流行病学领域正在融合有关人类疾病潜在风险的遗传变异的基本问题，但大量措施量化了变异对疾病风险的贡献具有不同的术语和假设，这些术语和假设使他们的使用和解释掩盖了和解释和解释和解释。
我们考虑和对比最常用的措施，评估疾病风险通过个别变体促成人群的造成人群：解释的遗传力，兄弟姐妹复发风险，解释的兄弟姐妹复发风险，对数相对风险量表上解释的遗传差异的比例，接收器下的面积操作曲线（AUC）和种群可归因的部分（PAF），并提供乳腺癌，克罗恩病，类风湿关节炎和精神分裂症的数值例子。
我们讨论了这些措施的属性，展示它们如何相互连接，讨论它们最适合的情况，并为其计算提供在线工具。
使用最合适的措施取决于对风险变异频率相对于其对疾病的影响的重要性以及表达重要性的基线的重要性；评估遗传变异对疾病的贡献时，应明确考虑这些因素。
我们建议研究人员主要关注责任或遗传差异对日志相对风险量表的遗传力，因为这些估计值对罕见，高风险变异的敏感性不如此处考虑的其他措施；我们警告不要将PAF用于遗传风险变异，因为它具有许多不良特性。
单个基因座的“解释”疾病的概念比一见一见钟情的概念不那么直接，我们建议研究人员进行敏感性分析，以探讨在一系列基本假设中，遗传变异对风险的贡献的测量如何变化。