【佳学基因检测】打破平衡:Hardy-Weinberg 不平衡作为dota2吧雷电竞 反复性杂合性缺失标志物的基因检测
不同基因突变的基因检测 导读:
识别dota2吧雷电竞 样本中的杂合性丢失 (LOH) 区域是一个具有挑战性的问题。贼先进的计算方法可以从单核苷酸多态性 (SNP) 阵列数据中推断出 LOH,但由于正常细胞污染和生殖系中纯合的标记物,因此正确的边界变得复杂,因此没有信息。贼近,重点已转移到确定多个dota2吧雷电竞 中反复受杂合性缺失事件影响的基因座。反复性杂合性缺失区域通常含有对dota2吧雷电竞 抑制很重要的基因。在这里,我们提出了一种方法,该方法可以在逐个 SNP 的基础上推断整个样本集的杂合性缺失率。我们的方法通过利用简单的原理来实现这一点,根据定义,LOH 会耗尽杂合子,从而破坏 Hardy-Weinberg 平衡。我们对这种受杂合性缺失影响的中断应用统计检验,并根据观察到的杂合子数量得出杂合性缺失率的贼大似然估计量。这解释了杂合性缺失的半合子缺失和拷贝中性形式,并且不使用匹配的正常基因型。功率模拟显示统计测试的高灵敏度,并且应用于对照正常组织数据集显示低错误发现率。我们将该方法应用于三个大型公开可用的dota2吧雷电竞 SNP 阵列数据集,其中它能够定位杂合性缺失事件的肿瘤抑制基因靶标。推断的杂合性缺失率在平台/实验室之间以及细胞系和肿瘤之间非常一致,但以肿瘤类型依赖的方式。贼后,我们生成的速率估计值通常高于以前发布的值,
介绍
人类癌症的特征在于获得体细胞突变。这些突变包括单碱基变化、结构改变(如倒位和易位)以及染色体片段的获得和损失。一类重要的体细胞突变是杂合性缺失 (LOH),其中亲本同源物之一的一部分丢失,导致半合子缺失(基因座的每个肿瘤细胞一个拷贝)或拷贝中性 LOH,其中一个亲本同源物的删除片段被另一个同源物的重复替换。后一种现象也称为单亲二体性或基因转换,并导致每个肿瘤细胞有两个基因座拷贝。在癌症中,LOH 事件通常是 Knudson 的“两次打击”假设的表现( 其中杂合性缺失是通过突变、DNA 甲基化或其他方式中和保留的亲本同源物后的“第二次打击”。或者,由于单倍体不足,LOH 可能会减轻该区域基因的活性。所有这些机制都可以通过灭活肿瘤抑制基因来赋予受影响的细胞选择性生长优势。因此,可以通过查询大量肿瘤数据集寻找杂合性缺失的反复区域来识别肿瘤抑制基因。这种潜在的范式——通过查询大型肿瘤数据集,可以将反复的“驱动”病变与“乘客”分开——是癌症基因组图谱(美国)、癌症基因组计划(英国)等大型工作的核心。
在过去十年中,单核苷酸多态性 (SNP) 阵列已成为一种以高通量方式扫描癌症基因组的工具,可揭示多种体细胞变化 。这些阵列提供了遍布整个基因组的数十万个 SNP 的基因型。为方便起见,每个 SNP 的两个等位基因通常标记为 A 和 B,因此 DNA 样本在 SNP 处被基因分型为纯合 AA、纯合 BB 或杂合 AB。尽管肿瘤 DNA 通常含有偏离每个细胞两个拷贝的染色体区域,但基因分型软件会将这些区域的 SNP 称为纯合子或杂合子。这些调用对于杂合性缺失检测 很有用,因为理论上杂合性缺失意味着不存在杂合子(尽管反过来不正确)。
从 SNP 基因型逐个样本地正确调用杂合性缺失区域具有挑战性。如果没有匹配的正常数据,大多数算法依赖于不寻常的纯合性延伸作为杂合性缺失的标志。这种方法非常不正确,严重依赖于隐马尔可夫模型(HMM)或分割( 方法。即使有匹配的正常基因型可用,在种系中纯合的 SNP 也不会提供有关杂合性缺失的信息,再次需要不正确的 HMM/分割程序。由于肿瘤细胞周围基质组织的污染,甚至被误认为杂合子的片段中间的单个 SNP 污染,可能会遗漏整个片段的真正丢失。此外,LOH 的高度聚焦区域很可能未被检测到。特定样本缺乏敏感性将影响下游多样本查询,以查找经常性 LOH,这通常通过在整个队列中与特定样本区域相交来执行。因此,尽管杂合性缺失分析具有生物学重要性,但许多贼近的大规模癌症基因组研究并未突出显示杂合性缺失分析。例如,并且为此目的仅考虑具有匹配的正常基因型的样本。
在这份手稿中,我们提出了一种通过单独处理每个 SNP 来避免这些问题的方法。关键观察结果是反复性杂合性缺失将导致受影响区域中 SNP 杂合子的相对消耗。如果 SNP 在群体种系中处于 Hardy-Weinberg 平衡(HWE),肿瘤中反反复生的杂合性缺失事件将破坏这种平衡(图 2)。 1)。在过去一个世纪的大部分时间里,Hardy-Weinberg 原理一直是群体遗传学领域的核心,但之前并未应用于体细胞癌基因组学。对于肿瘤基因型数据集中的每个 SNP,我们应用单侧检验(称为 HWE-LOH 检验)作为替代假设,即杂合子少于预期。Wigginton等人描述了 HWE 下杂合子数量的无效分布。,其中适用于我们单侧测试的P值称为P low。除了使该测试适应我们的设置之外,我们还扩展了该概念,以根据在 SNP 处观察到的杂合子数量和等位基因组成推导出贼大似然估计量。
图1:LOH 对 HWE 的影响。在这个例子中,每个 SNP 等位基因 A 和 B 的频率p和q是 50%。在 HWE(左)下,纯合子(AA 和 BB)的数量和杂合子的数量(AB)应该近似相等,因为这里p 2 + q 2 = 2 pq。在反复性杂合性缺失的基因组区域中,一些样本受到 LOH(阴影样本)的影响,从而扰乱了平衡(右),因为杂合子的比例比HWE 规定的 2 pq少。
为了评估我们测试的性能,我们进行了模拟实验来衡量它的能力。此外,我们将检验和贼大似然估计器应用于来自肿瘤的三个大规模 SNP 阵列基因型数据集(表 1)。先进个包括来自胶质母细胞瘤的癌症基因组图谱 (TCGA) 研究的 166 名患者样本 。这些样本在 Illumina Infinium HumanHap550 SNP 芯片上运行,该芯片可检测 547 458 个常染色体 SNP。每个样本的匹配正常 DNA 也在阵列上运行,提供方便的阴性对照。第二个数据集包含 Affymetrix Genome-Wide Human SNP Array 6.0 基因型,该基因型由 Wellcome Trust Sanger 研究所的癌症基因组计划针对源自各种肿瘤类型的 841 种癌细胞系中的每一种产生 。对于第三个数据集,我们从贼近发表的一项跨越多种癌症类型的研究中获得了 1767 个阵列样本 。这些样本在 Affymetrix 250K Sty上运行阵列,它询问 222 838 个常染色体 SNP。在目前的研究中,我们将这三个数据集分别称为 TCGA 数据、癌症基因组计划数据和 250K 数据。
表1:数据集
当前研究中的标识符 | 数组类型 | 数据源 | 样本数量a | 匹配正常吗? | 组织类型和来源 |
TCGA | 照明 550K | 癌症基因组图谱 | 166 | 可用的 | 胶质母细胞瘤原发组织 |
癌症基因组计划 | Affymetrix SNP6.0 | 癌症基因组计划 | 841 | 不可用 | 来自多种肿瘤类型的细胞系 |
250K | Affymetrix 250K麦粒肿 | 博大研究所 | 1767 | 不可用 | 来自多种肿瘤类型的细胞系和原发组织 |
a在样本过滤之前。
结果
HWE-LOH 测试能够很好地检测反复性 LOH
为了评估 HWE 测试的功效,我们首先使用模拟数据进行了分析(参见材料和方法)。在我们的设置中影响功效的参数是样本量、LOH 率和 SNP 次要等位基因频率 (MAF)。我们对样本大小 100、500 和 1000 进行了模拟。补充材料,图 S1显示功率作为各种样本大小的杂合性缺失率和 MAF 的函数。可以看出,我们有 >80% 的能力来检测低至 20% 的杂合性缺失率,除非样本量或 MAF 非常低。由于杂合性缺失区域通常包含多个 SNP,因此通常可能会影响到高 MAF SNP。因此,样本量在实践中更有可能对功效产生不利影响。然而,对于较大的样本量,我们有能力检测低至 10-20% 的杂合性缺失率。正如我们在下面展示的,如此高的比率在肿瘤收集中很常见。
HWE-LOH测试假阳性率低
匹配的正常基因型数据可用于 TCGA 数据集中的每个样本,提供方便的阴性对照(请注意,我们的方法既不需要也不使用匹配的正常基因型——它们在这里仅用于衡量特异性)。肿瘤和正常 TCGA 基因型的 HWE-LOH 检测结果见图 2. 在测试的 510 932 个阵列 SNP 中,匹配的正常基因型中只有 76 个(<0.015%)(图 3)。 2A) 产生的P值 <10 -6。相比之下,20 710 个(4%)的 SNP 显示肿瘤基因型的P值<10 -6(图 2)。 2B),这意味着该P值阈值的错误发现率 <0.4% 。因此,肿瘤数据中的统计学意义是杂合性缺失事件的结果,而不是基于人群分层的效应。
图 2:TCGA 数据中的HWE-LOH P值。( A ) Illumina 550K 阵列与166 名 GBM 患者的正常基因型P值匹配。插图显示了染色体 9p 上PTPRD基因中 rs7857074 的基因型计数。( B ) Illumina 550K 阵列肿瘤基因型P来自相同患者的值。插图显示了肿瘤中 rs7857074 的基因型计数。
HWE-LOH 测试识别峰值区域的PTPRD
数字 2在整个 10 号染色体上显示出非常强的信号,以及在 9p 号染色体上的一个更集中的峰。峰中得分贼高的 SNP 是 rs7857074。插图中的插图 2在 rs7857074 显示正常和肿瘤中的基因型计数。该 SNP 在PTPRD基因的转录区域内。有趣的是,PTPRD正在成为多种癌症类型中的重要肿瘤抑制基因,包括胶质母细胞瘤。然而,尽管他们的研究使用了与我们在这里提供的有效相同的数据,但在 TCGA 胶质母细胞瘤 论文中并未突出显示该基因( PTPRD改变被称为“不常见”)。
LOH 率的贼大似然估计器概括了 TCGA 研究中强调的肿瘤抑制基因
尽管 HWE-LOH P值是检测反复性杂合性缺失的一种敏感且特异性的测量方法,但它不仅受局部杂合性缺失率的影响,还受 SNP 的潜在等位基因频率的影响(补充材料,图 S1)。因此,P-值不是局部恒定的——也就是说,它们的值可能在两个基因组上连续的 SNP 之间突然变化,即使两个 SNP 的杂合性缺失率可能几乎相同。另一方面,由于杂合性缺失事件是分段发生的,因此杂合性缺失速率是局部恒定的。贼好在特定位点评估跨样本集的速率。为了解决这个问题,我们开发了一种贼大似然方法来估计每个 SNP 的杂合性缺失率。我们的方法在给定杂合性缺失率的情况下构建了肿瘤杂合子数量的预期概率分布。由于观察到杂合子的数量,因此可以计算杂合性缺失率的贼大似然估计量(详见材料和方法)。
原始 TCGA 论文中的一项显着发现是在询问的样本中确定了三种经常改变的途径——RTK/RAS/PI(3)K、p53 和 RB 。在这些通路中,作者发现了 8 个基因(CDKN2A、CDKN2B、CDKN2C、FOXO3、NF1、PTEN、RB1和TP53) 反复携带失活突变,并且是已知或推定的肿瘤抑制基因。对其通路分析所考虑的失活突变类别仅限于突变和纯合缺失。我们试图确定是否可以仅使用基于 HWE 的杂合性缺失信号来识别某些相同的基因。八个基因中的七个(除CDKN2C 之外的所有基因)都含有 Illumina 550K 阵列 SNP,因此我们的程序可能会检测到。在全基因组范围内,我们在标记的重要峰区域内鉴定了 1150 个基因(补充材料,表 S1)。引人注目的是,这些包括四个基因(CDKN2A、CDKN2B、PTEN和RB1) 的七个(Fisher 正确检验P值 8.8 × 10 -4)。数字 3显示了我们程序在RB1附近的杂合性缺失率估计,突出了这些估计与 HWE P值相比的相对稳定性。这些信号通路中的其他基因属于我们的方法标记的那些。例如,BRCA2位于 13 号染色体上一个标记的显着峰内,在大约 25% 的样本中经历 LOH。
图 3:贼大似然程序将RB1识别为位于反复杂合性缺失区域。平滑杂合性缺失估计值由基位置绘制,并且在 HWE-LOH 测试下根据统计显着性( P值)对点进行着色。插图中详述的RB1的转录区域由图顶部的黑线段表示。转录区域包含一个局部杂合性缺失峰,但位于附近较高峰的上游,该峰可能含有调节元素。
LOH 率估计值是肿瘤类型特异性的,但在细胞系和原发性肿瘤之间是一致的
对于癌症基因组计划集,我们首先从细胞系中获取原始数据(Affymetrix .CEL 文件),然后使用 Birdseed 算法 生成它们的基因型。在材料和方法中描述的样本过滤后,我们留下了 471 个主要是西欧血统的样本。数字 4A 显示了这组基因组中估计的杂合性缺失率。特定的全染色体和染色体臂在频率方面尤为突出,特别是 3p、9p、10p、13p 和 17p。这些位置中的每一个都含有在多种组织类型中至关重要的肿瘤抑制基因——分别为MLH1、CDKN2A、PTEN、RB1和TP53。因此,结果与作为肿瘤类型合并的数据一致,贼强的杂合性缺失信号来自具有跨肿瘤类别关键基因的区域。事实上,有 26 种不同的组织类型(补充材料,表 S2)在这个细胞系集合中表示,基于~80%的信息可用。为了比较,我们还计算了包含 83 个肺细胞系的数据子集的杂合性缺失估计值(图 3)。 4B)。总体而言,仅肺组中的杂合性缺失峰明显高于整个数据组,这可能是由于肺特异性肿瘤抑制基因的同质性更高。另一方面,仅肺的样本量越小,贼大似然估计的方差越大,这反映在图的更宽垂直范围中。然而,众所周知,贼大似然估计量在统计上是无偏的,因此各组的平均比率应该相当正确。
图 4:471 个癌症基因组计划细胞系中杂合性缺失率的估计。(一)来自471个肿瘤细胞系的Affymetrix 6.0基因型的每个SNP的LOH率的贼大似然估计被映射到SNP的基因组坐标并平滑。( B ) 对 83 个肺癌样本的子集执行相同估计程序的结果。请注意,(B)中较小的样本量会产生较大的估计方差,这说明了更广泛的垂直分布。
与癌症基因组计划数据集一样,250K 集包含数十种肿瘤类型(补充材料,表 S3)。为了测试杂合性缺失估计量是否受到平台或实验室特定效应的影响,我们将其应用于 250K 数据集的非小细胞肺子集(198 个样本),并与仅肺子集的肺子集进行相关性分析。癌症基因组计划数据(图 1)。 5A)。对于每个染色体臂,我们计算了癌症基因组计划和 250K 组内的平均估计杂合性缺失率,并检查了两者之间的相关性。这里的相关性非常强(r 2 = 0.82;P = 2.06 × 10 -11)。我们得出的结论是,我们的方法不太容易受到平台或实验室特定工件的影响。
图 5:数据集之间的一致性。(一)为 250K 数据集的仅肺子集(水平轴)和癌症基因组计划数据集的仅肺子集(垂直轴)绘制了每个臂的平均杂合性缺失估计值。( B ) 比较 250K 数据集的原发性肿瘤(横轴)和细胞系(纵轴)子集的类似图。
关于细胞系是否是体内人类肿瘤的高效模型,癌症研究界存在一些争议。为了在我们自己的数据背景下考虑这一点,我们将 250K 样本集(可获得信息的部分)划分为 109 个细胞系和 415 个原发性肿瘤。如图 5B,相关性再次相当强(r 2 = 0.79;P = 3.64 × 10 -10),支持细胞系作为模型的有效性。注意图中离群的关键峰 9p 和 17p 臂,可能分别反映了多种肿瘤类型中肿瘤抑制基因CDKN2A和TP53的高杂合性缺失率。还应该注意的是,细胞系中的杂合性缺失率估计值系统性地高于原发性肿瘤,但这并不奇怪,因为众所周知,由于原发性肿瘤中通常存在的正常细胞的污染,LOH 会被掩盖.
基因组杂合性缺失谱因肿瘤类型而异,但总体比率高于先前报道的
我们注意到,一般而言,我们的贼大似然方法产生的杂合性缺失率估计值比通常报告的要高得多。产生我们在此分析的三个数据集的三项研究没有提供杂合性缺失率的具体估计值。然而,例如,Weir等人。 估计在 250K 阵列上运行的 371 个肺腺癌数据集中的杂合性缺失率。在该研究中,贼常见的杂合性缺失区域位于 17p 染色体上,估计发生率约为 14%(124 个基质污染贼少的样本中的 17 个)。相反,对于癌症基因组计划数据,我们在肺样本中的 17p 估计值约为 78%,而 250K 集的估计值为 24%(图 2)。 5A)。这增加了我们高估的可能性。为了更仔细地研究,我们检查了 Affymetrix 阵列 SNP 的种系杂合率。我们推断,手臂上的 SNP 杂合性应该以大约等于实际杂合性缺失率的速率在肿瘤中下降。根据制造商的说法,Affymetrix 阵列 SNP 在西欧 (HapMap CEU) 样本中的平均杂合率为 26.7%。这与 17p 上 TCGA 匹配的正常样本的平均 27.5% 杂合率密切相关。因此,我们预计癌症基因组计划肺肿瘤中染色体 17p SNP 的平均杂合率约为 (1-0.78) × 0.267 = 5.9%,而 250K 肺数据中的平均杂合率为 (1-0.24) × 0.267 = 20%。事实上,实际平均值甚至略低,分别为 4.7% 和 19.8%,
跨数据集确定的新型候选肿瘤抑制基因
补充材料表 S1、S4 和 S5中提供了反复杂合性缺失区域(参见材料和方法)、其中包含的基因和提供强杂合性缺失信号的 SNP 。尽管三个数据集之间的整体基因组谱差异很大,但确实出现了跨数据集具有强信号的基因。例如,TCGA 数据集显然以 10 号染色体的丢失为主(图 1)。 2B),尽管 10 号染色体在其他两个数据集的结果中并不突出。然而,10q 上的SORCS1基因在 TCGA(HWE-LOH 测试P = 1.25 × 10 -26)和 250K(P = 7.6 × 10 -84)数据集中都是贼显着的基因之一,位居前 25 位。两个都。在 10 号染色体之外, 17 号染色体上的GLP2R在 250K 和癌症基因组计划数据集中显示估计的杂合性缺失率 > 30%。尽管使用了来自不同平台和肿瘤类型的基因型,但这些比率在各自数据集中排名前 25 位。SORCS1和GLP2R都不是先前已被鉴定为肿瘤抑制基因。然而,我们的分析结果将它们标记为这方面的有力候选者。
SORCS1确实映射到与众所周知且重要的肿瘤抑制基因PTEN相同的染色体臂上,相距约 19 Mb。尽管这是一个相当大的基因组距离,但它确实提高了我们研究中揭示的反复性SORCS1丢失仅仅是PTEN被广泛染色体丢失事件靶向的结果的可能性。然而, SORCS1的基于贼大似然的杂合性缺失率估计值高于PTEN在 TCGA 数据(74 对 54%)和 250K 数据(25 对 19%)中。作为另一条证据,TCGA 数据集匹配正常基因型的可用性使我们能够逐个样本更仔细地检查杂合性缺失事件。事实上,在正常样本中具有杂合基因型的 SNP 在匹配的肿瘤中变为纯合子表明 LOH(然而,请注意,我们研究中提出的方法旨在在不存在匹配的正常基因型的情况下工作;我们在这里严格使用它们作为独立验证)。检查匹配的正常基因型表明,101 个 TCGA 样本在SORCS1内携带种系杂合子,在肿瘤中变为纯合子。另一方面,只有 37 个样本在PTEN中携带种系杂合子在肿瘤中失去杂合性,这 37 个样本都包含在SORCS1显示杂合性缺失的 101 个样本中。这表明在PTEN进行杂合性缺失的样本主要是在SORCS1进行杂合性缺失的样本的一个子集。这也许不足为奇,因为许多杂合性缺失事件会影响染色体末端(即非间质),并且SORCS1位于PTEN的远端。
讨论
我们提出了一种从 SNP 基因型中检测反复性杂合性缺失的新方法。这种直接的方法在体细胞癌基因组学的新环境中应用了经典的群体遗传学原理——HWE。分析来自三个大型肿瘤 SNP 阵列数据集的基因型表明,该方法可以高效地识别含有重要肿瘤抑制基因的区域,而无需依赖匹配的正常基因型数据。通过逐个 SNP 推断杂合性缺失率,我们有效规避了调用样本特定杂合性缺失区域的问题。此外,我们的方法可以检测两种形式的 LOH——半合子缺失和拷贝中性 LOH。我们还表明,该方法在平台和实验室之间是一致的。
据我们所知,只有一项先前的研究(Seroussi等人)应用了 Hardy-Weinberg 原理来检测染色体缺失。该研究使用 HWE 来推断牛群中的种系缺失,作者使用术语杂合性缺失来表示一个亲本同源物缺失的遗传。在我们的研究中,个体在生殖系中完整地继承了基因座的两个拷贝,但在体细胞上丢失了一个拷贝。这两种杂合性缺失概念之间的区别在这里至关重要,因为 Seroussi等人中的种系缺失. 假设研究独立于两个 SNP 等位基因分离,从而建立了 HWE 的三等位基因案例。另一方面,在我们的例子中,LOH 会偶尔影响基因组,因此产生的三个等位基因不需要在 HWE 中(并且不假定是)。简而言之,Seroussi等人。方法假设 HWE(尽管在三等位基因设置中),而我们的方法利用了与 HWE 的偏差,这在癌症基因组学设置中是适当的。
PTPRD的本地化突出了单 SNP 方法的一个优势,特别是在 TCGA 数据集中。仔细检查得分贼高的 SNP rs7857074 周围的基因型强调了在许多样本中调用杂合性缺失的离散片段的困难(补充材料,图 S2)。很少有样本具有未被杂合子或无信息 SNP 破坏的纯合性运行,这可能对分割/HMM 方法提出挑战。事实上,TCGA 论文的补充 指出,长度少于 10 个 SNP 的片段被忽略了。正如我们所展示的,反复性杂合性缺失提供了有关重要基因/途径的线索,这些基因/途径与从反复性失活突变和缺失事件中收集到的基因/途径互补。
如上所述,我们分析中出现的两个基因以前没有被认为是肿瘤抑制基因。GLP2R确实含有一个变体,该变体贼近与含 HbF 的红细胞水平相关 。然而,之前的一项研究 发现GLP2R水平与肠肿瘤细胞生长或存活之间没有关联,并且没有其他出版物将该基因与恶性肿瘤联系起来。因此,其在癌症中的确切作用仍不清楚。另一个基因SORCS1是与神经发生相关的神经肽受体基因家族的一部分 。SORCS1与神经系统疾病——阿尔茨海默病和注意力缺陷多动障碍 。在我们的研究背景下,该基因在大脑中的功能重要性很有趣,因为 TCGA 数据集有效来自脑肿瘤,这表明SORCS1的破坏可能会破坏大脑中的正常生长抑制机制。
我们的方法确实有一些缺点。其目标是查明反复区域。尽管反复通常是癌症相关的迹象,但情况并非总是如此。此外,该方法依赖于 Hardy-Weinberg 不平衡作为反复性杂合性缺失的信号,因此从理论上讲,种系中 HWE 外的 SNP 可能会产生假阳性信号——众所周知,种群分层导致杂合子减少比 HWE 下的预期。然而,尽管 TCGA 数据集中的大多数样本具有未指定的祖先,但人口分层似乎并未导致匹配的正常数据 中P值的大幅膨胀(图 2)。2A)。因此,似乎人口分层对破坏 HWE 的影响不足以产生低于我们严格阈值的P值。尽管如此,由于其他样本集可能更加祖先分层,我们将我们在癌症基因组计划和 250K 数据中的分析限制在主要具有西欧血统的个体。
展望未来,Cancer Genome Atlas 和 International Cancer Genome Consortium 等国家和国际联盟正在从 SNP 阵列和更新的“下一代”测序平台生成越来越大的肿瘤基因型数据集. 由于此处介绍的方法将基因型作为输入,因此它同样适用于深度测序数据。然而,成本降低到足以让测序仪与 SNP 阵列相匹配,使其能够在全球范围内和不可知地在大量样本中以经济实惠的方式询问 SNP 基因型,还需要几年的时间。无论如何,基因型数据的持续泛滥——无论平台如何——确保我们提出的方法将变得越来越重要。
Wilkins K, LaFramboise T.
Hum Mol Genet. 2011 Dec 15;20(24):4831-9. doi: 10.1093/hmg/ddr422. Epub 2011 Sep 14.
PMID: 21920941
(责任编辑:佳学基因)