【佳学基因检测】基因检测数据库调用内容中的VCF文件中的INFO的意义：培训教材

基因检测技术导读：

完整高效的基因检测包括基因检测位点的先择、基因序列的获取、基因突变的序列的鉴定、突变位点生理学意义的注释。基于全外显子测序和全基因测序的基因检测由于获取的是全部基因序列，基因位点的选择就不重要了，而基因突变序列的鉴定和生理学意义的注释成为非常重要的环节。虽然，基因解码在数据库比对之外，采用了更高级的序列注释分析方法，但是，数据库比对、调用及注释是全外显子测序基因检测和全基因测序基因检测的贼为基础的一环。下面，是佳学基因对生物信息高经技巧班学员进行进一步有培训的内容之一。

不同的VCF的内容

8. INFO为variant的详细信息字段的意思可以在header里搜索去看

上面vcf 中INFO全为“.”了，是因为用 vcftools 某步过滤SNP输出文件时用了 --recode ，这样就不输出info信息，以 . 代替了，想输出info，可以--recode-INFO xx（如MQ）或者 --recode-INFO-all （所有info全部输出）

#DP-read depth：样本在这个位置的reads覆盖度。是一些reads被过滤掉后的覆盖度。DP4:高质量测序碱基，位于REF或者ALT前后

#QD：通过深度来评估一个变异的可信度。Variant call confidence normalized by depth of sample reads supporting a variant

#MQ：表示覆盖序列质量的均方值RMS Mapping Quality

#FQ：phred值关于所有样本相似的可能性

#AC，AF 和 AN：AC(Allele Count) 表示该Allele的数目；AF(Allele Frequency) 表示Allele的频率； AN(Allele Number) 表示Allele的总数目。

#FS

FS是一个通过Fisher检验的p-value转换而来的值，它要描述的是测序或者比对时对于只含有变异的read以及只含有参考序列碱基的read是否存在着明显的正负链特异性（Strand bias，或者说是差异性）。这个差异反应了测序过程不够随机，或者是比对算法在基因组的某些区域存在一定的选择偏向。如果测序过程是随机的，比对是没问题的，那么不管read是否含有变异，以及是否来自基因组的正链或者负链，只要是真实的它们就都应该是比较均匀的，也就是说，不会出现链特异的比对结果，FS应该接近于零。使用F检验来检验测序是否存在链偏好性。链偏好性可能会导致变异等位基因检测出现错误。输出值Phred-scaled p-value，值越大越可能出现链偏好性。

#MLEAC：Maximum likelihood expectation (MLE) for the allele counts (not necessarily the same as the AC), for each ALT allele, in the same order as listed. 对于每个ALT等位基因,等位基因计数(不一定与AC相同)的贼大似然期望(MLE),顺序与列出的顺序相同

#MLEAF：Maximum likelihood expectation (MLE) for the allele frequency (not necessarily the same as the AF), for each ALT allele, in the same order as listed. 对于每个ALT等位基因，等位基因频率（不一定与AF相同）的贼大似然期望（MLE），顺序与列出的顺序相同

StrandOddsRatio（SOR）

关于SOR在上面讲到FS的时候，我就在注释里提及过了。它同样是对链特异（Strand bias）的一种描述，但是从上面我们也可以看到FS在硬过滤的时候并不是非常给力，而且由于很多时候read在外显子区域末端的覆盖存在着一定的链特异（这个区域的现象其实是正常的），往往只有一个方向的read，这个时候该区域中如果有变异位点的话，那么FS通常会给出很差的分值，这时SOR就能够起到比较好的校正作用了。计算SOR所用的统计检验方法也与FS不同，它用的是symmetric odds ratio test，数据是一个2×2的列联表（如下），公式也十分简单，我把公式进行了简单的展开，从中可以清楚地看出，它考虑的其实就是ALT和REF这两个碱基的read覆盖方向的比例是否有偏，如果有效无偏，那么应该等于1。

VQSLOD是什么意思，有什么用途？

VQSLOD是Variant Quality Score Log Odds Ratio的缩写，它是一种用于衡量变异位点质量的指标，常用于遗传变异的鉴定、分类和筛选。

VQSLOD指标是由GATK（Genome Analysis Toolkit）开发的一种方法，在变异位点质量评估中得到广泛应用。该指标通过比较某个变异位点的观测结果与期望结果之间的对数比值来计算变异位点的质量。VQSLOD值越高，表示该变异位点越高效，可信度越高，反之则表示该变异位点的高效性较低。

VQSLOD的应用可以帮助分析人员将高质量的变异位点筛选出来，以便进一步分析和研究。此外，VQSLOD指标还可以与其他指标结合使用，如各类滤波器和注释信息，以提高变异位点的筛选效率和正确性。

culprit=FS是什么意思

"Culprit=FS"是一种对遗传变异的注释（annotation），其中"Culprit"表示致病性变异的可能性，"FS"是该致病性变异的一种计算方法。

FS是Fisher Strand Bias的缩写，是一种用于检测单倍型偏移（haplotype bias）的统计方法。在遗传变异的研究中，单倍型偏移指的是在一组样本中，某个变异位点的两种等位基因的比例与预期比例不一致的现象。如果某个变异位点的两种等位基因在一些单倍型中出现的频率比在其他单倍型中高，那么就可能产生单倍型偏移的现象。

FS值是根据Fisher正确检验计算得出的，用于评估单倍型偏移的可能性。如果一个变异位点的FS值很高，表明该位点存在单倍型偏移的可能性较大，可能对其致病性评估产生影响。

因此，"Culprit=FS"这一注释表示该变异位点的致病性评估结果受到单倍型偏移的影响，需要进行更加谨慎的评估。在遗传变异分析中，注释信息能够帮助分析人员更好地理解变异位点的特性和可能的致病性，从而更好地指导临床应用和疾病研究。

POSITIVE_TRAIN_SITE是什么意思？

POSITIVE_TRAIN_SITE是用于机器学习的训练数据集的一种标记（tag）。在机器学习中，POSITIVE_TRAIN_SITE通常指的是被认为具有某种属性或特征的数据样本，这些样本被用来训练机器学习模型。

在基因组学中，POSITIVE_TRAIN_SITE常常指的是已知的、被确认为具有某种遗传变异的基因组位点。这些位点通常被认为与某种疾病或特定的遗传特征相关。POSITIVE_TRAIN_SITE通常用于训练机器学习模型，以便对新的、未知的遗传变异进行分类和预测。比如，如果一个基因组位点被标记为POSITIVE_TRAIN_SITE，那么机器学习模型会使用该位点的信息来学习如何识别其他类似的位点，并预测它们是否具有相同的遗传变异。

在基因组学中，POSITIVE_TRAIN_SITE还可以用于改进遗传变异的筛选和注释方法。通过使用POSITIVE_TRAIN_SITE，分析人员可以训练模型来识别和过滤掉可能不相关的变异位点，从而提高变异位点的筛选正确性和高效性。

GT：

样品的基因型（genotype）。两个数字中间用’/”分开，这两个数字表示双倍体的sample的基因型。0表示样品中有ref的allele； 1 表示样品中variant的allele； 2表示有第二个variant的allele。

因此： 0/0表示sample中该位点为纯合的，和ref一致； 0/1 表示sample中该位点为杂合的，有ref和variant两个基因型； 1/1
表示sample中该位点为纯合的，和variant一致。

AD 和 DP：

AD(Allele Depth)为sample中每一种allele的reads覆盖度,在diploid中则是用逗号分割的两个值，前者对应ref基因型，后者对应variant基因型；

DP（Depth）为sample中该位点的覆盖度(一些reads被过滤掉的覆盖度)。

GQ：

基因型的质量值(Genotype Quality)。Phred格式(Phred_scaled)的质量值，表示在该位点该基因型存在的可能性；该值越高，则Genotype的可能性越大；计算方法：Phred值 = -10 * log (1-p) p为基因型存在的概率。

指定三种基因型的质量值。这三种指定的基因型为(0/0,0/1,1/1)，这三种基因型的概率总和为1。该值越大，表明为该种基因型的可能性越小。 Phred值 = -10 * log (p) p为基因型存在的概率。

(责任编辑：佳学基因)