【佳学基因检测】基因检测及基因解码技术标准：用于 HLA 的参照基因序列及等位基因序列的描述方式

序列比对

佳学基因解码基因检测经过不同的基因测序方式生成的比对文件采用规定范的方式进行命名和编号。命名和编号遵循《人类基因突变描述规范建议》，《人类基因突变描述规范建议》由国际人类基因组突变命名工作提出，该工作组专业从事研究如何命名和存储人类等位基因突变的序列方式。具体规范请参见在Human Mutation 11:1-3, 1998。

人类HLA基因检测位点中在什么时候下可以列入HLA等位基因突变数据库？

只有被 WHO HLA 命名委员会正式承认的 HLA 系统因子的等位基因才被列入序列比对标准文件中。
正如对所有人类基因突变描述规范建议的那样，所有比对都应使用标准参考序列。每个等位基因的完整参考序列列表参见人类基因突变描述规范。
参考序列将始终与相同的（原始）登录号相关联，除非该序列被证明是错误的。
所有等位基因都与人类基因突变描述规范参考序列对齐。
序列的命名基于人类基因突变描述规范的命名约定。

人类HLA基因突变位点的描述规范

每个等位基因的条目相对于参考序列显示。
在存在与参考序列相同的情况下，相应位置的碱基以 (-)描述。
通过在该位置显示对应的碱基来表示该位置的DNA序列与与参考序列不同。
如果在该位置发生插入或缺失，该位点用 (.) 表示。
如果在该位置的序列是未知的，在该位置处用星号 (*) 表示。
大编码的蛋白质序列的比对结果展示时，如果相应位置是由”终止“密码子编码，则在对应位置用”X“表示。
在蛋白质序列比对中，终止密码子之后的序列将不会被标记并显示为空白。
这些规范适用于核苷酸和蛋白质比对。

为了实现对任何基因坐标位点参照及突变序列的标准化展示，佳学基因解码建立并采用了与国际标准相兼容的编号系统，以正确表示核苷酸和蛋白质水平的序列比较。这些标准参照了 HUGO 基因命名委员会 (1) 为基因组序列编号提出的建议，并对 IMGT/HLA 数据库中保存的 HLA 序列使用了类似的编号方式。HUGO的许多提议在基因解码命名策略中已经得到体现。HUGO建议在所有的命名系统，每个基因座都应使用标准参考序列。在 HLA 等位基因的序列比对及命名时，基因解码已经为每个基因建立了标准参考序列。核苷酸序列描述及序列表达规范建议如下；

参考序列中的核苷酸编号应保持不变。
对于 gDNA 和 cDNA，ATG 起始蛋氨酸密码子的 A 被表示为核苷酸 +1。在一些未表达的基因中，该密码子不存在，在这些情况下，参考序列的先进个碱基被表示为核苷酸 +1。
紧接在 ATG 起始甲硫氨酸密码子 A 之前的核苷酸被表示为核苷酸-1。注意：没有核苷酸 0。
cDNA 序列从 ATG 起始蛋氨酸密码子的 A 开始连续编号。
核苷酸序列可以以密码子显示，在这种情况下，编号遵循蛋白质序列的编号。

基因解码技术体系中的核苷酸参照序列及突变序列的描述规范：

使用核苷酸编号及被取代的核苷酸表示发策突变的位置，随后发生取代后的核苷酸字母。例如; 997G>T 表示在 DNA 序列的 997 位上G 被 T 取代。
缺失用核苷酸编号加上“del”表示。例如; 997delT 表示 DNA 第 997 位 T 缺失。对于多个连续碱基的缺失，突变应用缺失的起始位置及却是的序列来表示。如997-998delTG，表示 DNA 997 和 998 位的 TG 缺失。
插入用用插入前及插入后的核苷酸编号加上“ins”及所插入的序列来表示。例如：997-998insT，表示在 DNA 的 997 和 998 碱基之间插入T。在序列比对时，插入和缺失用句点 (.) 表示，但参考序列的编号不会更改以包含插入的碱基。多个碱基的插入使用相同的形式表示，997-998insTG 表示在 DNA 的 997 和 998 位之间插入 TG 。

基因解码技术体系中的蛋白质的序列编号规范：

对于蛋白质中的氨基酸序列，以成熟蛋白质的序列为基准，起始密码子的编号为密码子 1。

5' 的密码子编号为 -1。

所有编号均以参照序列为基础。

在蛋白质序列比对描述时，采用单字母氨基酸代码描述蛋白质序列比对结果。

为避免与核苷酸编号相混淆。在命名时，需要添加p.以表示蛋白质序列。

基因解码技术体系中蛋白质序列突变描述所应遵循的方式：

在基因解码中描述蛋白质特定序列的氨基酸突变时，首先列出参考氨基酸，然后是密码子，然后是突变。例如; Y97S 表示将密码子 97 处的酪氨酸替换为丝氨酸。

终止密码子总是由 X 来表示。例如；T97X 代表97位的苏氨酸被终止密码子取代。

同样用del表示缺失。例如; T97del 表示97的苏氨酸密码子缺失。

同样，用“ins”表示插入。例如; T97-98ins 代表在密码子 97 和 98 之间插入苏氨酸。

基因解码技术体中的法斯塔（FASTA）格式规范

FASTA/Pearson 格式的数据描述方式采用两行来表示。先进行始终用“大于”(>) 符号开头并包含序列信息。在本例中文件中，序列信息包含 HLA 等位基因的名称。其余行包含表示编码核苷酸序列的纯文本。可以有任意数量、任意长度的这些序列行来表示核苷酸序列。

FASTA 格式的示例DRB1*01:01:01 ：

>DRB1*01:01:01

GGGGACACCCGACCACGTTTCTTGTGGCAGCTTAAGTTTGAATGTCATTT

CTTCAATGGGACGGAGCGGGTGCGGTTGCTGGAAAGATGCATCTATAACC

AAGAGGAGTCCGTGCGCTTCGACAGCGACGTGGGGGAGTACCGGGCGGTG

ACGGAGCTGGGGCGGCCTGATGCCGAGTACTGGAACAGCCAGAAGGACCT

CCTGGAGCAGAGGCGGGCCGCGGTGGACACCTACTGCAGACACAACTACG

GGGTTGGTGAGAGCTTCACAGTGCAGCGGCGAGTTGAGCCTAAGGTGACT

GTGTATCCTTCAAAGACCCAGCCCCTGCAGCACCACAACCTCCTGGTCTG

CTCTGTGAGTGGTTTCTATCCAGGCAGCATTGAAGTCAGGTGGTTCCGGA

ACGGCCAGGAAGAGAAGGCTGGGGTGGTGTCCACAGGCCTGATCCAGAAT

GGAGATTGGACCTTCCAGACCCTGGTGATGCTGGAAACAGTTCCTCGGAG

TGGAGAGGTTTACACCTGCCAAGTGGAGCACCCAAGTGTGACGAGCCCTC

TCACAGTGGAATGGAGAGCACGGTCTGAATCTGCACAGAGCAAGATGCTG

AGTGGAGTCGGGGGCTTCGTGCTGGGCCTGCTCTTCCTTGGGGCCGGGCT

GTTCATCTACTTCAGGAATCAGAAAGGACACTCTGGACTTCAGCCAACAG

GATTCCTGAGCTGA

基因解码技术体中PIR格式规范

The format of sequences in PIR/NBRF format is more complex. The first line of each sequence entry begins with a "greater than" (>) sign. This is immediately followed by a two character sequence type specifier: for the HLA alleles this is "DL", meaning DNA linear. Space four must contain a semi-colon. Beginning in space five is the sequence name or identification code: for HLA alleles this is the official allele name. The second line of each sequence entry contains a brief description, including the sequence length, and an internal checksum for PIR files. The coding nucleic acid sequence begins on the third line. The sequence is free format, but to aid in reading the sequences, the nucleotides have been arranged in blocks of 10 nucleotides. The last character is an asterisk (*), and acts as a termination character.

PIR/NBRF 格式更复杂。每个序列条目的先进行以“大于”(>) 符号开头。紧随其后的是两个字符的序列类型说明符：对于 HLA 等位基因，这是“DL”，表示DNA序列是线性形式。第四个位置必须包含分号。从第5位开始是序列名称或识别码：对于 HLA 等位基因，这是正式的等位基因名称。每个序列条目的第二行包含简短描述，包括序列长度和 PIR 文件的内部校验码。编码核酸序列从第三行开始。该序列是自由格式的，但为了便于序列阅读，核苷酸序列以 10 个核苷酸为单位。贼后用星号 (*)表示序列结束。

PIR 文件都是使用“ ReadSeq ”生成的，这是一个由 D. Gilbert 编写的免费的序列格式转换程序。

DRB1*01:01:01 PIR格式文件.

>DL;DRB1*01:01:01

DRB1*01:01:01, 714 bases, A686B796 checksum.

GGGGACACCC GACCACGTTT CTTGTGGCAG CTTAAGTTTG AATGTCATTT

CTTCAATGGG ACGGAGCGGG TGCGGTTGCT GGAAAGATGC ATCTATAACC

AAGAGGAGTC CGTGCGCTTC GACAGCGACG TGGGGGAGTA CCGGGCGGTG

ACGGAGCTGG GGCGGCCTGA TGCCGAGTAC TGGAACAGCC AGAAGGACCT

CCTGGAGCAG AGGCGGGCCG CGGTGGACAC CTACTGCAGA CACAACTACG

GGGTTGGTGA GAGCTTCACA GTGCAGCGGC GAGTTGAGCC TAAGGTGACT

GTGTATCCTT CAAAGACCCA GCCCCTGCAG CACCACAACC TCCTGGTCTG

CTCTGTGAGT GGTTTCTATC CAGGCAGCAT TGAAGTCAGG TGGTTCCGGA

ACGGCCAGGA AGAGAAGGCT GGGGTGGTGT CCACAGGCCT GATCCAGAAT

GGAGATTGGA CCTTCCAGAC CCTGGTGATG CTGGAAACAG TTCCTCGGAG

TGGAGAGGTT TACACCTGCC AAGTGGAGCA CCCAAGTGTG ACGAGCCCTC

TCACAGTGGA ATGGAGAGCA CGGTCTGAAT CTGCACAGAG CAAGATGCTG

AGTGGAGTCG GGGGCTTCGT GCTGGGCCTG CTCTTCCTTG GGGCCGGGCT

GTTCATCTAC TTCAGGAATC AGAAAGGACA CTCTGGACTT CAGCCAACAG

GATTCCTGAG CTGA*

(责任编辑：佳学基因)