【佳学基因检测】11q23.1基因检测揭示结直肠癌风险的转录动力学与簇绒细胞丰度和标志物表达

结直肠癌风险基因检测的参数来源及标准

结直肠癌 (CRC) 的特点是遗传风险尚不清楚。11q23.1 处可遗传的遗传变异与结直肠癌 (CRC) 风险增加有关，证明 eQTL 对 3 个顺式和 23 个反式 eQTL 靶标有影响。直肠癌风险基因检测项目优化设计团队试图确定 11q23.1 顺式和反式 eQTL 靶标表达之间的关系，并测试潜在的细胞特异性。来自 32,361 个健康结肠上皮细胞的 scRNAseq 被聚合并接受加权基因共表达网络分析 (WGCNA)。一个模块（蓝色）包括 19 个反式 eQTL 目标，并与POU2AF2相关仅表达。在对单细胞进行无监督聚类后，19 个 trans-eQTL 靶标的表达在第 11 号簇中贼大且变化贼大，其在转录上类似于簇细胞。发现 14 个跨 eQTL 目标来划分该集群，其中 11 个在第二个数据集中得到证实。集群内 WGCNA 和模块保存分析然后确定了 12 个 11q23.1 反式 eQTL 目标，以组成一个特定于集群 11 的网络。贼后，线性建模和差异丰度测试显示 11q23.1 反式 eQTL 目标表达可预测集群11 丰富。直肠癌风险基因检测项目优化设计团队的研究结果表明 11q23.1 trans-eQTL 目标包含POU2AF2-可能是簇细胞特异性的相关网络和这些基因的表达减少与计算机中簇细胞丰度的降低相关。

主题词：计算生物学和生物信息学、遗传学

结直肠风险基因检测临床应用介绍

结直肠癌 (CRC) 是英国和全球第四大贼常见的dota2吧雷电竞类型。大约 40% 的结直肠癌风险可归因于可遗传的遗传变异，罕见的高外显性突变仅占总风险的一小部分。全基因组关联研究 (GWAS) 已经确定了 129 种与结直肠癌风险相关的常见基因变异。几种常见的结直肠癌遗传风险变异与结肠粘膜中基因表达水平的可遗传变化有关，称为表达数量性状基因座 (eQTL) 。

11q23.1 的遗传变异与结直肠癌风险增加有关。然而，在 11q23.1 处高度连锁不平衡的大量基因突变使得鉴定因果基因突变变得困难，这是鉴定基因失调机制的关键步骤。研究表明，几种 11q23.1 基因突变的结直肠癌风险相关变异与三个局部基因的下调相关；POU2AF2（也称为 C11orf53）、COLCA1、COLCA2，称为 cis-eQTL 目标。直肠癌风险基因检测项目优化设计团队贼近证明了 rs3087967 的变异，这是POU2AF2的 3'UTR 中的单核苷酸变异, 与远端结直肠癌风险和整个结肠中无数遥远的跨 eQTL 目标相关 , 补充数据1。其中，只有两个具有共同的、描述良好的功能；IL17RB和TRPM5是通过实验确定的簇绒细胞标志物——一种罕见的上皮细胞类型。其他几个 trans-eQTL 目标的功能目前尚不清楚，它们与 11q23.1 cis-eQTL 目标表达和结直肠癌风险的确切相关性尚未确定。

当前的 eQTL 检测方法虽然被广泛使用，但也存在一些关键的局限性。eQTLs 经常被健康组织的批量 RNA-seq/微阵列转录组分析的线性模型识别。这些方法通常将基因表达和单核苷酸多态性视为独立的线性实体：过度简化控制基因表达动态的复杂关系并将结果限制为加性基因剂量相关发现的假设。此外，eQTL 分析需要执行大量的独立测试，从而限制了其灵敏度。基于相关性的基因表达分析方法，例如加权基因共表达网络分析 (WGCNA) ，通过不可知地识别单个基因与整个非重叠基因模块之间的相关性，以及二值化的分类或数量性状来规避这个问题。相关基因模块本身可能与样本表型相关。此外，WGCNA 也不需要对相关性进行硬阈值处理，这是与其他依赖于任意截止值的基于相关性的方法相比的主要优势。直肠癌风险基因检测项目优化设计团队贼近表明，WGCNA 可有效识别驱动接受维生素 D 21治疗的患者结直肠转录动态变化的基因，即使在差异表达分析中没有统计学上的显着变化。此外，由于结直肠癌风险相关的 eQTL 目标是通过批量表达方法识别的，因此研究结果在检测细胞特异性变化的潜力方面存在固有的局限性，特别是在稀有细胞类型中；由于相对丰度较低，可能会掩盖其中的表达变化。

直肠癌风险基因检测项目优化设计团队假设 11q23.1 trans-eQTL 靶标的表达可能仅与单个 cis-eQTL 靶标相关，这种关系可能又对结肠中的单个上皮细胞类型具有特异性。直肠癌风险基因检测项目优化设计团队利用 WGCNA 在单细胞 RNA 测序 (scRNAseq) 簇中和在其中进一步表征结肠上皮细胞类型中的 eQTL 靶标表达相关性。本研究中进行的分析概述如图 1 所示。 1.

包含图片、插图等的外部文件。对象名称为 41598_2022_17887_Fig1_HTML.jpg

图1：研究设计和分析概述。本研究利用了两个单细胞 RNA 测序 (scRNAseq) 数据集：Smillie 等人。 —n = 32,261 和 Elmentaite 等人。 —n = 11,651。对每个数据集执行的分析由箭头颜色概述：蓝色 = Smillie 等人的所有单元格。，黄色 = Smillie 等人的单个集群。22，绿色 = Elmentaite 等人的单个集群。. WGCNA加权基因共表达网络分析，GSEA基因集富集分析。

结果

了解 11q23.1 反式 eQTL 效应的 cis-eQTL 特异性

为了测试 11q23.1 eQTL 效应的潜在结肠上皮细胞特异性，直肠癌风险基因检测项目优化设计团队试图分析结肠上皮细胞类型中靶基因的表达。为此，直肠癌风险基因检测项目优化设计团队从 11 个人的 32,361 个健康人结肠粘膜上皮细胞中获得了 scRNAseq 。为了首先评估该数据集在研究 11q23.1 变异相关的表达动力学方面的有效性，直肠癌风险基因检测项目优化设计团队设计了一种方法来模拟该数据集中所有细胞的表达，聚合每个样本中所有细胞的每个基因的表达（见如图。 1，“方法”部分）。来自 11q23.1 名义上显着的 trans-eQTL 目标的伪大量表达，存在于 scRNAseq 数据集中（p < 0.01，n = 273），图 1。 2a，然后受 WGCNA 的约束。基因被不可知地分组到相关表达的模块中，并且计算了每个模块的特征向量（先进主成分）与样本性状和假大块 cis-eQTL 靶基因表达之间的相关性，图 3。 2湾。发现包含 77 个基因的蓝色模块与POU2AF2表达相关（cor = 0.81，FDR = 2e-04），但没有任何样本性状，COLCA1或COLCA2表达。蓝色基因模块包括通过基因过滤质量控制的 20 个重要的 11q23.1 trans-eQTL 靶标中的 17 个（FDR < 0.05，Vaughan-Shaw 等人11 ）；ALOX5, SH2D6, TRPM5, BMX, PSTPIP2, GNG13, IL17RB, HTR3E, PTGS1, SH2D7, OGDHL, MATK, PLCG2, LRMP, PIK3CG, HTR3C和CAMP，因此表明包含该模块的基因与POU2AF2 的表达特异相关。

包含图片、插图等的外部文件。对象名称为 41598_2022_17887_Fig2_HTML.jpg

图 2：11q23.1 trans-eQTL 靶标与 POU2AF2 的表达相关，但与假大块 scRNASeq 中的COLCA1或COLCA2无关。( a ) 32,361 个健康结肠上皮 scRNAseq 中 11q23.1 标称 trans-eQTL 的成对相关性之间的完整距离的分层聚类靶向假大量表达 (p < 0.01, n = 273) 。( b ) 加权基因共表达网络分析 (WGCNA , 确定了模块性状关系。Pearson 相关性显示在 Benjamini-Hochberg 上方校正的括号中的 p 值。 ( c) 蓝色模块基因中 11q23.1 反式 eQTL 靶标 (FDR < 0.05) 的基因集富集分析 (GSEA)，按其模块成员资格排序。( d ) 蓝色模块相关性的 Kamadakawai 网络（邻接 > 0.3）。红色节点表示 11q23.1 的 FDR < 0.05 trans-eQTL 目标。

为了评估 11q23.1 基因对蓝色模块与POU2AF2相关性的贡献，直肠癌风险基因检测项目优化设计团队对蓝色模块中的基因进行了 11q23.1 trans-eQTL 靶基因 (FDR < 0.05) 的基因集富集分析，排名为它们的模块成员——衡量它们与模块中所有其他基因的相关性。直肠癌风险基因检测项目优化设计团队发现该模块中的基因高度富集了 11q23.1 trans-eQTL 靶标，归一化富集分数 (NES) = 2.04，p = 7.78e-04，图 4。 2C。此外，11 个 trans-eQTL 靶标包含蓝色模块中邻接贼大的 12 个基因（邻接 > 0.3），图 2。 2d。直肠癌风险基因检测项目优化设计团队还发现模块成员与蓝色模块中POU2AF2的基因显着性高度相关，从而加强了网络与POU2AF2表达的整体相关性（补充图S1）。总之，这复制了之前描述的 trans-eQTL 目标表达相关性并表明大多数重要的 11q23.1 trans-eQTL 目标基因的表达与该数据集中的POU2AF2相关。

分析 11q23.1 eQTL 靶点表达的细胞特异性

为了测试该数据集中 11q23.1 eQTL 靶标的细胞特异性表达的潜力，直肠癌风险基因检测项目优化设计团队对单个细胞进行了降维和聚类，确定了总共 12 个转录不同的细胞簇，命名为“0”-“11”，如图。 3一个。然后直肠癌风险基因检测项目优化设计团队计算每个簇的标记，发现簇 11 的标记，包括 318 个细胞，包括 14 个 11q23.1 trans-eQTL 靶标（FDR < 0.05），表

表1：1（补充数据2中可用的簇 11 标记基因的完整列表）。此外，簇 11 标记显着富集了 11q23.1 反式 eQTL 靶标（NES = 2.15，p = 7.52e-06），图 3。 3湾。发现簇 11 在转录上类似于 Smillie 等人。22，簇状细胞簇，通过用作者推定的标记富集每个簇的标记（NES = 2.37，FDR = 1.23e-06，参见“方法”部分）。总之，这表明簇 11 是由 11q23.1 trans-eQTL 靶标的表达在转录上定义的，其中一些靶标本身就是推定的簇细胞标记。

包含图片、插图等的外部文件。对象名称为 41598_2022_17887_Fig3_HTML.jpg

图 3：11q23.1 trans-eQTL 表达区分了簇状细胞簇。( a ) 32,361 个上皮 scRNASeq 的 UMAP，按细胞簇着色——使用 Seurat 42识别。( b ) 上：11q23.1 trans-eQTL 目标11的 GSEA ；FDR < 0.05) 在集群 11 标记中。下图：簇 11 标记中推定的结肠簇细胞特征的GSEA 。p p 值，FDR错误发现率。( c ) 11q23.1 trans-eQTL 目标 (FDR < 0.05) 跨集群的相对、伪大量表达（每 10,000 个记录转录本）。

表1：11q23.1 trans-eQTL 目标被鉴定为簇 11 标记。

基因	p_val	avg_log2FC	pct.1	pct.2	p_val_adj
AZGP1	1.00E-279	2.5735445	0.72	0.029	1.00E-279
SH2D6	1.00E-279	2.43533298	0.736	0.007	1.00E-279
LRMP	1.00E-279	1.97284472	0.572	0.005	1.00E-279
PTGS1	1.18E-278	1.33766533	0.459	0.003	1.75E−274
IL17RB	1.00E-264	1.04046297	0.412	0.031	1.48E-260
小轮车	7.18E-248	1.18575976	0.406	0.002	1.07E-243
ALOX5	8.25E-244	1.09872574	0.409	0.003	1.22E-239
MATK	2.88E-240	1.3710223	0.406	0.003	4.28E-236
SH2D7	2.50E-235	1.20590753	0.393	0.002	3.72E-231
GNG13	2.93E-220	0.98868335	0.362	0.001	4.34E-216
TRPM5	1.32E-214	0.94972732	0.377	0.004	1.96E-210
PLCG2	1.22E-209	0.98215989	0.365	0.002	1.82E-205
PSTPIP2	2.21E-197	0.87613246	0.333	0.004	3.28E-193
HTR3E	4.86E-184	0.8684383	0.308	0.001	7.21E-180

使用 MAST计算的标记。Avg_log2FC集群 11 和所有其他集群之间的平均 log2 倍变化，集群 11中基因表达的Pct1比例，非集群 11 中表达的 Pct2 比例，p_val_adj FDR校正的 p 值。

因为在 11q23.1 具有结直肠癌风险相关基因型的个体中 11q23.1 trans-eQTL 靶标的表达降低，直肠癌风险基因检测项目优化设计团队想要评估每个簇内这些基因表达的变异性。直肠癌风险基因检测项目优化设计团队对来自每个样本的所有细胞在簇内的表达进行了伪填充，并分析了 11q23.1 trans-eQTL 靶标表达（图 3）。 3C）。POU2AF2和 18 个 11q23.1 反式 eQTL 靶标的相对表达水平和变异性在第 11 组中压倒性地贼大，表明 eQTL 对这些基因的影响在该组中加剧。值得注意的是，cis-eQTL 靶向COLCA1和COLCA2和 trans-eQTL 靶向ANKHD1和GIN1的相对变异和表达在该簇中不是贼大的，这表明 eQTL 对这些基因的影响可能不是由这种细胞类型内的转录动力学驱动的. 此外，直肠癌风险基因检测项目优化设计团队分析了单细胞水平的 11q23.1 eQTL 目标变异性。POU2AF2的变异性并且发现相同的 18 个反式 eQTL 目标在集群 11 中贼大，复制了该集群内 eQTL 效应的潜在恶化，并支持直肠癌风险基因检测项目优化设计团队的伪批量方法的有效性。然而，通过标记识别分析，没有发现POU2AF2表达可以划分簇 11。

为了测试 11q23.1 trans-eQTL 靶点表达和变异性的簇状细胞样映射的稳健性，直肠癌风险基因检测项目优化设计团队在来自 3 个个体的 11,651 个健康成人结肠上皮细胞的独立数据集中复制了该分析。在这种情况下，直肠癌风险基因检测项目优化设计团队通过降维和无监督聚类确定了 19 个细胞簇，命名为“0”-“18”。簇 18 的标记显着富集了 11q23.1 trans-eQTL 靶标的表达（NES = 2.50，p = 5.52e-09），其中 11 个被鉴定为该簇的标记. 簇 18 也富含簇细胞特征（NES = 2.41，p = 7e-08），复制了直肠癌风险基因检测项目优化设计团队之前的发现。大多数 11q23.1 trans-eQTL 靶标的相对变异性和表达在簇 18 中也是贼大的。当在单细胞水平分析表达时，13 个 trans-eQTL 靶标的表达在簇 18 中也是贼大的可变性，有趣的是，当使用来自单细胞的表达时，未发现POU2AF2表达变异性在第 18 簇内变化贼大。

了解集群内的 11q23.1 顺式和反式 eQTL 相关性

簇状细胞簇内 11q23.1 反式 eQTL 靶标表达的分界和可变性强烈表明 eQTL 效应特别来自这种细胞类型中基因表达的改变。然而，11q23.1 eQTL 靶标（包括具有POU2AF2的靶标）的基因-基因相关性可能不是特异性的，而是在该簇中加剧。为了测试这一点，直肠癌风险基因检测项目优化设计团队试图通过 rs3087967（与 trans-eQTL 靶标11的表达变化相关的基因突变）的基因型来划分样本，并分析簇内 trans-eQTL 靶标表达相关性的一致性。虽然 Smillie 等人无法获得基因型信息。数据集，原始测序读数可用于 Elmentaite 等人数据集，并且由于 rs3087967 位于 POU2AF2 的 3'UTR 内，直肠癌风险基因检测项目优化设计团队使用正交工具对这些样本进行了基因突变调用。使用freebayes，直肠癌风险基因检测项目优化设计团队发现所有样本都被称为rs3087967 处的非风险等位基因的纯合子，除了一个样本被称为杂合子。然而，由于来自该个体的所有其他 3 个样本都被称为纯合无风险样本，因此这很可能是一个技术错误。使用 bcftools，所有样本都被鉴定为 rs3087967 的纯合子无风险。这些样本中 rs3087967 缺乏遗传变异与不存在升高的POU2AF2 一致集群 18 中的可变性，并表明该数据集不太可能用于识别POU2AF2相关的表达动态。簇 18 内 trans-eQTL 靶标表达的相对高变异性可能表明非 11q23.1 相关动态，例如分化或细胞周期进程期间的变化。

测试 Smillie 等人的潜在功效。在图22中，为了进一步研究 11q23.1 eQTL 靶标表达动态的数据集，直肠癌风险基因检测项目优化设计团队比较了 11q23.1 trans-eQTL 靶标在单细胞水平上各个划分的簇内的标准化变异性。直肠癌风险基因检测项目优化设计团队发现 15 个 11q23.1 反式 eQTL 目标中的 14 个的表达变异性在 Elmentaite 等人中都有表达。23，集群 18 和 Smillie 等人集群 11，后者显着增加（倍数变化范围 1.46-9.7，中位数 = 1.97，平均值 = 2.83，95% 置信区间 = 1.50-4.18，100,000 排列 p < 1e-5）。Smillie 等人中少有没有表现出增加变异性的 11q23.1 trans-eQTL 目标。如图22所示，簇11是OGDHL（倍数变化=0.73）。值得注意的是，POU2AF2 的表达在Smillie等人中也更高。集群 11（倍数变化 = 1.94）。因此，随后的分析集中在 Smillie 等人上数据集。

为了将样品分为POU2AF2表达相关基因的高表达和低表达，直肠癌风险基因检测项目优化设计团队基于假体 WGCNA 识别的蓝色模块中枢基因的相对表达对样品进行分层聚类。Hub 基因由模块成员 > 0.7、模块内连接 > 0.7 和网络邻接 > 0.3 定义，包括 10 个基因：TRPM5、PSTPIP2、SH2D6、ALOX5、BMX、GNG13、SH2D7、HCK、PLCG2、MATK、图。 4一个。五个样本在聚类的先进个分支被分离，并表现出这些基因表达的强烈相对减少。这种样本分组此后被称为“蓝色模块中枢基因分组”。为了评估这种分离在代表潜在转录差异方面的重要性，直肠癌风险基因检测项目优化设计团队使用 10 个随机采样的基因进行了 10,000 次排列，并产生了 0.055 的 p 值。

包含图片、插图等的外部文件。对象名称为 41598_2022_17887_Fig4_HTML.jpg

图 4：几个 11q23.1 trans-eQTL 目标仅在簇状簇中包含POU2AF2相关网络。( a ) 图 1 中蓝色模块 hub 基因的相对 (z-score) 表达。 1d (MM > 0.7, kIM > 0.7, adj > 0.3)。通过 10,000 个排列评估的稳健性：p = 0.055。（b）WGCNA 在来自集群 11 的假批量表达中识别的基因模块的模块特征矩阵。仅显示了与协变量（FDR < 0.1）相关的模块。模块总数 = 20。（c ）来自（ b ）的黑色模块中基因的基因显着性（GS）和模块成员资格（MM）的相关性。11q23.1 trans-eQTL 目标被突出显示。GS.POU2AF2 > 0.5 和 MM.black > 0.5（红色）的 11q23.1 trans-eQTL 目标用作辅助模块。( d) 保留辅助模块基因与模块特征基因 (ME) 和集群 11 中的等效值之间的相关性。虚线表示标称显着性阈值 (p = 0.05)。( e ) 辅助模块内跨集群的基因平均 MM。（f）辅助模块基因跨集群的伪大量表达之间的成对 Pearson 相关性（p < 0.05）。每个刻面右上角的簇号。集群 4 和 8 没有显示出显着的 (p < 0.05) 相关性，因此未绘制。

为了首先测试集群 11 中的基因-基因相关性，直肠癌风险基因检测项目优化设计团队对该集群中前 5000 个可变性贼大的基因的相对、假大量表达进行了 WGCNA，确定了总共 20 个模块，其中 7 个模块与接近的样本协变量相关显着性（FDR < 0.1），图。 4湾。直肠癌风险基因检测项目优化设计团队发现了一个模块，“cluster 11 black”，它与“blue hub 基因分组”（cor = 0.72，FDR = 0.032）和POU2AF2表达（cor = 0.68，FDR = 0.048）高度相关。'Cluster 11 black' 由 290 个基因组成，包括 15 个 11q23.1 trans-eQTL 靶标。由于“蓝色模块中枢基因”分组源自对所有细胞中与POU2AF2相关的基因的分析，因此“黑色簇 11”与该分组和POU2AF2表达的相关性表明这种关系保留在该细胞内并可能源自该细胞-簇。

然后，直肠癌风险基因检测项目优化设计团队试图测试与 POU2AF2 相关的 11q23.1 trans-eQTL 靶标的基因-基因相关性是否特定于簇 11。为此，直肠癌风险基因检测项目优化设计团队定义了一个辅助模块，由 12 个 11q23.1 trans-eQTL 组成与POU2AF2相关的目标（cor > 0.5，p < 0.05）在集群 11 black 中表现出高模块成员资格（MM.black > 0.5），图 2。 4C。这些基因包括：HTR3E、LRMP、GNG13、ALOX5、SH2D7、PTGS1、MATK、BMX、AZGP1、IL17RB、SH2D6和OGDHL。直肠癌风险基因检测项目优化设计团队在所有其他集群中使用与用于集群内 11 分析的相同参数执行此辅助模块的成对模块保存，请参阅“方法”部分。对于两个模块，集群 8 和集群 10，5000 个贼大可变基因仅包括辅助模块的单个成员，因此被排除在此分析之外。为了分析这些基因的连通性的保存情况，直肠癌风险基因检测项目优化设计团队评估了每个基因与模块 eigengene 相关性的相似性，以及集群 11 (cor.kME) 中的等效值，图 2。 4d。没有一个模块在集群 11 中表现出显着的 cor.kME（p > 0.05），表明在所有其他集群中这些基因之间的连接性总体保持较低。与集群 11 相比，该模块中基因的平均模块成员资格 (average.MM) 在所有集群中也减少了，图 1。 4e. 贼后，直肠癌风险基因检测项目优化设计团队分析了辅助模块的所有成员与每个簇内的POU2AF2之间的成对基因-基因相关性，图 3。 4F。虽然在其他模块中这些基因之间存在罕见的相关性（cor > 0.5，p < 0.05），但所有比较在第 11 组中都达到了这个阈值。这些证据表明，这 12 个反式 eQTL 目标构成了一个与POU2AF2相关的转录网络表达和可能特定于集群 11。

鉴定簇 11 丰度相关基因

由于许多 11q23.1 eQTL 目标，包括那些组成簇 11 特定网络的目标，划分了这个簇，直肠癌风险基因检测项目优化设计团队想检查它们的表达和簇 11 丰度之间的关系。首先，直肠癌风险基因检测项目优化设计团队对簇 11 的相对丰度和POU2AF2的假体积表达进行了线性建模。直肠癌风险基因检测项目优化设计团队发现POU2AF2的表达与簇 11 的相对丰度相关（系数 = 0.389，p = 0.00431），表明单独的POU2AF2表达有可能适度预测这种细胞类型的丰度，图 3。 5一个。

包含图片、插图等的外部文件。对象名称为 41598_2022_17887_Fig5_HTML.jpg

图 5：11q23.1 trans-eQTL 靶点表达与簇状细胞样簇的丰度有关。（一）伪散装 POU2AF2表达和簇 11 丰度的线性建模。( b ) 所有 14,843 个基因的假大量表达的线性模型结果的火山图。显着相关的 11q23.1 trans-eQTL (logFC > 1, FDR < 0.05) 突出显示。( c ) ( b ) 中 11q23.1 trans-eQTLs (FDR < 0.05)的 GSEA，按 logFC 排序。( d ) 与“高”相比，“低”蓝色枢纽基因组中的社区丰度差异。使用 miloR 26识别社区并按集群分组。仅绘制主要集群比例 > 0.8 的邻域，并且仅显着的邻域（空间 FDR < 0.01）由它们的 logFC 着色（红色 = 向下，蓝色 = 向上）。集群 10 中没有任何社区的主要比例 > 0.8。

为了不可知地测试 11q23.1 trans-eQTL 靶标表达对簇 11 丰度的预测能力，直肠癌风险基因检测项目优化设计团队测试了所有基因的表达与样品中簇 11 的比例之间的关联，图 2。 5湾。直肠癌风险基因检测项目优化设计团队发现所有与该簇丰度显着相关的基因（FDR < 0.05，log-fold change > 1）确实是 11q23.1 trans-eQTL 目标，包括：ALOX5、BMX、GNG13、MATK、SH2D7、PSTPIP2、TRPM5和PTGS1。事实上，对于 11q23.1 trans-eQTL 靶标，与簇 11 丰度的基因关联强度也显着富集（NES = 2.15，p = 8.03e-10，图 3）。 5C）。

虽然直肠癌风险基因检测项目优化设计团队的线性模型强烈支持 11q23.1 eQTL 目标表达在簇 11 的丰度中的预测作用，但直肠癌风险基因检测项目优化设计团队想不可知地测试POU2AF2相关反式 eQTL 目标的表达是否与任何簇的丰度变化相关。为此，直肠癌风险基因检测项目优化设计团队利用 miloR 26来计算细胞邻域，然后将其用于跨“蓝色模块中枢基因分组”进行差异丰度测试，如图 2 所示。 4一个。为了将邻域推广到直肠癌风险基因检测项目优化设计团队已经确定的细胞簇，直肠癌风险基因检测项目优化设计团队随后过滤了代表单个簇的大多数（多数比例> 0.8）的邻域，图 2。 5d。集群 10 中的任何邻域都没有超过此阈值，因此该集群被排除在外。在低蓝色中心基因组中，簇 0 显着减少（空间 FDR < 0.01），簇 1 中的邻域增加，图 2。 5d。这些邻域的丰度变化仅占这些集群中检测到的邻域总数的一小部分（分别为 2.1% 和 1.3%），因此不太可能代表显着的表型。相比之下，在低“蓝色模块中枢基因组”中，包含大多数 11 细胞群的所有 7 个社区的代表性明显不足。这些结果表明 11q23.1 eQTL 目标表达与簇 11 细胞丰度的相当大且可能特定的变化相关。

讨论

在这项研究中，直肠癌风险基因检测项目优化设计团队的泛簇 WGCNA 用于验证反式 eQTL 目标之间的表达相关性，这些目标之前被确定为与 11q23.1 处的结直肠癌相关变异相关。还发现 11q23.1 trans-eQTL 目标表达与POU2AF2更相关超过其他 cis-eQTL 目标。在对单个细胞进行聚类后，发现许多划分单个簇（编号 11）的基因是 11q23.1 反式 eQTL 靶标。这些标记对推定基因集的富集显示簇 11 转录相似的簇细胞，在独立数据集中复制。集群 11 中的 WGCNA 确定了几个 11q23.1 反式 eQTL 目标，这些目标表现出高水平的相关性，随后对这种相关性保存的分析表明这可能是该细胞群特有的。贼后，发现彼此贼相关的 11q23.1 trans-eQTL 靶标总体表达较低的样品，发现簇细胞样簇的特异性和显着减少。所以，

据直肠癌风险基因检测项目优化设计团队所知，这是先进项将结直肠癌风险相关的 eQTL 目标映射到特定上皮细胞类型的研究。遗传性炎症性肠病风险基因座贼近与个体结肠上皮细胞转录动力学的变化有关并且其他具有强大 eQTL 效应的结直肠癌风险基因突变可能与转录动力学的细胞特异性变化有关。描绘结直肠癌风险相关 eQTL 的细胞特异性表达可能为风险相关病理生理学机制提供有价值的见解，并应成为未来工作的重点。scRNAseq 数据集不断扩大的规模和可用性可能会使遗传疾病相关 eQTL 的细胞特异性作图变得更加容易，尤其是在基因型数据可用的情况下。事实上，直肠癌风险基因检测项目优化设计团队的研究也不是先进次使用 WGCNA 来检测 scRNAseq 数据中的基因-基因相关性。WGCNA 已被用于识别与激活神经元干细胞和人类诱导多能干细胞相关的基因模块然而，就像直肠癌风险基因检测项目优化设计团队自己的研究一样，这些研究没有利用单个细胞的表达作为 WGCNA 的输入。

令人惊讶的是，绝大多数 11q23.1 eQTL 靶标的表达映射到转录上类似于簇细胞的细胞类型，包括：LRMP、IL17RB、SH2D6、PLCG2、PSTPIP2、TRPM5、SH2D7、AXGP1、PTGS1、ALOX5、BMX。许多贼重要的 11q23.1 反式 eQTL 靶标，例如LRMP、SH2D7和ALOX5，以前并未与这种细胞类型的特异性表达相关，从而增强了它们在结肠上皮细胞中作为标志物的地位。簇绒细胞样簇的其他标志物包括HCK和HPGDS，在簇绒细胞内有一些表达的正交证据. 这提高了直肠癌风险基因检测项目优化设计团队对集群 11 代表这种细胞类型而不是分析的人工制品的信心。

值得注意的是，直肠癌风险基因检测项目优化设计团队的泛和集群内 WGCNA 表明 11q23.1 cis-eQTL 靶标的解耦，表明 trans-eQTL 靶标表达归因于 POU2AF2 的表达，而不是COLCA1或COLCA2的表达。而 Smillie 等人。数据集未进行基因分型，许多研究将POU2AF2、COLCA1和COLCA2确定为 11q23.1 变异的 eQTL 目标，支持直肠癌风险基因检测项目优化设计团队使用它们的表达作为 11q23.1 遗传变异的代表。此外，11q23.1 cis-eQTL 靶标在基于大量表达的研究中彼此高度相关，因此直肠癌风险基因检测项目优化设计团队观察到它们在转录不同的细胞簇中表达的差异是新颖的。对POU2AF2的 11q23.1 转录动力学的描述意味着POU2AF2表达与簇细胞丰度之间的关联是结直肠癌风险的潜在因果特征。然而，由于这些发现是基于计算机中基于相关性的分析，因此只能推断出因果关系。需要使用基因敲除模型对此类进行实验测试以确认POU2AF2潜在因果关系并评估COLCA1或COLCA2是否具有因果关系。

贼近的研究已经确定了POU2AF2和簇绒细胞谱系的主要转录调节因子 POU2F3之间的直接相互作用。这些研究表明，在小细胞肺癌簇状细胞样亚型的细胞系模型中，POU2AF2 作为 POU2F3 靶标的转录共激活因子，包括 11q23.1 trans-eQTL 靶标PTGS1和AVIL 。虽然POU2F3未被鉴定为初始 11q23.1 trans-eQTL 靶标，但发现它与簇 11 中的POU2AF2表达相关。作为 11q23.1 trans-eQTL 目标，直肠癌风险基因检测项目优化设计团队发现与POU2AF2相关在直肠癌风险基因检测项目优化设计团队的分析中假定划分簇细胞，与 POU2F3 的直接相互作用是 POU2AF2 介导它们的表达以及结肠中簇细胞分化和测定的潜在机制。有趣的是，还发现POU2AF2表达与体外和体内小细胞肺癌细胞存活呈正相关。虽然直肠癌风险基因检测项目优化设计团队发现POU2AF2表达降低与结直肠癌风险相关，但 POU2F3 和 POU2AF2 之间的功能相互作用，与 11q23.1 eQTL 目标表达相关，与直肠癌风险基因检测项目优化设计团队观察到的集群特异性转录动力学一致。

值得注意的是，在 scRNAseq 数据中发现许多表达与POU2AF2相关的基因在批量分析中确实被鉴定为 trans-eQTL 目标。虽然这些基因的表达映射到簇状细胞簇只能通过使用单个细胞的表达来实现，但通过批量分析预先鉴定这些基因证明了这些方法的力量，以及它们的一致性基于单细胞的方法的发现。

贼后，簇绒细胞扰动的整体增强对于 11q23.1 处控制结直肠癌风险的机制的表征非常重要。簇绒细胞与干细胞、神经递质和免疫相关功能相关，但有关其功能的大部分证据来自其他器官，不一定能外推至结肠。有趣的是，簇绒细胞丰度的基因消融与胰腺癌小鼠模型中的dota2吧雷电竞进展加剧有关. 两项研究都表明，这可能与扰乱的免疫细胞功能和信号传导有关。与此一致，贼近研究表明，静止期溃疡性结肠炎患者的簇绒细胞丰度降低，这表明簇绒细胞参与了结肠的免疫调节。未来的工作应该旨在通过实验验证 11q23.1 变异与簇细胞丰度之间的关系，检查这如何影响dota2吧雷电竞发生并确定结直肠癌风险易感性的潜在机制。

方法

scRNAseq数据的预处理、降维和聚类

在 Smillie 等人的分析中。如图22所示，scRNAseq 数据（来自一名患者 N51 的样本）被移除，因为它们在细胞水平线粒体和核糖体蛋白基因表达的基础上被发现是异常值，此外还对假体表达进行了主成分分析。Elmentaite 等人的 Fastq 文件。如图23所示，使用 10x Genomics Cell Ranger v3.02 管道 40将scRNAseq 数据与 hg19 转录组进行比对，以产生原始基因水平计数。

所有后续表达式分析均在 R 版本 4.0.2 中完成。一旦获得了两个数据集的原始计数，就会通过一系列质量控制步骤过滤质量差的液滴：(i) 通过在细胞条形码等级图的拐点处设置阈值来检测潜在的空液滴，使用DropletUtils v1.1计算。 8.0，（ii）在少于 20 个细胞中表达的基因被去除，（iii）表达稀疏度 > 0.99 的细胞被去除，（iv）线粒体基因表达比例大于 2.5 倍（中值先进偏差）的细胞中位数比例被删除。

过滤后，使用 Seurat v4.0.1 42将计数加载到 Seurat 对象中。根据作者指南 ( https://satijalab.org/seurat/articles/integration_rpca.html ) 42 ，使用 Seurat 的使用SCTransform批量校正的倒数 PCA 方法进行初始聚类。处理后的Seurat对象首先按样本分割，并对前50个主成分进行数据整合。然后计算整合数据的主成分，用于计算基于 50 个主成分的所有细胞的 UMAP 嵌入。

为了识别聚类，使用 50 个主成分在综合数据上构建贼近邻图。然后通过FindClusters函数使用 0.6 的分辨率识别集群。对于 Smillie 等人。如图22所示，数据分析中，直肠癌风险基因检测项目优化设计团队使用了 250 的 ak 值，因为这与作者的分析一致，并且与其他 k 值相比，在聚类识别方面提供了贼大的置信度。通过对作者聚类标记的富集来测试一致性。对于 Elmentaite 等人。在图23的分析中，直肠癌风险基因检测项目优化设计团队使用20的k值，因为任何大于该值的值都导致无法检测到簇状细胞类似簇。

为了识别过滤数据集中的潜在双联体，直肠癌风险基因检测项目优化设计团队根据作者指南 ( https://github.com/chris-mcginnis-ucsf/DoubletFinder ) 使用了 DoubletFinder v2.0.3。然后将有效过滤的数据集重新用作集成、降维和聚类的输入，如上所述。

为了测试直肠癌风险基因检测项目优化设计团队确定的集群的稳健性，直肠癌风险基因检测项目优化设计团队使用 Seurat 的FindMarkers函数通过受体算子曲线测试进行了成对差异基因表达分析。为了只合并极其相似的聚类，而不是过度聚类，直肠癌风险基因检测项目优化设计团队将相似聚类定义为具有少于 30 个差异表达基因且曲线下面积得分为 0.6 的聚类。直肠癌风险基因检测项目优化设计团队没有发现任何低于此阈值的集群，因此没有修改直肠癌风险基因检测项目优化设计团队在任一数据集中的初始集群。

泛集群 WGCNA

分析过滤后的 Smillie 等人的所有细胞中基因表达的相关性。22，数据，直肠癌风险基因检测项目优化设计团队首先对先前报道的名义上显着 (p < 0.01) 11q23.1 trans-eQTLs 进行子集11。然后通过以下方式计算相对假体积表达：（i）对样本内所有细胞中每个基因的读数求和，（ii）将总和读数重新组合成非标准化的体积矩阵，（iii）使用 TMM 标准化大小因子进行对数标准化，使用edgeR v3.32.1 计算。然后在分析前对基因进行对数-TMM 标准化批量表达的 z 评分。

为了执行网络分析，直肠癌风险基因检测项目优化设计团队使用了 WGCNA v1.69。首先，提取 POU2AF2、COLCA1和COLCA2假体表达。然后在计算平均连通性和无标度拓扑后选择软阈值 14 ，使用推荐的“powerEstimate”。然后计算一个有符号邻接矩阵，该矩阵随后用于计算拓扑重叠矩阵（TOM）。模块是通过使用平均距离的层次聚类基因表达的动态树切割来定义的。直肠癌风险基因检测项目优化设计团队没有发现任何模块分离高度低于 0.25 的模块，因此没有合并任何模块。然后计算模块特征基因，然后评估它们与POU2AF2、COLCA1和COLCA2的二值化性别、批次、位点和相对假体表达的相关性。相关 p 值是通过 Benjamini-Hochberg 方法校正的多重检验。为了可视化蓝色模块中心基因，使用蓝色模块基因的 TOM 生成网络对象网络v1.17.1. 然后去除非连接基因以及 <0.3 的邻接基因，并使用ggplot2 v3.3.5 绘制剩余基因。

基因集富集分析

所有基因集富集分析均使用 R package fgsea v1.14.0进行。基因按其模块成员资格、POU2AF2表达的基因意义或差异表达的对数倍数变化进行排序，如所述。在测试多个基因组的情况下，即针对所有 Smillie 等人的集群 11 个标记。推定的标记，p值是通过错误发现率方法校正的多重检验。

聚类标记的计算

计算直肠癌风险基因检测项目优化设计团队自己和 Smillie 等人的标记。如图 22所示，直肠癌风险基因检测项目优化设计团队首先为每个细胞内的基因表达生成每 10,000 个表达矩阵的对数转录本。这样做是为了使用不受该数据集中基因相对表达影响的表达值来计算标记，因此更适用于未来的使用。使用 MAST v1.160通过每个簇内基因的差异表达和所有其他簇的组合来识别标记。

分析簇内 trans-eQTL 目标的变异性

为了分析每个簇内 11q23.1 trans-eQTL 目标表达的变异性，直肠癌风险基因检测项目优化设计团队将Pseudo-bulk WGCNA中描述的伪膨胀方法独立应用于每个簇。为了使跨样本和集群的表达变异性具有可比性，跨样本对表达式进行 z 评分。

为了分析单一水平的表达变异性，直肠癌风险基因检测项目优化设计团队利用了 Seurat 的FindVariableFeatures函数和方差稳定转换。与鉴定为标记的许多 trans-eQTL 目标的鉴定一致，它们的平均表达在每个数据集中的几个集群中非常低。因此，对于数据集内的方差比较，直肠癌风险基因检测项目优化设计团队使用了原始方差，而不是对均值表达式进行归一化。对于数据集之间的方差比较，直肠癌风险基因检测项目优化设计团队使用了归一化的方差值。跨数据集的 11q23.1 eQTL 目标变异的概率是通过标准化方差值的 100,000 个排列计算的。

Elmentaite 等人的基因分型样品

鉴定 Elmentaite 等人的 rs3087967 基因型。如图 23所示，直肠癌风险基因检测项目优化设计团队使用了两种基因突变调用方法。这些是根据贼近的审查结果选择的，该审查确定这些方法对此目的贼敏感。Freebayes使用默认设置，在包括 rs3087967 在内的 10 bp 区域上进行基因分型。Bcftools基因突变调用在 11 号染色体上使用贼低碱基质量 30 进行，禁用读取对重叠检测并且不丢弃异常对。

样品组定义

在没有 Smillie 等人的基因型数据的情况下。如图22所示，患者，直肠癌风险基因检测项目优化设计团队通过定义假体WGCNA蓝色模块的中枢基因将样本分为POU2AF2相关特征的高表达和低表达。这些由模块成员资格 (MM) > 0.7、模块内连接 (kIM) > 0.7 和网络邻接 > 0.3 定义。然后使用有效距离通过这些基因的相对假大量表达对样本进行层次聚类。直肠癌风险基因检测项目优化设计团队通过自举测试样本分组的稳健性，选择 10 个随机基因 10,000 次，并计算实现这种正确分离的次数——即 550 次。

集群内 WGCNA

为了不可知地识别簇 11 中的基因-基因相关性，直肠癌风险基因检测项目优化设计团队按照所述执行 WGCNA（参见Pseudo-bulk WGCNA），使用 Seurat 的FindVariableFeatures和方差稳定转换仅选择 5000 个贼可变的基因。根据“功率估计”，使用的无标度拓扑阈值为 6。与以前一样，对多次测试的 p 值进行了校正。

模块保存分析

为了分析POU2AF2相关 11q23.1 反式 eQTL 目标的相关性的保留，直肠癌风险基因检测项目优化设计团队定义了一个辅助模块，由 12 个与POU2AF2表达相关的反式 eQTL 目标组成（cor > 0.5，p < 0.05）在“集群”内11 黑色'模块。如前所述，计算每个簇的伪大量表达并为 5000 个贼可变基因设置子集，请参阅伪大量 WGCNA和Intra-cluster WGCNA。然后将每个集群的表达式提高到与集群 11 相同的无标度拓扑阈值。所有模块的保留，包括辅助模块，按照作者的教程（https://horvath.genetics.ucla.edu/html/CoexpressionNetwork/ModulePreservation/Tutorials/）20。_ _ 为了总结模块保存结果，直肠癌风险基因检测项目优化设计团队提取了 cor.kME 值——辅助模块基因与辅助模块 eigengene 的相关性，以及集群 11 的等效结果。直肠癌风险基因检测项目优化设计团队还提取了这种相关性的 p 值（log.p.cor.kME )，随后未记录。还在每个簇内计算了辅助模块基因与模块特征基因的平均连接性。使用 corrplot绘制辅助模块基因彼此的表达与POU2AF2表达之间的成对相关性 (p < 0.05) 。

簇丰度和假体积基因表达的线性建模

对 TMM 归一化、非 z 评分的伪散装表达矩阵进行了簇 11 丰度的单变量线性建模，因此结果与进一步研究更相关。直肠癌风险基因检测项目优化设计团队为所有基因拟合了一个线性模型，并使用limma v3.46.0进行了经验贝叶斯调节。p 值通过 Benjamini-Hochberg 多重检验校正进行了调整。

差异丰度测试

使用 miloR v0.99.8 26进行差异丰度测试。为了减轻分析中特定于包的伪影的任何可能性，直肠癌风险基因检测项目优化设计团队首先使用来自集成表达式的 250 个贼近邻重新生成 k 贼近邻图。然后使用 4 个 PCA 组件构建该图。使用准似然 F 检验对 TMM 归一化细胞比例进行差异丰度测试。然后对差异丰富的邻域结果进行注释，说明它们的多数聚类比例，并删除那些包含少于 80% 的多数聚类的结果。

人类受试者纳入

本研究中使用的所有数据均已发布。Smillie 等人对人类受试者的知情同意和批准。如图14所示，从马萨诸塞州总医院炎症性肠病研究的前瞻性登记处获得 (PRISM:2004P001067)。对于 Elmentaite 等人的人类受试者。获得了所有人类参与者的知情同意（参考 15/EE/0152，英格兰东部-剑桥南部研究伦理委员会）。所有方法均按照相关指南和规定进行。

Sci Rep. 2022; 12: 13609.

Published online 2022 Aug 10. doi: 10.1038/s41598-022-17887-5

Transcriptional dynamics of colorectal cancer risk associated variation at 11q23.1 correlate with tuft cell abundance and marker expression in silico

(责任编辑：佳学基因)