脸部形态是人类重要的生物特征之一,了解脸部形态特征的遗传基础在群体遗传学、发育生物学和法庭科学中具有重要意义。有研究团队针对中国汉族成年男性人群 1177 名个体,在高分辨率三维人脸图像的 17 个脸部特征点中提取出136 组欧几里德距离(Euclidean distance)表型。结合 3×低深度测序数据,用线性回归分析了125 个已报道的与脸部形态显著相关的 SNP 位点和 136 组脸部表型之间的相关性。
研究内容
材料与方法
样本:
样本总量为 1177 例,包括三维照片以及静脉血DNA。其中山西男性 932 例;山东男性 50 例;四川男性 99 例;江西男性 96 例;均为汉族健康成年个体。
纳入研究的个体均符合以下要求:(1)父母及祖父母均为汉族;(2)没有接受激素治疗;(3)未患有甲状腺疾病,脑垂体疾病或肿瘤;(4)没有因药物作用引起生长发育问题。
基因分型:
使用Illumina HiSeq X Ten 测序平台对样本进行 3×低深度全基因组测序,每个样本得到平均10G原始数据(Raw data)。对经过变异检测(Variant calling)处理后的数据,使用本实验室中国人群低深度测序 2510 份样本进行基因填补。SNP质控筛除标准为:分型成功率<0.97,哈德–温伯格平衡 P<0.0001,和低频等位基因频率(MAF<0.001)。本研究中共有 22,380,933个常染色体基因分型通过质检。
统计学分析
(1) 利用一般线性回归模型(general linear model, GLM)进行 125 个 SNP位点与各表型的关联分析。基因型的赋值按照加性模型,校正体重指数(body mass index, BMI)和年龄、基因组前5个主成分影响的表型差异。
本研究使用基于加性模型假设的一般线性回归模型,如公式(1)所示:
其中,yi 表示个体的某项头脸部特征,α 表示固定效应,βADD 表示个体携带的基因型对相关表型的效应,βBMI 表示个体体重指数(BMI)对相关表型的效应,βAGE 表示个体年龄对相关表型的效应,βPC1、βPC2、βPC3、βPC4 和 βPC5 表示来自基因型数据的前 5 个主成分对头脸部特征的效应,εi 表示残差,Gi 表示个体的基因型,BMI表示个体体重指数,AGE表示个体年龄,PC1、PC2、PC3、PC4 和 PC5 表示来自基因型数据的前 5 个主成分。
各位点基因型的赋值方法如公式(2)所示,A1表示该位点低频等位基因,A2表示该位点 A1对应的另一等位基因:
(2) 为进行多重检验校正,对脸部定量表型使用 有效的独立变量数构建了 Bonferroni 校正,其中独立变量数通过矩阵谱分解(matSpD)的方法进行评估。
(3) 使用多元线性回归方法评估了 12 个 SNP 位点可以解释的经过年龄、BMI 以及前 5 个主成分校正的表型方差比列。使用模型如公式(3)、(4)所示:
其中,Trait 代表某表型,Model1 代表协变量年龄、BMI 指数、基因组前 5 个主成分与表型的相关性。Model2:Model1$residuals~Gi 代表 Model 1 的残差,Gi 代表个体的基因型。
(4) 使用MapViewer 软件对来自千人基因组计划的 2504名个体与脸部特征相关联的 SNP 位点绘制了全球频率分布图。
结果与分析
关联分析结果
本研究共有1177例汉族男性样本的三维照片通过质控,年龄范围为16~75 岁(标准差:12.09;附图1);平均年龄为46.04岁,平均体重指数(BMI)为 24.81(标准差:3.74;附图1)。
年龄和体重指数(BMI)均对多组脸部形态定量表型显著效应。其中年龄对 86%的脸部表型具有显著效应(1.71×10-50<P<0.05),体重指数对 86%的脸部表型具有显著效应(5.60×10-224<P<0.05)。
通过17个脸部特征点三维坐标提取出136个脸部定量表型,进一步验证文献[14~23]当中报道出来的位于103个基因座上的125个SNP位点与脸部表型的关联性。利用matSpD方法评估后共有37个有效的独立变量,Bonferroni校正后阈值为(0.05/37=1.35×10-3)。
校正后的关联分析显示了12个与脸部特征显著关联的SNP位点(表 1),其中最显著的关联位点是 DCHS2rs9995821 (minP=1.58×10-8)
和DCHS2 rs2045323(minP=4.40×10-8)。
12个与脸部特征显著关联的SNP 位点可以解释经年龄、体重指数和基因组前 5个主成分矫正后的 3.89%脸部表型的差异(图A)
显著关联位点的遗传效应分析
本研究中,DCHS2 基因与中国汉族男性的脸部特征呈现出最显著的相关性。
其中,DCHS2 rs9995821的等位基因 C 与 7 种脸部表型距离缩短显著相关(1.58×10-8<P<8.73×10-4,图 B)。
DCHS2 rs2045323 的等位基因 A 与 5 种脸部表型距离缩短显著相关(4.4×10-8<P<6.72×10-4,图C)。
DICER1 rs7161418的等位基因 T 与 6 种脸部表型距离增加显著相关(3.96×10-4<P<1.11×10-3,图 D)。
SUPT3H/RUNX2 rs1852985的等位基因 T 与 4种脸部表型距离增加显著相关(3.05×10-4<P<3.88×10-4,图 E)。
RAB7A/ACAD9 rs2977562的等位基因 G 与 3 种脸部表型距离增加显著相关(3.52×10-4<P<1.17×10-3,图 F)。
EYA1 rs10504499 的等位基因G与3种脸部表型距离缩短显著相关(2.03×10-4<P<9.37×10-4,图G)。
TEX41 rs17479393 的等位基因 T 与 2 种脸部表型距离缩短显著相关(3.29×10-4<P<1.09×10-3,图 H)。
显著关联SNP位点在全球人群中的频率分布
通过表 2 可以看出,
本研究得到的中国人群脸部特征关联 SNP 位点在不同洲际人群存在遗传频率差异。
位于DCHS2 基因上的 rs9995821等位基因 C在东亚、南亚、非洲、欧洲和美洲人群中的频率分别为 22%、32%、20%、22%和 35%。
位于 DCHS2基因上的 rs2045323 等位基因 A 在东亚、南亚、非洲、欧洲和美洲人群中的频率分别为 20%、23%、3%、9%和 27%。
位于 EYA1 基因上的 rs10504499等位基因 G 在东亚、非洲和美洲中的频率均不足 5%,而在南亚和欧洲人群中的频率则分别为 16%和 11%。
位于 DICER1 基因上的 rs7161418 等位基因 T在东亚人群中的频率较低为2%,而在南亚、非洲、欧洲和美洲人群中的频率分别为 11%、19%、25%和 20%。
本研究中汉族人群与千人基因组东亚人群等位基因频率极为接近,符合预期。
讨论与总结
通过研究脸部形态的遗传基础可以更好地理解脸部特征差异形成机制,实现对脸部复杂表型的分子刻画,并应用到生物公共安全和疾病医疗等相关领域。本次研究首次在中国汉族人群中运用多元线性回归的方法,验证了已报道的125 个SNP 位点与脸部表型的相关性,最终发现了12 个显著关联的 SNP位点,其中与汉族人群脸部特性关联性最强的rs9995821 和 rs2045323 均位于 DCHS2 基因上的。
近年来,随着基因检测技术的发展,SNP的应用越来越广泛。SNP位点的检测不仅可以揭示个体的遗传特征进行遗传研究,还可以识别疾病或表型和特征的关联,有助于定位与疾病发病机制有关的基因组区域或基因。此外,SNP位点检测还可以应用于个性化医疗领域,根据个体的基因特征,为患者提供更加精准的治疗方案。
参考文献
注:
1、本文参考文献:刘明,李祎,杨亚芳,晏于文,刘凡,李彩霞 ,曾发明,赵雯婷.中国汉族人群脸部特征相关 SNP 位点研究.遗传, 2020,42(7): 680―690
2、仅做学习交流,不做他用,版权归原作者所有,如有侵权请及时联系我们删除。