拥抱大数据 · 了解复杂疾病

研究人员发现,血液中循环的蛋白质网络影响慢性疾病的发展与进程。

9月 06, 2018

作者:Elizabeth Dougherty

主图: GarryKillian/Shutterstock

新研究称,血液中的蛋白质网络或能揭开疾病的探查与治疗。

1967年,为了应对西方世界中影响寿命的心脏病问题,冰岛心脏协会(简称IHA)发起了“雷克雅未克研究”,旨在探索心脏病的病根并找到根治方法。研究人员当时招募了3万冰岛人加入,而后该项研究经过转变,延续至今。

诺华公司和冰岛心脏协会的研究人员近期通过挖掘数十年研究的数据以及采集的附加数据取得一项新发现,该发现阐明了心脏病和其他疾病是如何随着年龄而发展的。2018年8月2日,相关研究结果发表于《科学》杂志网络版,指出血液中包含多种复杂的蛋白质调控网络,而这些网络与人体健康密切相关。诺华公司-冰岛心脏协会团队发现了27个网络,每一个网络都是由一组特定的蛋白质组成,这些蛋白质在血液中的表达水平协调一致,有些类似合唱一首歌曲。当这个蛋白网络无法和谐运作时,疾病就会发展。

“由多个器官产生的数百种蛋白质作为一个整体来调节他们的表达水平,”诺华研究基金会基因组学研究所基因科主任,第一合著者John Lamb说。“这些调控网络与基因和疾病密切相关。”

在体检中,这些网络看不见也听不到,染料追踪不到,基因组分析也推测不出。然而只有当研究组在这案例中利用了大数据(具体来说,即通过体检、基因测序和冰岛心脏协会数据库中采集的血液蛋白质层组获取的大规模的复杂数据),它们才得以显现。

“这是一种不同的思维方式,不是典型的线性思维,”冰岛大学教授、冰岛心脏协会医药系统领导、第一合著者Valur Emilsson说。“疾病是复杂的,所以你不能回避其复杂性。”

研究组相信这些调控网络能够掌握寻找到探查、监控甚至治疗与年龄相关疾病的钥匙,而这些疾病对个人、团体和社会都会造成较大的伤害。据世界卫生组织统计,仅心脏病一项就影响一千七百万人口而且每年全世界死亡人数中有三分之一死因是心脏病。

大数据根源

早在1967年,科学家是无法使用基因组序列和复杂成像平台的。不过冰岛心脏协会的研究员不断前进以执行定期体检的方式追踪“雷克雅未克研究”参与者的个人健康状况。

这样一来,他们从中找到很多关于心血管风险因素。到2000年代中期,冰岛的心血管死亡率降低了80%。

那时,医疗科技已经发达了。研究组利用新的医疗科技发起了一项新研究,AGES-Reykjavik(年龄、基因/环境易感性- Reykjavik)研究。该项课题由冰岛心脏协会与国家老龄化研究所共同出资。

AGES-Reykjavik研究招募了大约5500名原雷克雅未克研究的参与者,除了给参与者进行基因组测序以及继续收集临床数据之外,研究组还收集血样并使用现代成像工具对每一个器官系统进行扫描,测量大脑中的白质和灰质,腹部的褐色脂肪和白色脂肪,心脏和其他地方的动脉粥样硬化。

冰岛大学教授冰岛心脏协会研究院主任Vilmundur Gudnason说:“成像就像虚拟的解剖,我们在最大程度上掌握了参与者的器官细节信息,而且能在医生发现迹象之前,在非常早期就鉴别疾病。”

大数据演变

与此同时,《科学》研究的主要合著者Lori Jennings在美国加利福尼亚拉荷亚与诺华公司的一组科学家们以及Lamb合作研究细胞间是如何交流的。他们想要鉴别血流中最终能扮演积极作用的每一组蛋白质,包括由细胞合成释放到血液中的蛋白质。

Jennings与团队研发出了一个能够诱导细胞产生、分泌上万种蛋白质的高通量系统,以期将其捕获提纯从而能够对其研究和了解他们的功能特性。

这项工作与位于马萨诸塞州剑桥的诺华生物医学研究中心的科学家、以及位于美国科罗拉多博尔德的SomaLogic的科学家们的努力相契合。SomaLogic创造了精准检测血清中蛋白质水平的技术。检测技术的难点在于敏感性,因为血液中有些蛋白质的表达量很高,而有些表达水平则很低。

比如有些蛋白质的丰富性要比其他多出一亿倍。类似质谱分析法这样的传统技术会无法检测到表达量低的蛋白质。

那时SomaLogic技术已经识别出了1000中蛋白质,虽然已经很多,但对于可能出现在血清中的蛋白质来说,还只是一小部分。因此诺华团队与该公司合作以求扩展技术的覆盖范围。

到了2015年,合作团队研发出的技术能够在单个血清中测量到4000余种蛋白质。

复杂性中的秩序

有了新科技的武装,在AGES-Reykjavik研究中,以从冰岛人身上采集到的血样并测量其中蛋白质水平的方式,冰岛心脏协会继续科研以拓展其数据集。

得到的数据集是意想不到地丰富。对每一位参与者而言,都包括DNA数据、数十年的健康疾病历史以及血液中4000余种蛋白质水平的信息。Emilsson说:“过去,蛋白质是一项缺失因素,因为当时我们没有技术去测量它们。”

研究组发现的蛋白质网络看起来似乎是弥补了风险基因与疾病(诸如心脏病和代谢综合征疾病)之间的缺口。27项网络中的每一个都包含有一个或数个核心蛋白质。有的基因突变改变了核心蛋白质的表达水平——这会导致其功能失衡——这会对蛋白质网络的功能产生重要的影响。有些突变会使疾病发生风险增高,有些则会降低疾病发生风险。

Lamb说:“生物是一项高维复杂的装置。单在数据集这里,每人都可能有百万计的基因变种、4000余种蛋白质、以及200多种临床可测疾病;我们利用现在所有先进的计算、数学和统计技巧来揭秘并了解我们看到的模式。”

这些蛋白质网络可能有助于解释那些让医生们困惑已久的医疗案例。

诺华生物医学研究中心现任疾病生物标记研究主任Jennings说:“为什么超重的、还伴有其他肝脏疾病风险因素的人却拥有一个健康的肝脏?而相反的,正常人却罹患上了肝脏疾病?一定存在基因易感性;这些蛋白质网络以及基因变种与疾病之间的连接能帮我们回答那个问题。”

比如,尽管某个个体整体很健康,但一个“跑调“的蛋白质可能会触动肝脏疾病的发展。能够让那个异常的蛋白质回归正常的药物就能够治疗或者甚至预防该疾病。更多研究将会不断揭示其潜能。Lamb说:“我们只是触及了表面而已。”