热门资讯> 量化自身:借助云计算平台,人类解读基因的成本正在急速降低 >

量化自身:借助云计算平台,人类解读基因的成本正在急速降低

转载时间:2021.12.23(原文发布时间:2014.10.21)
192
转载作者:36氪企服点评小编
阅读次数:192次

量化自身:借助云计算平台,人类解读基因的成本正在急速降低
编者按:2014年初,美国Illumina公司发布HiSeq X Ten高通量基因测序平台,标志着人类进入1000美元一个基因组的时代,人人都有条件对自己的基因进行解读,人人都可以更加全面了解自己的DNA,同时也意味着产生海量的基因数据。Illumina的员工郝向稳辞职之后,于今年7月创立基云惠康Genekang,其团队立志通过对海量人基因组数据的分析为人类的生活和健康服务。这是郝向稳在36氪首发的文章。

现在越来越多的基因界数据分析公司都在开发基于云计算的数据分析平台,利用云计算平台的高吞吐能力降低海量基因、健康数据分析的成本。

2014.1.4,Google Ventures投资公司宣布参与DNAnexus公司的第三轮融资,投入1500万美元开发新型云计算平台以支持生物医药研发研究。DNAnexus提供的云计算分析主要在DNA序列数据应用分析上。

2014.9.28,Seven Bridge Genomics(SBG)获得美国国家癌症研究所的基因组数据分析项目,分享其中的590万美元。SBG主要提供的是基于亚马逊云计算平台的基因数据分析业务。

2014.10.3,基因界的“英特尔”Illumina公司下属的云计算平台BaseSpace与AB SCIEX合作,在基因数据分析之外,开始集成蛋白数据的分析。

而在2013.10.28,Illumina刚刚收购了偏向于临床医疗数据分析的公司NextBio。

人的基因信息有多大?首先一个普通成年人的身体由3.72 × 1013个不同种类的细胞组成。绝大部分的细胞都是双倍体基因组的。除精子和卵子这些性细胞外,在每个细胞核中包括23对染色体,所谓双倍体,就是指23对染色体中各有一半分别来自父亲和母亲。人所有的基因都包含在这23条染色体上,总的基因序列是大约30亿个碱基(3Gb)。

目前,利用Illumina等公司的新一代基因测序技术,要得到比较准确的信息,一般认为30X的基因测序深度是必须的,所以一个人的基因组检测大约需要产生90Gb的数据。如此大的数据,在一般的电脑或小型服务器上运行起来非常困难。所以,像基云惠康这样的生物信息分析创业公司开始开发基于云计算的技术平台和工具,利用云计算的优势降低成本,提高数据分析的速度。

人的基因有多少?在人的30亿个碱基序列中包括了21000多个编码蛋白质的基因,每个基因的功能都不太一样,有控制发育的,有控制运动的,有帮我们抵抗传染病的。当然,也有能导致肿瘤、白血病的。同时,很多基因不止一个功能,同一个基因在很多功能中起着不同的作用。我们人类这21000多个基因大部分每个人都有,但同一个基因的序列在不同的人身上会有差异,这个差异就导致了千人千面。比如BRCA1基因在每个人的基因组上都存在,但像安吉丽娜朱莉的BRCA1基因序列与其他人就不太一样,她带的这个基因更容易导致乳腺癌和卵巢癌。所以,她提前动手,切除了乳腺,摘掉了卵巢,以免自己的孩子将来遭受丧母之痛,大爱。

基因的研究在不断的进行中,很多基因的功能还未知,已知功能的基因不断发现有新功能,目前的研究基本上就是收集一定量样本,把表型数据与基因型数据进行关联分析,从而发现与表型有关的基因及其功能。但在大数据时代,科研的模式会逐渐发生变化。

回到Illumina收购NextBio公司。NextBio的平台让客户能够利用独特的关联引擎来比较实验数据和现有的数据集,从而发现新的关联。它使用高度扩展的软件即服务(SaaS)企业技术,能够分析PB级的数据。Illumina的CEO Jay Flatley表示:“NextBio实现了单一环境下表型和临床数据的分类和汇总,以前所未有的速度和规模进行数据分析。Illumina BaseSpace云计算环境与NextBio平台的融合,将让我们能够提供解决方案,无缝整合从样品到结果的整个流程”。

这也解释了我上次见到Jay Flatley时问他的那个问题:为什么Illumina收购了NextBio,而没有收购DNAnexus?因为Illumina需要表型数据。

表型数据多种多样,如发型颜色,头发弯曲还是直的,眼皮单双,身高、体重、血压、心率、血糖、皮肤特点、眼球颜色、指纹、鼻梁、嘴型、呼吸、眉毛等等,这些是比较容易看见或容易测量的特征。人体并不是一个固定不变的生命体,每个细胞内是不同的,各种组织器官基因变化的数据是一个不断变化的过程,形成了多种多样的表达谱。

《失控》的作者 KK(凯文·凯利)是全球“量化自身”(Quantified Self – QS)运动的发起者。如今,全球已有500多个量化自身运动的Group 在不定期交流。量化自身产生了各种各样的数据,特别是可穿戴设备最近如火如荼。它对人体表型数据的获取从原来去医院、体检中心的单点、间断检测模式变成了24小时的连续检测模式,数据的完整性提高,更加客观反映生命的体征,同时也意味着数据量更加庞大。

大数据是生命的基本特征,对于生命体征的量化,基因组是最基础、最核心的数据。对于基因数据、众多体征数据的整合、挖掘、利用将会是未来健康大数据的一个努力方向,从而让预防和大数据在大健康领域发挥巨大作用。

[免责声明]

资讯标题: 量化自身:借助云计算平台,人类解读基因的成本正在急速降低

资讯来源: 36氪官网

36氪企服点评

新锐产品推荐

消息通知
咨询入驻
商务合作