本报讯(记者黄辛)中科院生化与细胞所陈洛南研究组一项最新研究建立了基于流形思想,通过整合多种组学数据实现自动的信息融合与偏差校正,并从中识别出全局样本模式的方法。相关成果日前在线发表于《生物信息》。
大数据时代的来临给生物信息科学带来了新的机遇和挑战。传统的基于单组学数据的研究只能有限地解释生物系统或者复杂疾病的特征;采用的数据类型不同也往往得到不同的分析结论,这些阻碍了高通量技术的临床应用。因此,将不同类型的组学数据整合已成为信息转化医学应用的一个重要突破口。
对此,陈洛南研究组开发了一套新的整合办法。该方法从数据本身出发,在保留各组学的生物特性的前提下,将各层数据反映出的样本模式进行自动非线性整合,并且由优化得到符合数据固有特征的全局样本模式。其中,各组学数据对于整合结果的贡献得以量化,数据偏差得以校正,可有效鉴别出数据内部结构特征。这种无特殊假设的计算模型,可真正实现数据驱动的整合。
陈洛南表示,研究人员还将该方法成功应用到生物学数据的分析——癌症细胞系CCLE数据与临床病人TCGA数据上,揭示出整合后的癌症分型具有更显著的生物学或者临床预后的重要性。
原载于《中国科学报》 2017年4月13日第4版
作者:黄辛