科研进展

陈洛南研究组合作构建基于时序数据的“因果网络”

来源: 时间:2020-06-01

  5月26日,中国科学院分子细胞科学卓越创新中心(生物化学与细胞生物学研究所)陈洛南研究组与复旦大学、苏州大学、日本东京大学等团队共同合作,提出了数据驱动的因果网络辨识的新型算法。该方法可以用于大规模复杂动力系统内蕴因果网络的复现,有助于解析实际系统演化的本质机制和规律。研究成果“Partial cross mapping eliminates indirect causal influences”(偏交叉映射排除间接因果影响)在线发表于国际学术期刊Nature Communications上。

  因果关系是自然界现象之间最普遍和最基本的联系。在生命科学、物理学、地理学等各个自然科学领域乃至哲学、经济学等社会科学中,发现内蕴的因果关系、因果网络可以反映系统演化的核心互作机制,具有重要的科学意义。因此,如何在只基于观测数据,并且在复杂系统精确模型缺失的前提下,准确地辨识系统变量之间的因果关系和因果网络,成为了包括人工智能在内的科学研究中的焦点问题,受到生命科学、医学、物理学、经济学等学者们的广泛关注。

  传统基于统计学和信息论的因果分析方法,如格兰杰因果关系、传递熵等方法,需要变量因素之间具有可分性条件,即需要将原因信息从结果信息中分离出来。然而在现实世界中,特别是非线性复杂动力系统所产生的多维度时间序列中,这样的可分性条件无法得到满足,因果机制往往交织在同一个时间序列之中。另一方面,由于因果关系在多变量之间的传递性,而直接因果关系才能反映现象之间本质的内在机制,因此发展有效可靠算法,区分复杂动力系统中的直接与间接因果,也成为了重要科学问题。面向这些问题,本项研究利用动力系统理论清晰阐明了可分性条件的严格数学机理,并综合利用相空间重构、交叉映射、偏相关系数等动力学与统计学相关算法,建立了新型偏交叉映射方法PCM,实现了非线性动力系统中直接因果与间接因果的区分,从而为在大规模数据中辨识可信的因果网络提供了可靠算法。该算法已被用于生态系统、环境与疾病互作系统以及基因调控网络等多个实际问题中,成功复现了这些复杂动力学演化系统的内蕴因果网络,为进一步理解系统演化的基本机制提供了方法学基础。

  此项研究进一步完善了现有复杂系统因果分析的理论体系,为多学科共性科学问题提供了有效的数学方法,面向数据驱动的研究领域具有广泛的应用前景,体现了应用数学研究的价值。陈洛南研究员与复旦大学林伟教授、东京大学合原一幸教授是论文共同通讯作者,冷思阳博士为论文第一作者,苏州大学马欢飞教授为共同作者。本项研究得到了国家重点研发计划、国家自然科学基金委、中科院先导、上海市科委项目的支持。

  文章链接

附件下载: