王琼萍 上海交通大学
长久以来,分子生物学的研究都是以单基因为研究对象,而这种研究方法往往是基于一定的先验知识。如上所述,生物体是以一个整体存在,生命现象的发生和发展都存在一定的关联性。基于单基因的研究并不能阐释生物体内部的相互作用以及相互间的调控关系。系统生物学的涌现为解决细胞信号传导和基因调控网路、生物系统组成之间相互关系的结构和系统功能提供了新的理论支持。KEGG以及 BIOCART是目前运用得比较广泛也是相对比较全面的关于通路的数据库。
KEGG (Kyoto Encyclopedia of Genes and Genomes)数据库是由日本京都大学生物信息中心开发的,是一个在网络水平和分子水平系统研究基因功能的数据库。KEGG 数据库的主要组成部分是各种调控通路的图表。KEGG 数据库主要以通路的形式储存关于基因组,生物化学、分子以及细胞生物学的一些研究,并且体现在分子水平或者基因水平的调控关系。另外,KEGG 也储存了大量物种的基因目录以及全基因组序列信息。更重要的是,KEGG 数据库除了提供一些数据信息外,也提供一些计算软件,例如利用全基因组序列进行生物学通路的重新组建和通过表达谱信息预测基因调控网络。这个数据库每日更新并且是开源的。
根据 KEGG 以网络形式提供的生物学通路,可以从中获得各个基因间的上下游调控关系,基因的在各物种的同源信息、位置信息,通路的基因数信息、文章发表信息等。KEGG 中代谢通路占了很大一部分。Biocarta主要是一个为生命科学服务的在线资源,主要可以分为三个部分:基因功能、蛋白质生物学通路、反应试剂互变。Biocarta 的主要特点在于它是一个开源的在线平台,科研工作者可以在线上自主交流,自行绘制所涉及的通路。在 Biocarta的通路页面,基因间的相互关系也以生动的图表表示出来。与 KEGG 不同的是,Biocarta 以信号转导通路占主要部分。
生物芯片数据分析应用离不开高速发展的计算软件。目前应用较多的主要有运行于 R环境的 bioconductor、由法国国家信息和自动化研究院的科学家们开发的 Scilab 以及由美国MathWorks 公司出品的 Matlab。
Bioconductor 项目是为计算生物学和生物信息学的计算而开发的。目前,这个项目已经有 516 个软件包(R packages)。通过编辑 R 语言,可以很方便地进行芯片数据的分析。如Affy 包是用于 Affymetrix 寡核苷酸芯片分析的数据包,分析探针水平的数据。Category包结合其他如 KEGG.db 等可以分析出基因间表达中的互相协调关系而不是一般简单的基因集分析;Annotate 则是实现基因功能的注释;Cluster 以及 Class 数据包可以进行聚类。另外,在 R 语言环境下,还可以作直方图、散点图、盒图等。MATLAB 是一种用于算法开发、数据分析、数据可视化以及数值计算的高级技术计算语言和交互式环境,它提供了强大的矩阵处理和绘图功能,利用其软件包可以方便地调用其中的函数完成芯片的聚类分析,并且可以从层级聚类结果中生成热图和树状图,也可以根据个人需要编写新的程序。与 MATLAB 类似,SCILAB 也是计算工具软件,其中集合了数以百计的数学函数、高级程序语言和 2-维、3-维图形高级数据结构及用户自定义数据类型。另外,SCILAB 提供的语言转换函数可以自动将用 MATLAB 语言编写的程序翻译为 SCILAB 语言,实现了与 MATLAB 的交互使用。