基因表达谱公共数据库(总页)
HAI.-(YICAI)-Company Onel
本页仅作为畏档封面,使用请直接删除
基因表达谱公共数据库( 2 0 1 0 - 0 4 - 1 7 1 1:1 7:2 1 )转载▼标签:教育分类:系统生物学
7
gene expression profiles: NCBI: GEO
EBI ArrayExpress 和 SMD 功能基因组相关信息分析
功能基因组学是后基因组研究的核心内容,它强调发展和应用整体的(基因组 水平或系统水平)实验方法分析基因组序列信息阐明基因功能,特点是采用高 通量的实验方法结合的大规模数据统讣计算方法进行研究,基本策略是从研究 单一基因或蛋白上升到从系统角度一次研究所有基因或蛋白。随着功能基因组 实验研究的深入,大量的数据不断涌现,生物信息学将在功能基因组学研究中 的扮演关键角色。
7. 1大规模基因表达谱分析
随着人类基因组测序逐渐接近完成,科学家发现即使获得了完整基因图谱,对 了解生命活动还有很大距离。我们从基因图谱不知道基因表达的产物是否出现 与何时出现;基因表达产物的浓度是多少;是否存在翻译后的修饰过程,若存 在是如何修饰的,等一系列问题。这些问题的实质是不了解按照特定的时间、 空间进行的基因表达谱。获得基因表达的信息是比DNA序列测定艰巨得多的任 务,因为基因表达是依赖于许多因素的动态过程。
国际上在核酸和蛋白质两个层次上发展了分析基因表达谱的新技术,即核酸层 次上的cDNA芯片(cDNA微阵列)技术和蛋口质层次上的二维凝胶电泳和测序 质谱技术,即蛋白质组(proteome)技术。DNA芯片技术能够在基因组水平分析 基因表达,检测许多基因的转录水平。
对大规模基因表达谱的分析存在新的方法学问题,它们从数学角度看不是简单 的灯问题、动力系统问题或不确定性问题,而是基因表达网络,因此需要发展 新的方法和工具。同时,在芯片等的设计上,也需要从理论到软件的支持 下面主要用绕cDNA芯片相关的数据管理和分析问题进行讨论。 1.实验室信息管理系统
cDNA芯片实验的LI的是要在一次实验中同时得到成千上万个基因的表达行为, 这样的实验需要有管理实验前后大量数据的能力。设计构建检测基因表达的微 阵列需要获得生物体基因的所有序列、注释和克隆。在杂交反应和扫描后,收 集到的数据必须以某种方式保存,以便很容易进行图象处理和统计及生物学分 析。因此需要建立与大规模高通量实验方法相匹配的实验材料和信息管理系 统。
芯片图象处理已有各种软件工具,基本的功能是将不同信号强度点的图像转换 为每个点的强度数值。这方面没有一致的方法,许多研究小组仍在开发这类软 件。图象分析软件的质量对精确解释玻片和膜上的信号非常关键。NHGRI的 Yidong Chen开发了一种复杂的图象分析程序,deArray,可免费获取。
美国国立卫生研究院人类基因组研究所(NHGRI)开发的免费的cD\\A芯片数据 管理分析系统ArrayDB,涉及微阵列的设讣、实验室信息管理、实验结果的处 理和解释。下面加以简单介绍。 ArrayDB
ArrayDB是用来储存、查询和分析cDNA芯片实验信息的实验室管理系统。
ArrayDB整合了 cDNA芯片实验中的多个方面,包括数据管理、用户介面、机器 自动点样、扫描和图象处理。ArrayDB中保存的数据包括实验来源、实验参数 和条件以及原始的和经处理的杂交结果。ArrayDB依托的关系数据库储存了芯
片上每个克隆的相关信息,包括基因的简单描述、GenBank号、IMAGE克隆识别 号、代谢途径号和实验室内部克隆号。ArrayDB还储存了与cDNA芯片制造和实 验条件的信息。包括点样相关数据(点样机器的参数)、环境条件(温度、湿 度、点样针冲洗条件)等数据。此外,还保存了杂交探针和实验条件,包括研 究者的姓名,研究LI的和实验条件、组织细胞类型的文本描述。有关杂交的结 果的信息包括扫描图象(“原始”结果)、信号强度数据、信号强度比值和本 底值。
ArrayDB的设计允许灵活地提取数据信息。设计策略允许不同来源的数据输 入,大多数克隆信息来自Unigene数据库(包括序列的命名和获取号)。也允许 新分离的还没有获取号及名称的克隆的输入。许多数据输入和处理过程是自动 的。软件会自动扫描H录查找新输入数据库中的信号强度数据无须人工辅助, 其它自动处理包括很方便地整合信号强度数据和克隆数据。
ArrayDB的Web界面能很方便地进行不同类型信息的查询,从克隆信息到信号 强度值到分析结果。ArrayDB支持各种字段的数据查询,例如克隆ID、标题、 实验编号、序列获取号、微量滴定板编号以及相关克隆的结果。每个克隆的更 多信息通过超文本链接至其他数据库如dbEST、GenBank或Unigene,代谢途径 信息也可通过链接至KEGG得到。
通过序列相似性搜索可以有效地寻找LI的基因。ArrayDB支持对10K/15K数据 (软件自带数据)进行BLAST'搜索以便确定口的基因是否已包含在芯片中。 ArrayDB能分析单个和多个实验产生的信号强度比值的类型和关系。
ArrayViewer工具支持查询和分析单个实验;MultiExperiment viewer工具支 持多个实验数据。在下述网站可得到更详细信息和相关软件。 基因表达公共数据库 数据库用途
(1) 基础研究将来自各种生物的表达数据与其它各种分子生物学数据资源,如 经注释的基因组序列、启动子、代谢途径数据库等结合,有助于理解基因调控 网络、代谢途径、细胞分化和组织发育。例如,比较未知基因与已知基因表达 谱的相似性能帮助推测未知基因的功能。
(2) 医学及药学研究例如,如果特定的一些基因的高表达与某种肿瘤密切相 关,可以研究这些或其它有相似表达谱的基因的表达的影响条件,或研究能降 低表达水平的化合物(潜在药物)。
(3) 诊断研究通过对数据库数据进行基因表达谱的相似性比较对疾病早期诊 断具有临床价值。
(4) 毒理学研究例如,了解大鼠某种基因对特定毒剂的反应可帮助预测人的 同源性基因的反应情况。
(5) 实验质量控制和研究参考实验室样本与数据库中标准对照样本比较能找岀 方法和设备问题。此外,还能提供其他研究者的研究现状,避免重复实验,节 约经费。
数据库的特点和难点
U询急需建立标准注释的公共数据库,但这是生物信息学迄今面临的最复杂且 富有挑战性的工作之一。主要困难来自对实验条件细节的描述,不精确的表达 水平相对定量方法以及不断增长的庞大数据量。
U前所有的基因表达水平定量都是相对的:哪些基因差异表达仅仅是与另外一 个实验比较而言,或者与相同实验的另一个基因的相比而言。这种方法不能确