GEO数据库

GEO数据库

写在前面的话

GEO 数据库是 NCBI 网站下的子数据库,主要收录基于芯片和测序技术的数据,来源于全球众多研究者的上传数据。GEO数据库一直是进行生信挖掘的重要数据库,了解GEO数据库的数据形式,组织类型及下载方式进行数据挖掘的必备技能。

数据存储格式

SOFT 格式

SOFT (Simple Omnibus in Text Format)格式,是一种紧凑、简单、基于行的 ASCII(美国信息交换标准代码)文本格式, 包含实验数据和注释数据。

MINiML 格式

MINiML (MIAME Notation in Markup Language, pronounced minimal)格式,与 SOFT 格式文件的包含信息完全相同,仅格式不同,为 XML 格式。 XML(eXtensible Markup Language)又称为可扩展标记语言,极其简单,使其易于在任何应用程序中读写数据。MIAME 和 MINSEQE 分别是芯片和测序数据上传的标准指南,指出上传的芯片或测序数据最起码应包含的数据内容。

Series Matrix files

Series Matrix files,是以制表符分隔的包含每个样本具体数值(比如基因表达量) 的文本文件,以包含GSM和GSE描述信息的数据开头,然后是样本为列、探针或者基因为行的表达矩阵。若来源于不同平台则分割为数个单独的文件。

Supplementary files

Supplementary files,即补充文件,列出 GSM 原始数据或上传者分享的(如临床信息 等)相关文件;GEO 数据库鼓励但不强制要求上传补充文件。GEO 中不同的数据类型,具体 对应的文件格式也有所不同。GEO 存储的数据一般都是 gzip 压缩文件,文件后缀名.gz 或 者.tgz,常用的解压缩工具一般都可以打开。

数据组织形式(Data organiation)

GPL(GEO platform)

GPL,是 GEO platform 的简称,也就是平台,所有的数据都是通过芯片或者测序数据商的平 台产生的,平台数据包括了该平台的主要描述信息,芯片平台数据还包括了芯片涉及的注 释信息。GEO 中包含了 2 万多个平台数据,编号以 GPL 开头,GPL 数据页面列出了 GEO 数据 库中使用该平台的所有样本 GSM 编号和系列 GSE 编号。

GPL 数据主要有四种对应的存储格式。最常用的是 annotation 注释表格文件,将芯片探针名转换为基因名时需 要用到这个文件。然后就是 SOFT 格式和 MINiML 格式的平台数据,存储了使用该平台所有 GSM、GSE 的编号信息,一般文件较大,一般分析不常用到这个数据。部分平台由补充数据文件。比如常见的 GPL571,有前三种数据格式。

  • GPLxxx.annot.gz, 基因序列的注释信息表格文件,不定期更新
  • GPLxxx.family.xml.tgz, 压缩的MINIML格式文件,包含使用该平台的所有GSM,GSE的信息
  • GPLxxx_soft.gz, 压缩的Soft格式文件,包含使用该平台的所有GSM,GSE的信息
  • GPLxxx.xxx.gz, 补充文件,部分数据无补充文件

GPL.png

GSM(GEO sample)

GSM,全称 GEO sample,即样本数据,记录了单个样本的生物学信息、处理流程以及该样 本在平台上产生的原始数据,编号以 GSM 开头,一个 GSM 样本仅对应一个平台。即使同一 个生物样本在同一个平台或者多个平台内多次检测,就产生多个 GSM 样本数据,每个平台 的每一次检测就会产生一个新的 GSM 样本数据。

GSM 数据对应的是一个单独的压缩文件,列在补充文件条目下。记录了该样本的描述信息和原始数据(raw data),根据产生数据平台的不同,原 始数据的文件格式有所不同,CEL 格式就是 Affymetrix 芯片的原始数据格式。GSM 原始数据的文件名也反应了一些信息,比如 GSM18423_PA-D_132.cel.gz,表示:gzip 压缩的 CEL 文件,GSM18423 为样本编号,“PA-D_132”为该样本的简要分组信息。

  • GSMxxxxxx.xxx.gz, 单个样本的gzip压缩文件,位于补充文件类别下

GSM.png

GSE(GEO series)

GSE,是 GEO series 的简称,系列数据是把相关联的 GSM 样本数据集合在一起,通常是一 项研究中的所有样本数据的集合,编号以 GSE 开头。一个 GSE 系列数据中包含的样本可能 来源于不同平台,同一个样本的数据也可以出现在多个 GSE 中。

GSE 文件的下载链接,一般在 GSE 网页的 下方。如GSE1145

  • GSExxx_series_matrix.txt.gz 或 GSExxx- GPLxxx_series_matrix.txt.gz,包含该 GSE 的样本表达矩阵及简要样本、平台信息; 若一 个 GSE 内应用了多个平台则按平台分割为多个 series matrix 文本文件,并按第二种方式 命名。
  • GSExxx_family.soft.gz, SOFT格式,包含GSE所涉及的所有样本及平台数据
  • GSExxx_family.xml.tgz, MINiML格式,包含该GSE所涉及的所有样本及平台数据
  • GSExxx_RAW.tar,该 GSE 所涉及的所有样本的原始数据,如所有样本 的 CEL 压缩文件,或其他补充文件

GSE.png

GDS(GEO DataSet)

GDS,是 GEO DataSet 的简称,是经 GEO 数据库的工作人员挑选整理后的数据集记录,是对很少一部分 GSE 原始数据进行背景校正、均一化等处理后得到的。编号以 GDS 开头,每个 GDS 的数据对应一个平台,使得数据在 GDS 内部具有直接的可比性。

GDS 数据的格式一般为 soft 格式,分为 soft 和 full.soft 文件,其中 full.soft 文件中增加了该 GDS 对应平台的最新基因注释信息。GDS 页面同时还整合了该 GDS 对应的 GSE 和 GPL annotation 数据下载链接。如GDS2225

  • GDSxxx.soft.gz, 来源于原始的GSE数据,经GEO处理,具有GDS内数值可比性的数据
  • GDSxxx_full.soft.gz, SOFT格式,在GDSxxx.soft.gz基础上,增加了该GDS对应平台的最新基因注释

GDS.png

GEO Profile

GEO Profile 数据,直接来源于 GDS 数据,只是呈现的形式不同,重点关注单个基因的水平。从单个基因角度直观地以图表展示特定基因在 GDS 不同分组、所有样本中的表达水 平,网页内可以直接下载整理好 Profile 数据。

GEO profile 文件下载的文件命名为 profile_data.txt,没有特定的编号,文件内包含了所查询基因的信息以及在各个样本中的表达值数据,推荐用 Excel 打开这个文本文件。如GDS2225中Herpud1基因的profile数据

Profile_data.txt, 包含所查询基因的信息及在各个样本中的表达值数据

GEO profile.png

数据下载

网页链接下载

GEO数据库主页

构建ftp链接下载

GEO数据库ftp站点

4种数据类型的子目

  • datasets
  • platforms
  • sample
  • Series