一、什么是 GEO 数据库
GEO 的全称为Gene Expression Omnibus,中文常译为「基因表达综合数据库」,由美国 NCBI(国家生物技术信息中心)开发维护,是全球规模最大、使用最广泛的公共基因表达数据存储平台之一。
GEO 数据库的核心价值,是收纳全球科研机构提交的各类基因表达谱数据,涵盖芯片测序、高通量测序、单细胞测序等多种实验技术产生的表达量数据。所有公开数据集均免费向科研人员开放,研究者可直接检索、下载已有数据,用于二次分析、验证实验结论或开展生物信息学挖掘,是基础医学、分子生物学、遗传学领域的核心公共数据资源。
二、GEO 数据库的核心数据类型
GEO 数据库按照数据层级,可分为 4 类核心数据对象,理解这一结构是高效检索的基础:
GSE(Series,数据集系列)
即完整的研究数据集,通常对应一篇科研论文的全部实验数据,包含完整的实验设计、样本信息、原始数据与处理后数据,是我们检索和下载的核心对象。
GSM(Sample,样本)
单一样本的表达数据,是构成 GSE 的基础单元,每个 GSM 对应一个实验样本,包含样本的分组、处理条件、表达矩阵等信息。
GPL(Platform,检测平台)
对应基因检测所用的芯片或测序平台,记录了探针编号、基因注释信息等内容,同一平台可对应多个 GSE 数据集。
GDS(DataSet,数据集)
经过官方整理的标准化数据集,数据格式统一,适合新手直接用于差异表达分析,但更新速度慢于 GSE 数据。
三、GEO 数据库的检索方法与步骤
1. 官方检索入口
直接访问 NCBI GEO 官网,在检索框输入关键词即可检索。支持的检索维度包括:基因名称、物种、疾病名称、实验技术、作者、研究方向等。
2. 精准检索的常用技巧
限定物种:在关键词后追加"Homo sapiens"[Organism]可仅检索人类数据集,同理"Mus musculus"[Organism]对应小鼠数据集。
限定数据类型:使用"Expression profiling by array"筛选芯片数据,"Expression profiling by high throughput sequencing"筛选测序数据。
组合检索:通过AND、OR、NOT布尔逻辑词组合关键词,例如"liver cancer" AND "Homo sapiens" AND "GSE"[Entry Type]。
3. 数据集筛选与判断
检索结果页可通过左侧筛选栏进一步过滤物种、实验类型、发布时间等。选择数据集时,优先关注样本量、实验分组清晰度、数据是否附带原始文件,同时可查看数据集对应的参考文献,确认实验设计是否符合自身研究需求。
四、GEO 数据的下载与初步处理
1. 常见数据下载方式
矩阵文件下载:直接下载处理好的表达矩阵文件(Series Matrix File (s)),格式为 txt,适合新手直接导入分析工具。
原始数据下载:下载 CEL、fastq 等原始格式文件,适合需要自行做标准化、质控分析的研究者,数据完整性更高。
工具批量下载:可通过 R 语言GEOquery包实现批量检索与下载,适合大批量数据处理场景。
2. 基础数据处理流程
导入表达矩阵,完成探针 ID 到基因名称的注释转换;
对样本分组信息进行整理,区分对照组与处理组;
执行数据标准化与质控,剔除异常样本;
开展差异表达分析,筛选显著差异基因;
对差异基因进行功能富集分析,解读生物学意义。
五、GEO 数据库的常见使用场景
实验结论验证:用公共数据集验证自己实验得到的差异基因结果,提升结论可靠性。
预实验探索:在开展自有实验前,通过 GEO 数据初步验证研究假设,降低实验风险。
二次挖掘研究:基于已有数据集开展新角度分析,例如不同疾病的表达谱对比、生物标志物筛选等。
方法学研究:用于测试新的生物信息学分析算法、模型的效果。
六、新手使用 GEO 数据库的注意事项
第一,注意数据的平台一致性,不同检测平台的探针注释存在差异,跨平台合并数据需先做标准化处理。
第二,关注样本的临床信息完整性,涉及疾病研究时,需确认数据集是否附带预后、分期、治疗等关键信息。
第三,引用数据时需遵循 GEO 的引用规范,在研究中注明数据集编号与原始文献来源。
第四,若需批量下载大量数据,建议使用脚本工具,避免网页端下载出现中断、遗漏。
