基因组注释从0开始(6):功能基因注释

1. 功能基因注释常用数据库介绍

功能基因注释(Functional Gene Annotation)是生物信息学分析中的关键环节,主要用于识别基因的功能、代谢通路、生物学过程及进化关系。通过比对已有的功能数据库,可以推测目标基因的作用,并为后续研究(如基因调控、分子育种、生物合成等)提供重要参考。

在功能基因注释过程中,常用的数据库包括 NR、SwissProt、KEGG、GO、Pfam、COG/KOG、EggNOG 等,每个数据库的侧重点不同,适用于不同的分析场景。


1.1. NR(Non-Redundant Protein Database,非冗余蛋白数据库)

📌 数据库简介

NR 是 NCBI 维护的最大规模蛋白数据库,整合了来自多个公共数据库的蛋白序列,并去除了冗余信息。该数据库涵盖了广泛的物种信息,适用于新测序物种的功能基因注释。

📌 功能特点

  • 适用于蛋白功能预测,可用于快速识别基因的同源蛋白。
  • 数据量庞大,涵盖了不同物种,支持广泛的物种比对。
  • 通过 BLASTP 进行比对,推荐参数 -evalue 1e-5 -max_target_seqs 1,获取最高匹配分数的蛋白。

📌 应用场景

基因功能预测:根据相似的蛋白推测目标基因的功能。
物种分类:帮助确定目标基因属于哪个物种,检测数据污染情况。


1.2. SwissProt(高质量蛋白数据库)

📌 数据库简介

SwissProt 是 UniProtKB 的人工审核子库,包含高质量的蛋白序列及详细的功能注释信息。相比 NR,它的数据质量更高,冗余度更低,但物种覆盖范围较小。

📌 功能特点

  • 人工审核,数据可靠,可用于高置信度的功能注释。
  • 包含丰富的蛋白功能信息,如信号肽、翻译后修饰(PTMs)、蛋白互作等。
  • 可用于提取 GO(Gene Ontology)编号,进行标准化功能注释。

📌 应用场景

高质量蛋白功能注释,避免 NR 可能的低质量比对结果。
蛋白翻译后修饰分析,用于研究磷酸化、甲基化等修饰信息。


1.3. KEGG(Kyoto Encyclopedia of Genes and Genomes,生物通路数据库)

📌 数据库简介

KEGG 是一个用于分析代谢通路和功能基因组的数据库,通过 KO 编号(KEGG Orthology) 将基因映射到生物通路,以便研究其在代谢、生物合成、信号传导等方面的作用

📌 功能特点

  • 适用于代谢通路分析,可识别基因在特定通路中的功能。
  • 提供 KEGG Orthology(KO)编号,用于跨物种功能比对。
  • 可结合基因表达数据,分析代谢通路的动态变化

📌 应用场景

功能基因的通路注释:确定目标基因在生物合成或降解途径中的作用。
代谢工程:识别关键基因,优化生物代谢途径。


1.4. GO(Gene Ontology,基因本体论数据库)

📌 数据库简介

GO 是一个标准化的基因功能分类体系,用于对基因进行统一的功能注释,以确保不同物种的基因功能可比性。GO 数据库主要从三个维度描述基因的功能:

  • BP(Biological Process):基因参与的生物过程,例如 DNA 复制、光合作用。
  • CC(Cellular Component):基因产物在细胞中的位置,例如线粒体、核糖体。
  • MF(Molecular Function):基因产物的分子功能,例如 ATP 结合、DNA 结合。

📌 功能特点

  • 适用于大规模基因功能注释,可以与 SwissProt、NR 结合使用。
  • GO 术语具有层级结构,支持深层次的功能分析。

📌 应用场景

基因功能分类:帮助研究某个基因属于哪类功能。
基因富集分析:结合基因表达数据,研究特定功能类别的基因是否富集。


1.5. Pfam(蛋白结构域数据库)

📌 数据库简介

Pfam(Protein families database)是一个用于蛋白质结构域和功能家族分类的数据库,主要基于 HMM(隐藏马尔可夫模型,Hidden Markov Model) 进行分析。蛋白质结构域(Domains)是蛋白质的基本功能单元,一个蛋白可能由多个结构域组成,不同的结构域决定了蛋白的不同功能。

Pfam 主要用于识别蛋白质序列中的功能结构域,帮助预测蛋白的具体功能。例如,一个蛋白可能含有 ATP 结合域、DNA 结合域等结构域,而这些结构域的信息可以帮助推测蛋白的作用机制。Pfam 数据库不断更新,目前包含数万个经过人工或自动方法构建的蛋白结构域家族。

📌 功能特点

  • 基于 HMM 方法,比 BLAST 更擅长识别远缘同源(remote homologs)。
  • 涵盖超过 18,000 个蛋白家族,提供丰富的结构域注释信息。
  • 可以预测新蛋白的功能模块,通过结构域分析了解蛋白的生物学作用。
  • 与 InterPro 数据库兼容,可用于整合多个数据库的信息,提高注释准确性。

📌 应用场景

蛋白功能预测:通过识别已知结构域,推测蛋白的功能和作用机制。
蛋白家族分析:识别同一功能家族的蛋白成员,研究其进化关系。
蛋白工程:识别关键结构域,以便改造蛋白功能或优化蛋白设计。

📌 Pfam 的使用方式

Pfam 可以通过 InterProScan 进行批量蛋白序列分析,也可以单独使用 HMMER 进行结构域搜索:

  • HMMER:使用 hmmsearch 工具对蛋白序列进行结构域预测。
  • InterProScan:结合多个数据库进行蛋白功能综合分析。

1.6. COG/KOG(直系同源蛋白分类数据库)

📌 数据库简介

COG(Clusters of Orthologous Groups)和 KOG(Eukaryotic Orthologous Groups)是基于进化关系对蛋白进行功能分类的数据库

  • COG 适用于原核生物(细菌和古菌),通过基因组比较分析,将具有共同祖先的蛋白归类。
  • KOG 适用于真核生物,提供了更详细的蛋白分类信息,适合研究真核基因组中的直系同源蛋白。

COG/KOG 通过直系同源(Orthologous)关系分类蛋白质,这种方法有助于研究不同物种间的功能保守性。例如,细菌和真核生物可能共享某些保守的代谢酶,研究这些基因的进化历史可以帮助理解它们的生物学作用。

📌 功能特点

  • 基于进化关系,适用于进化分析和功能预测。
  • 分类明确,每个 COG/KOG 组代表一个功能相关的基因家族。
  • 支持跨物种比较,可用于推测未知基因的功能。
  • 包含 25 个主要功能类别,涵盖信息处理、代谢、生理功能等方面。

📌 应用场景

进化分析:研究蛋白的进化关系,确定直系同源蛋白的功能。
基因功能预测:通过同源基因比对,推测未知蛋白的作用。
比较基因组学:分析不同物种间 COG/KOG 类别的分布情况,研究物种进化和功能变化。

📌 COG/KOG 的使用方式

COG/KOG 可通过 EggNOGNCBI COG/KOG 服务器 进行功能注释:

  • EggNOG-mapper:可基于 EggNOG 数据库进行高效的 COG/KOG 注释。
  • NCBI COG/KOG 网站:提供在线 BLAST 搜索,支持小规模数据分析。

1.7. EggNOG(进化基因组学数据库)

📌 数据库简介

EggNOG(evolutionary genealogy of genes: Non-supervised Orthologous Groups)是 COG/KOG 的扩展版本,整合了更多的物种信息,适用于不同类群的基因功能预测和进化分析。相比 COG/KOG,EggNOG 涵盖的生物类群更广泛,包括细菌、古菌、真核生物、病毒等,且使用更先进的方法进行自动化分类。

EggNOG 通过将基因归类到直系同源(Orthologs)或旁系同源(Paralogs) 群组中,帮助推测新基因的功能,并分析其在不同物种中的保守性。

📌 功能特点

  • 扩展了 COG/KOG 数据库,涵盖更广泛的生物类群。
  • 采用高效的 HMM 方法 进行蛋白分类,提高功能预测的准确性。
  • 支持 KEGG、GO 注释,可直接获取基因的代谢通路信息。
  • 提供 EggNOG-mapper 工具,适用于大规模基因组注释。

📌 应用场景

直系同源蛋白分析:研究基因在不同物种中的进化关系。
基因功能预测:结合 KEGG、GO 进行多层次功能注释。
基因组比较分析:研究不同物种的基因家族保守性和物种特异性。

📌 EggNOG 的使用方式

EggNOG 提供了一个高效的注释工具 EggNOG-mapper,适用于大规模基因组数据的功能预测:

  • EggNOG-mapper(命令行工具): ```sh emapper.py -i input.faa -o output –cpu 8 –data_dir eggnog_db

总结:功能基因注释的数据库选择

在实际研究中,通常会结合多个数据库进行注释,以获得更准确的功能预测。常见的数据库选择策略如下:

分析目标 推荐数据库
基因的初步功能预测 NR、SwissProt
基因的生物通路注释 KEGG
基因的标准化功能分类 GO、SwissProt
基因的蛋白结构域分析 Pfam
基因的进化关系分析 COG/KOG、EggNOG

🔹 实际应用中,通常使用 BLASTP 比对 NR/SwissProt,结合 KEGG、GO、Pfam 进行深度分析。
🔹 可通过 InterProScan 提取 GO 号,或者使用 EggNOG 进行直系同源比对,提升注释的准确性。

功能基因注释是基因组学分析的重要环节,合理选择数据库和工具可以提高结果的准确性,为生物学研究提供更有价值的信息。

2. EggNOG(进化基因组学数据库)

📌 数据库简介

EggNOG(evolutionary gene genealogy: Non-supervised Orthologous Groups)数据库源自 COG/KOG,是一个基于直系同源关系的基因功能注释与进化分析数据库。最初,EggNOG 主要依赖于 COG(用于原核生物)和 KOG(用于真核生物)数据库,但随着基因组数据的快速积累,EggNOG 在2008年提出并迅速发展,解决了当时 COG 和 KOG 数据量不足、更新不及时的问题。

EggNOG 采用 非监督学习 方法,使用 Smith-Waterman 算法(比 BLAST 更精确的序列比对算法)进行直系同源基因群(Orthologous Groups,OGs)的构建。通过自动注释基因的描述文件、功能类别和预测的蛋白质结构域等,EggNOG 无需依赖已有的功能注释信息,能够为不同物种的基因群组提供全面的注释,支持 跨物种比较分析,有效发现新的基因功能和基因之间的相互关系。

📌 数据库发展与版本

EggNOG 在过去十几年中经过了持续迭代,目前已发布到 EggNOG 6.0(2023年1月)。该版本涵盖了全球超过 1700 万个直系同源基因群,涉及的物种数量也大幅提升,包含了:

  • 10756 个细菌基因组
  • 457 个古细菌基因组
  • 1322 个真核生物基因组

随着数据量的增加,EggNOG 6.0 支持了更多功能注释信息,包括:

  • KEGG(基因组和代谢通路)
  • GO(基因本体论)
  • UniProtKB(蛋白质数据库)
  • BiGG(代谢网络数据库)
  • CAZy(碳水化合物酶数据库)
  • CARD(抗药性基因数据库)
  • PFAM(蛋白结构域数据库)
  • SMART(蛋白质结构域分析工具)

📌 功能特点

  • 基于非监督学习方法,通过 Smith-Waterman 算法 精确构建直系同源群(OGs),从而进行蛋白质的进化关系推断与功能注释。
  • 自动化注释功能,通过整合多个公共数据库(如 KEGG、GO、UniProtKB 等)对基因进行功能分类,支持多物种跨物种基因功能比较。
  • 广泛的数据覆盖,支持从细菌到真核生物的各种物种基因组注释,具有极强的灵活性和扩展性。
  • 系统发育图谱生成,EggNOG 6.0 提供了为多个物种的直系同源群生成系统发育树的功能,使得研究者能够直观地观察基因的进化历史。

📌 应用场景

基因功能预测与注释:通过 EggNOG 对未知基因进行功能预测,特别是那些缺乏直接功能描述的基因,利用蛋白质的直系同源关系进行功能推测。
跨物种基因比较分析:分析不同物种间基因的保守性和功能演变,揭示基因在进化中的多样性和保守性。
基因组学研究与进化分析:结合 EggNOG 提供的功能注释与系统发育图谱,研究基因在不同物种中的进化动态及其与代谢、病理等生物学过程的关系。
基因家族的演化轨迹分析:通过生成系统发育树,研究基因家族在进化中的扩张与收缩,帮助探索物种间的进化关系。

📌 EggNOG 的使用方式

EggNOG 提供了强大的注释工具 EggNOG-mapper,适用于基因组数据的批量注释:

  • EggNOG-mapper:一个基于命令行的工具,可用于批量处理和注释蛋白质序列。
    • 命令示例:
      emapper.py -i input.faa -o output --cpu 8 --data_dir eggnog_db
      
    • 输出:生成包含每个基因的注释信息(如 GO、KEGG、UniProtKB 等)的文件。
  • EggNOG 在线平台:提供了一个在线工具,适用于小规模数据集的注释与分析,用户可以直接上传蛋白质序列进行注释。

📌 总结

EggNOG 是一个强大的基因功能预测与注释工具,通过精确的非监督学习方法构建直系同源群并自动进行基因功能注释,支持多物种的基因组数据分析。它不仅为基因注释提供了丰富的参考信息,而且能够帮助科研人员深入理解基因的进化过程和功能特性。

数据库 主要用途 适用范围 特点
EggNOG 基因功能注释与进化分析 细菌、古细菌、真核生物 非监督学习方法,精确的基因注释和系统发育分析

🔹 EggNOG 提供了一种高效的方式来注释跨物种的基因功能,并为基因的进化分析提供了强有力的支持
🔹 随着数据的不断更新,EggNOG 的覆盖范围和注释精度持续提升,是进行大规模基因组注释的理想选择


3. EggNOG-mapper(基因功能注释工具)

📌 工具简介

eggNOG-mapper 是由 EggNOG 团队开发的一个强大工具,专门用于进行大规模的 基因功能注释。它能够自动对 基因组数据 进行功能分类,识别基因的 直系同源关系,并生成相关的注释信息。eggNOG-mapper 利用 EggNOG 数据库的丰富资源,提供了高效、精准的基因注释功能,适用于从小型数据集到大型基因组的批量分析。

📌 功能特点

​ • 自动化基因功能注释:eggNOG-mapper 可以根据蛋白质序列对基因进行快速功能注释,支持多种基因注释类别,如 KEGGGOPfamCOG/KOG 等。

​ • 进化分析支持:它不仅能提供基因功能信息,还能通过构建 直系同源基因群(OGs)进行进化分析,帮助研究人员揭示基因在不同物种间的保守性和变异。

​ • 支持从原始序列到注释的全流程分析:eggNOG-mapper 适用于从原始的 contig(基因组组装序列)开始,进行从头的基因预测和注释,适合大规模数据集。

​ • 快速蛋白质结构域检测:eggNOG-mapper 内置了对蛋白质结构域的快速识别功能,支持通过 Pfam 和其他数据库识别蛋白质的功能模块。

​ • 自动生成 GFF 文件:eggNOG-mapper 生成的注释信息可以直接导出为 GFF 文件,方便后续的基因组注释和可视化分析。

📌 更新内容

2021 年,eggNOG-mapper 更新到了 v2 版本,此次更新包括了以下四大核心功能增强:

​ 1. 从头基因预测:eggNOG-mapper v2 增加了支持从 原始 contigs(未组装或低质量组装的基因组序列)开始进行基因预测的功能。这为高通量基因组数据的注释提供了更大的便利,尤其是对新物种或不完全组装数据的支持。

​ 2. 内置成对同源预测:此功能允许用户通过 eggNOG 数据库内置的成对同源预测算法,快速识别基因组中相似的基因对,优化基因家族和同源基因群的分析。

​ 3. 快速蛋白质结构域检测:eggNOG-mapper 具备了快速的蛋白质结构域检测功能,支持通过 Pfam 数据库或其他相关资源识别蛋白的结构域。这有助于进一步注释蛋白质的功能模块,辅助基因功能的深入研究。

​ 4. 自动生成 GFF 文件:v2 版本的 eggNOG-mapper 自动生成 GFF 文件,这是基因组注释标准格式之一,可以方便地与其他注释工具兼容,便于后续分析和数据整合。

📌 应用场景

基因组数据批量注释:eggNOG-mapper 可广泛应用于 高通量基因组数据的注释工作,支持从原始序列(如 raw contigs)开始进行基因功能预测和注释。

蛋白质功能预测与结构域分析:通过识别蛋白质结构域和功能模块,eggNOG-mapper 可帮助研究人员了解基因的功能特性及其在不同物种中的保守性。

进化关系分析:基于 直系同源基因群,eggNOG-mapper 支持跨物种基因的进化比较分析,有助于揭示基因在物种间的演化轨迹和变异。

大规模基因组注释:eggNOG-mapper 适合用于处理大规模的基因组数据,尤其在 基因组重测序元基因组学 研究中广泛使用。

3.1 运行网页版eggNOG-mapper

基因功能注释的质量在很大程度上取决于数据库的完整性和全面性。本地化进行基因功能注释往往需要收集大量数据库,不仅费时费力,而且对计算资源的要求较高,这在实际操作中并不容易实现。相比之下,使用在线工具可以有效解决这些问题——它们通常整合了最新、最全面的数据库,同时无需占用本地计算资源。

eggNOG-mapper 上进行基因功能注释非常简单,具体操作如下:

第一步:打开 eggNOG-mapper 主页http://eggnog-mapper.embl.de/

1

参考上图,操作过程其实非常简单,只需按照以下步骤进行:

  1. 选择输入模式:通常选择 蛋白序列 作为输入数据。

    Proteins:蛋白序列,上限是10万条序列

    CDS:CDS序列,上限也是10万条,会在搜索前倍翻译成蛋白序列

    Genomic:基因组序列,支持最多1000条DNA序列,1000万个核苷酸。直接上传基因组序列会多一步编码蛋白预测,可以选择使用Prodigal或者Blastx-like这两者之一。

    Metagenomic:Contig级别的基因组序列,本质上和上面是一样的,所以限制条件也相同。同样会进行编码蛋白预测。

    Seeds:eggNOG-mapper跑的seed orthologs,支持最多上传10万条,这个主要用于重新注释。

  2. 上传本地文件:选择包含蛋白序列的文件(该文件可基于基因组序列 .fa 和基因结构注释文件 .gff3/.gtf,利用 TBtools 提取)。

    我们前面拿到了蛋白序列,所以直接上传蛋白序列即可,注意一下上传的要求是.gz的压缩文件。所以稍微处理下:

    # 保留原文件,以gz格式压缩为另一个文件
    gzip -c hap1_rmTE.aa >hap1_rmTE.gz 
    gzip -c hap2_rmTE.aa >hap2_rmTE.gz 
    
  3. 提供邮箱地址:这一点非常重要,系统会通过邮箱发送任务启动确认信息,需进入邮箱进行确认。

    上传gz文件,留下邮箱,底下还可以设置比对的参数和注释的参数,都以默认参数运行即可。

  4. 点击 “Start” 按钮:开始任务提交。

    点击submit,网页会提醒你查看邮件。进入邮箱,点击第一个第一个选项Click to manage your job,再点击Start job即可开始运行。

    2

    点击 “Start job”即可上传任务运行:

    3

​ 等待任务完成就可以下载运行结果文件了。

3.2 eggNOG-mapper结果文件解读

在线运行还是非常快的~我这30000多个的蛋白序列,没一会儿就跑完了,不用下数据库不用配置环境就可以做分析,一个字,香!

4

可以点击下面的[Access your job files here]进行结果文件的下载,这个链接就是我们结果文件的存储位置,注意存储是暂时的,需要我们尽快下载到本地保存。

5

检查日志无报错即可。我们主要用的是其中的两个annotations文件,一个是方便你自己提取内容做富集分析(下一节做个简单的分析),第二个带.xlsx后缀方便你用excel编辑和打开。

这里主要讲一下结果文件的各项参数代表什么意思:

5

eggNOG-mapper 结果字段说明

字段名称 说明
query 蛋白序列名称
seed_ortholog 搜索阶段比对上的种子直系同源基因(seed ortholog)编号
evalue E-value,值越小结果越可靠
score 比对得分,值越大结果越可靠
eggNOG_OGs 预测的直系同源组(OGs)列表,按进化分支深度排序,格式为 OG@tax_id\|tax_name
max_annot_lvl 用于检索注释的最广泛的直系同源组,格式为 tax_id\|tax_name
COG_category 预测的 COG 功能分类(一个字母),查看 COG 介绍
Description 注释的基因功能描述(通常较简短)
Preferred_name 常用的基因名称缩写
GOs 关联的 Gene Ontology(GO)编号,一个基因可能对应多个 GO 号
EC KEGG 酶编号(EC),表示该基因相关的酶
KEGG_ko KEGG KO 编号,表示直系同源基因,关联特定功能
KEGG_Pathway KEGG 代谢通路信息,包括 ko 编号和 map 编号,map 代表 reference pathway,提供一般参考意义
KEGG_Module KEGG Module 数据库编号(以 M 开头),表示多个 KO 组成的功能单元
KEGG_Reaction KEGG Reaction 数据库编号(以 R 开头),描述代谢通路中的酶促反应
KEGG_rclass KEGG RCLASS 数据库编号(以 RC 开头),手动整理的反应数据集合
BRITE KEGG Brite 数据库编号,主要用于分类信息存储
CAZy 碳水化合物酶相关的 CAZy 数据库,访问 CAZy 官网
BiGG_Reaction BiGG 代谢网络模型数据库,访问 BiGG 官网
PFAMs PFAM 蛋白家族数据库(现并入 InterPro),访问 InterPro 官网

说明:此表整理了 eggNOG-mapper 结果中常见的字段及其含义,便于快速理解注释结果。

这么多数据咋一看很头疼,可以整理一下写个脚本,做GO和KEGG富集分析。