好文档 - 专业文书写作范文服务资料分享网站

蛹虫草菌基因组生物信息学分析

天下 分享 时间: 加入收藏 我要投稿 点赞

Advances in Microbiology 微生物前沿, 2024, 9(2), 51-59

Published Online June 2024 in Hans. http://www.hanspub.org/journal/amb https://doi.org/10.12677/amb.2024.92009

Genomic Bioinformatics Analysis of Cordyceps militaris

Jing Li1, Junjie Luo1, Xiangna Fang1, Ying Zhang1, Qiong Wu1, Yiting Chen1, Bin He1,2, Xinping Liu1,2*

12

School of Life Science, Jiangxi Science & Technology Normal University, Nanchang Jiangxi Jiangxi Key Laboratory of Bioprocess, Nanchang Jiangxi

th

th

th

Received: May 25, 2024; accepted: Jun. 17, 2024; published: Jun. 24, 2024

Abstract

Cordyceps militaris is divided into sexual and asexual growth stages. Because it belongs to asco-mycete, its genetic characteristics are relatively unstable and easily degenerated. Genomics has laid a foundation for solving the functional genes of various bioactive substances in Cordyceps mi-litaris and their industrialization. In this paper, the bioinformatics analysis of Cordyceps militaris genome was summarized from sequencing process, genome evaluation, genome assembly and prediction, gene annotation, structural genome query, metabolic system analysis, comparative genome analysis and other aspects, and the industrial prospect was also prospected.

Keywords

Cordyceps militaris, Genomics, Bioinformatics, Industrial Prospect

蛹虫草菌基因组生物信息学分析

李 敬1,罗俊杰1,方祥娜1,张 莹1,吴 琼1,陈依婷1,贺 斌1,2,刘新平1,2*

12

江西科技师范大学生命科学学院,江西 南昌 江西省生物加工过程重点实验室,江西 南昌

收稿日期:2024年5月25日;录用日期:2024年6月17日;发布日期:2024年6月24日

摘 要

蛹虫草菌分有性和无性两个生育阶段,因其属子囊菌,遗传性状相对不稳定,极易退化。基因组学为解

*

通讯作者。

文章引用: 李敬, 罗俊杰, 方祥娜, 张莹, 吴琼, 陈依婷, 贺斌, 刘新平. 蛹虫草菌基因组生物信息学分析[J]. 微生物前沿, 2024, 9(2): 51-59. DOI: 10.12677/amb.2024.92009

李敬 等

决蛹虫草各种生物活性物质的功能基因和其产业化奠定了基础。本文从测序流程、基因组评估、基因组组装与预测、基因注释、结构基因组查询、代谢系统分析、比较基因组分析等方面,对蛹虫草菌基因组生物信息学分析进行了总结,并对产业前景进行了展望。

关键词

蛹虫草菌,基因组学,生物信息学,产业前景

Copyright ? 2024 by author(s) and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY 4.0). http://creativecommons.org/licenses/by/4.0/

Open Access 1. 引言

蛹虫草又名北冬虫夏草、北虫草,与冬虫夏草同属异种,是虫草属的模式种[1],经成分测定分析,在药化、药理和临床实验方面被证明完全可以作为冬虫夏草的代用品[2]。蛹虫草中主要活性成分如虫草素、虫草酸及虫草多糖等,具有药用价值和保健功能。近年来,蛹虫草开始受到关注,并作为非处方药使用。2005年4月,蛹虫草被正式收录于《中华人民共和国药典》,2009年3月被正式批准为新资源食品[3],2014年10月改称为新食品原料[4]。蛹虫草是目前公认的食药用虫草之一,在我国已经形成了一个巨大的产业,年产值可达100亿元人民币[5]。蛹虫草菌分有性(异宗配合) [2]和无性(蛹草拟青霉) [6]两个生育阶段。人工蛹虫草多采用无性繁殖,蛹虫草菌有若干菌株,不同菌株生产的虫草,质量高下差别大[7]。从事蛹虫草人工栽培研究工作的科研单位及生产基地,都在不断探索和研究在大规模生产栽培中提高产量和活性成分含量的有效途径。基因组学为解决蛹虫草各种生物活性物质的功能基因和其产业化奠定了基础,随着基因组学的深入研究和当今生物信息学的飞速发展,蛹虫草神秘的面纱将一步步被揭开[8]。

测序技术飞速发展极大地促进了基因组结构和功能元件的研究,分子生物学方法和技术在解决物种的亲缘关系、起源与进化、遗传与变异等问题中起了重要作用[9],2011年,蛹虫草基因组得以破译[5],组装后基因组大小为32.2 Mb,GC含量为51.4%,含7条染色体,大小在2.0~5.7 Mb之间;基因组中共含有9684个蛋白编码基因,超过63%的编码基因在菌丝体和子实体发育阶段表达,大约16%的编码基因(1547个)参与菌物–昆虫的相互作用,不存在编码对人类有害的已知真菌毒素的基因[9],蛋白质编码基因中13.7%为种特异性的基因。然而,这些基于DNA序列的基因组数据并不能反映基因组上编码区和非编码区的转录水平和转录调控机制[8]。因此,从RNA水平研究真核生物在特定生长时期和培养条件下全基因组转录情况的转录组学为这一问题提供了解决方案[10]。它通过研究特定环境条件下基因编码RNA (mRNA)和非编码RNA的表达水平及其调控规律,进一步推动了基因功能和ncRNA调控机制的研究[11]。

2. 测序流程及生物信息学分析策略

不同微生物基因组GC含量差别很大,这种差别对基因及相应蛋白质的组分具有较大影响。另一方面,特定蛋白质为了保持其结构和功能,对蛋白质编码序列在单核甘酸、密码子、氨基酸和具有相同理化性质的氨基酸等不同层次上具有限制作用[12]。分析基因组GC含量对蛋白质组分的影响对理解自然选择与碱基突变的关系以及微生物进化具有重要意义。

DOI: 10.12677/amb.2024.92009

52

微生物前沿

李敬 等

2.1. 测序策略

Solexa高通量测序技术是以单分子阵列技术为基础,是对合成测序技术的发展与延伸。Solexa是一种基于边合成边测序技术(Sequencing-by-Synthesis, SBS)的新型测序技术。通过单分子阵列实现在小型芯片(Flow Cell)上进行桥式PCR反应。通过可逆阻断技术实现每次只合成一个碱基,再利用相应的激光激发荧光集团,捕获激发光,从而读取碱基信息[13]。Illumina HiSeq测序,提供不低于基因组100×的Illumina测序数据量,组装获得扫描图序列,并进行后续分析[14]。

2.2. 生物信息学分析策略

测序完成后对序列进行数据统计分析及生物信息学分析[15],测序工作得到数据仅仅是第一步,进一步的分析和挖掘这些信息中所蕴含的生物学意义才是最终的目的。比较基因组学就是通过比较序列间碱基或氨基酸的差异,获取有关进化的深层次的信息,进而构建进化树研究它们之间的同源性[16]。近年来,较多的模式生物基因组测序任务的完成,为从整个基因组的角度研究分子进化提供了有力的条件,分析策略见图1。

Figure 1. The bioinformatics analysis strategy of genome 图1. 基因组生物信息学分析策略

3. 生物信息学分析解析

3.1. 基因组评估

对初步组装得到的基因组序列进行质量评估,目的如下:① 判断基因组是否存在污染。一些杂菌的污染在进行测序前质检时可能无法检测出来,比如一些亲缘关系较近的杂菌的污染,或占比较低的轻度污染等,会对基因组的精确组装和后续分析造成干扰,因此需进行评估,以保证结果的准确性。② 评估测序质量③ 评估基因组情况。

通过GC_depth分布图可以看出测序是否有明显的GC偏向,也可以判断是否存在污染等情况。一般

DOI: 10.12677/amb.2024.92009

53

微生物前沿

李敬 等

情况下,相对于中等GC含量区域来说,高GC含量区域或者低GC含量区域的测序深度都比较低。通过GC_depth分布图可以看出测序是否有明显的GC偏向,也可以判断是否存在污染等情况[17]。一般情况下,相对于中等GC含量区域来说,高GC含量区域或者低GC含量区域的测序深度都比较低;利用PE测序reads,选取中间高质量测序区域,逐碱基取某一长度为K-mer进行基因组大小评估。以统计各17-mer深度和各个深度的频数所占比例为例,计算作图获得深度–频率分布图[18]。该分析可对真核类基因组进行杂合度、基因组大小评估。

3.2. 基因组组装与预测

利用质控后的符合要求的clean data进行从头组装得到基因组序(scaffold),对组装序列进行基因预测[19],得到每个样本的基因信息。 3.2.1. 基因组组装

利用短序列组装软件对优化序列进行多个K-mer参数的拼接,得到最优的组装结果,相关结果参数见表1。

Table 1. Results parameters for genome assembly 表1. 基因组组装的结果参数

类型Category No. of all scaffolds Bases in all scaffolds

No. of large scaffbrds (>1000 bp) Bases in large scaffolds Largest length Scaffold N50 Scaffold N90 G + C content N rate

Bases in all contigs

No. of large contigs (>1000 bp) Bases in large contigs Largest length Contig N50 Contig N90

属性Property

组装后得到的基因组片段,完成图组装结果为全基因组,所以数目为1,扫描图组装到 scaffold水平,此数目即为scaffold数目

组装用列的总长,完成图即为基因组大小,扫描图为所有scaffold全长 长度 > 1000 bp的scaffold的数目 长度 > 1000 bp的所有scaffold的全长 最长的scaffold的长度 见注释 见注释

组装序列中的GC含量

组装序列中未知碱基的占比,reads组装到contig,contig再连接形成scaffold,contig和 contig在连接中可能存在未知碱基 所有contig的全长

长度 > 1000 bp的contig的数目 长度 > 1000 bp的所有contig的全长 最长的contig的长度 见注释 见注释

注释:N50、N90长度的概念:将各个序列按长度大小排序,从大至小逐一扫描各个序列的长度值,进行累加,当该累加值第一次超过所有序列总长的50%时,此时扫描到的序列,其长度值即为N50值,N90值亦同理。N50、N90长度值比平均长度更能准确表示拼接序列的好坏。Contig:重叠群,拼接软件基于reads之间的overlap区而拼在一起的序列,中间没有Gap。Scaffold:框架序列,基于paired-end文库的序列信息,确定contigs之间的顺序关系,将contigs按顺序排列在一起形成的更长序列,即为scaffold,中间可能有Gap。

3.2.2. 编码基因预测

利用maker2软件进行真菌的基因预测,对基因组中的编码序列(CDS)进行预测结果参数见表2,获

DOI: 10.12677/amb.2024.92009

54

微生物前沿

李敬 等

得功能基因的核酸序列和氨基酸序列[20] [21],用于后续功能和系统进化分析。 3.2.3. 基因注释

对预测得到的编码基因进行基础的功能注释,通过与5大数据库(NR库,swiss-prot库,Pfam库,COG数据库,GO数据库)进行比对进行功能注释[22]。基因注释主要是基于蛋白序列比对。将基因序列与各个数据库进行比对,得到对应的功能注释信息。

Table 2. Result parameters of coding gene prediction 表2. 编码基因预测的结果参数

种类Category Gene num Gene total length (bp) Gene average length (bp)

Gene density

GC content in gene region (%)

Gene/Geonme (%) Intergenetic region length (bp) GC content in intergenetic region (%) Intergenetic length/Genome (%)

属性Property 预测基因的数目 所有预测基因的总长(bp) 每个基因的平均长度(bp) 整个基因组上基因的密度 基因编码区的GC含量 所有基因的全长/基因组全长 基因组上基因间区的长度 基因间区的GC含量 基因间区在基因组上的占比

(1) NR/Swiss-prot数据库注释分析:NR数据库是NCBI推出的整合型蛋白数据库,所包含的蛋白序列信息相对丰富。而Swiss-prot数据库是Uniprot Knowledge-Base推出的高质量数据库[23],虽然其所含序列信息少于NR数据库,但其包含的是经过人工认证过的序列,可信度比较高。根据实验样本特性和分析目的,可以灵活选用数据库来达到更好的分析效果。

(2) COG功能分析:COG是Clusters of Orthologous Groups of Proteins的缩写。进行COG数据库比对可以对预测蛋白进行功能注释、归类以及蛋白进化分析。

(3) KEGG功能分析:在生物体内,基因产物并不是孤立存在而各自发挥作用的,不同基因产物之间通过有序的相互协调来一起行使具体的生物学功能。因此,KEGG数据库中丰富的通路信息将有助于我们从系统水平去了解基因的生物学功能[24],例如代谢途径、遗传信息传递以及细胞学过程等一些复杂的生物过程。

3.2.4. 结构基因组查询

基因结构查询从基因组整体层面进行分析,包括启动子预测,基因组图谱绘制,通过结构分析可以更全面的掌握该样本基因组情况。

(1) 启动子预测:启动子是调控基因表达的调控元件,决定了基因表达的强度和时机,通过启动子的插入或缺失,可以改变基因的表达模式,实现对菌体生长发育以及代谢的调控研究[25]。启动子预测结果以基因为单位,展示相应基因的启动子序列,包括启动子的位置、长度、序列信息等,此外可以通过筛选功能直接获得某个基因或基因组某个区域内的启动子信息,结果参数见表3。

(2) 基因组图谱:真菌组装结果是scaffolds水平,通过线性图展示每条scaffold上编码基因组的排列情况,标注每个基因的编码方向,用颜色代表每个基因的COG功能分类。通过筛选功能可以搜索某个基因名称,展示相应scaffold的图谱,从而查看目的基因上下游的基因,对相关的研究分析具有重要意义。

DOI: 10.12677/amb.2024.92009

55

微生物前沿

蛹虫草菌基因组生物信息学分析

AdvancesinMicrobiology微生物前沿,2024,9(2),51-59PublishedOnlineJune2024inHans.http://www.hanspub.org/journal/ambhttps://doi.org/10.12677/amb.2024.92009GenomicBio
推荐度:
点击下载文档文档为doc格式
8pz1b4hngc4ddq3430jm4g4gh0kze500yg0
领取福利

微信扫码领取福利

微信扫码分享