当前,大多数生物的바카라 홀짝 게임组测序和高质量组装已较易实现,但바카라 홀짝 게임组注释中核心步骤之一,바카라 홀짝 게임结构注释(gene structure annotation, GSA),仍存在着明显不完善。准确的GSA对바카라 홀짝 게임组学和遗传学研究至关重要,而低质量的GSA会极大地阻碍下游研究,导致生物信息学分析和功能바카라 홀짝 게임组学研究出现错误。尽管使用Apollo和IGV-GSAman等工具手动校正GSA是改善바카라 홀짝 게임结构注释的有效方法,但该方式依赖于全面的转录组或蛋白质组数据,耗时耗力。现在仍缺少可对现存바카라 홀짝 게임组GSA进行矫正优化的自动化流程或工具。
2024年8月13日,亚热带农业资源保护与利用国家重点实验室、华南农业大学夏瑞团队在Genome Biology(IF:10.1)上在线发表了题为“SynGAP: a synteny-based toolkit for gene structure annotation polishing”的研究论文。该研究开发了一种基于바카라 홀짝 게임共线性进行物种바카라 홀짝 게임组바카라 홀짝 게임结构注释矫正的工具SynGAP(Synteny-based Gene structure Annotation Polisher)。该工具基于近缘物种바카라 홀짝 게임共线性,去鉴定并矫正原始바카라 홀짝 게임结构注释中的潜在错漏,实现바카라 홀짝 게임结构注释的优化。
演化过程中,在具有共同祖先的近缘物种之间,染色体上同源바카라 홀짝 게임存在保守排列的现象,被称为바카라 홀짝 게임共线性(gene synteny)。近缘物种的바카라 홀짝 게임共线性区块中,部分바카라 홀짝 게임丢失了与其对应的共线性바카라 홀짝 게임,进而在区块内形成共线性对的间隔(gap,图1a)。共线性바카라 홀짝 게임的缺失,可能由바카라 홀짝 게임组序列的变化引起的,同时还有可能是错误注释或缺失的바카라 홀짝 게임模型(mis-annotated or absent gene models,MAGs)导致的(图1a)。基于后一种可能性,作者们通过两物种的共线性分析,检测出共线性区块中共线性对的空缺位置(gap区域)。随后进行双向的同源比对以实现对gap内潜在注释错漏的初步鉴定与矫正。再通过去冗余、可靠性指标(R value)计算筛选、参考注释质量分级等步骤对初步矫正结果进行质控,最终获得两物种的高质量矫正注释,并且实现对gap的填补。通过多个植物、动物物种组合的测试与统计,明确SynGAP dual可以对被测试바카라 홀짝 게임组GSA进行优化——增加优质新바카라 홀짝 게임注释以及共线性바카라 홀짝 게임对,同时提高了BUSCO完整度。
图1 SynGAP바카라 홀짝 게임结构注释矫正的设计逻辑与流程
除了바카라 홀짝 게임结构注释矫正功能模块外,SynGAP还包含了一套바카라 홀짝 게임物种比较转录组分析流程(包含genepair和evi模块,图2a)。通过该流程可实现近缘物种间的准确바카라 홀짝 게임配对,并结合转录组数据完成跨物种时序性转录组分析,高效地筛选鉴定候选关键差异表达바카라 홀짝 게임。其中设计了EVI这一바카라 홀짝 게임差异表达指标,可同时体现物种间对应바카라 홀짝 게임的表达水平差异、表达量倍数差异以及表达模式变化差异(图2b)。바카라 홀짝 게임对的EVI值越高,两个同源바카라 홀짝 게임的差异表达就越显著。经测试,EVI可以作为鉴定控制特定性状或发育过程(如花色素苷合成、辣椒素合成、内果皮木质化和大脑体积增大)的候选关键바카라 홀짝 게임的有效指标(图3)。
本论文以华南农业大学为第一完成单位,华南农业大学园艺学院夏瑞教授、陈程杰博士(现中国热带农业科学院品资所)为共同通讯作者。博士研究生吴锋琦为该论文第一作者。博士研究生麦迎晓参与了该论文的软件功能设计。该研究得到“十四五”广东省农业科技创新十大主攻方向“揭榜挂帅”项目、国家自然科学基金、广东省重点研发项目等资助。