|
中山大学生命科学学院张锐课题组开发表观转录组数据聚类框架iMVP并揭示两个新型mRNA m5C写入蛋白近年来,在转录组中发现的各种RNA编辑修饰促进了表观转录组学领域的迅速发展。这些RNA编辑修饰位点在调控RNA代谢的各个层面发挥着关键作用,并广泛涉及到多种生物过程,具备重要的功能。例如,m5C修饰在胚胎发育、肿瘤发展和病毒调控中扮演着重要角色,而m6A修饰和A-to-I编辑酶在多种癌症中异常调节,被认为是有潜力的癌症治疗靶点。
与此同时,单碱基分辨率的测序技术在飞速发展。针对不同的RNA编辑修饰,研究人员发明了若干基于化学方法的检测手段,比如:Bisulfite sequencing (5-甲基胞嘧啶修饰, m5C) ;CMC-seq, BID-seq(假尿嘧啶修饰,ψ);GLORI,eTAM-seq (6-甲基腺嘌呤修饰, m6A)。除了化学方法,使用纳米孔(Nanopore)直接进行RNA 编辑修饰测序的技术也方兴未艾。但是,这些检测手段往往伴随着假阳性信号,而往往没有很好的先验知识去评估信号的真实性。比如,在Bisulfite sequencing中,由于RNA二级结构会妨碍脱氨基反应的进行,Bisulfite sequencing中往往存在大量的位于高GC含量区域的假阳性信号;这些假阳性信号和真实的具有特定基序(motif)的m5C位点混合在一起而难以分辨。同时,针对不同的测序方法,除了使用统计学参数外,也很难直接对它们进行比较。因而,当前需要一个技术手段进行RNA编辑修饰序列特征的比较和分类。
传统的序列分析工具通常基于序列出现的频率进行统计,从而获得高频出现的序列特征(即motif)。这些分析工具(如MEME,HOMER)为发现转录因子结合位点(TFBS)而设计——对于RNA修饰的motif发现并没有进行优化。与TFBS的motif发现的情境不同,RNA修饰位点的序列是高度对齐的,且motif的长度往往很短。实际上,RNA编辑修饰motif的发现与单细胞测序中的可视化流程十分相似:RNA编辑修饰motif可以通过One Hot encoding转化成高维向量,而这些高维向量可以通过Manifold法进行分解,(如UMAP,t-SNE)投影在二维平面上——与motif这一概念一致,如存在反复出现的相似的序列,它们将在二维投影的某个区域形成富集(高密度区域)。若能使用某种手段对投影进行聚类,并提取这些富集区域,就能够以可视化的形式对给定序列进行分类以及motif的发掘。基于以上原理,我院张锐课题组开发了一个基于非线性降维技术和密度聚类,称为交互式RNA修饰motif可视化和亚型分类(iMVP,interactive epitranscriptomic Motif Visualization and Subtype Partition)的计算框架。该开源框架iMVP(https://github.com/SYSU-zhanglab/iMVP)能够用于RNA修饰motif的去噪、亚型分类和可视化。与传统方法相比,它在各种高通量数据、人工模拟高噪声数据、超大数据集上都有出色表现。
图1 iMVP框架
研究团队运用iMVP工具对不同物种和发育时期的mRNA m5C图谱进行了全面分析。他们不仅确认了已知的m5C motif,更意外地发现了两种与酵母25S rRNA C2278和C2870 m5C位点相似的motif。这两个位点在酵母中分别由Rcm1(NSUN5)和Nop2酶甲基化,因此作者合理地推测这两种酶可能是m5C修饰的新writer。通过在HeLa 细胞中进行敲低实验,作者成功验证了这一假设,确定了NSUN5与Nop2是mRNA m5C修饰的两个新writer。这一新发现,凸显了 iMVP作为一种有效的工具,用于发现新的RNA修饰模式和识别新的修饰酶。这将有助于更深入地理解RNA修饰的复杂性和功能。
目前已经开发了多种生化方法,可以在单碱基分辨率绘制m6A/m6Am修饰在转录组中的分布。然而,不同方法之间的位点识别存在差异,因此需要对这些方法进行系统评估和比较。iMVP的出现填补了这一知识空白。研究团队汇总了来自CIMS,CITS,m6ACE-seq, m6A-label-seq, MAZTER-seq, m6A-REF-seq,xPore和DART-seq,总共8种不同m6A/m6Am测序方法的数据,发现尽管这些方法都使用相同的细胞类型,但只有少数m6A和m6Am位点在不同方法之间重叠。这表明每种方法可能只捕获了甲基化位点的部分子集。除外,该研究还评估了非抗体方法在m6A/m6Am测序中的可靠性。结果表明,m6A-label-seq和MAZTER-seq是目前最可靠的方法,为研究人员选择合适的非抗体方法提供了重要的参考。
Nanopore测序数据存在修饰信号相位错配的问题,限制了其在RNA编辑修饰位点的准确识别。为应对这一挑战,研究团队提出了相位匹配策略,成功解决了这一问题,使iMVP工具能够更精确地识别RNA修饰位点。此外,研究人员还分析了ModTect数据集,其中包含了从RNA-seq数据中推测的大量RNA修饰位点。鉴于这些位点的复杂性和噪声,需要一种可靠的筛选方法来鉴定真正的RNA修饰候选位点。为此,作者引入了"spiked iMVP"策略,通过将已知修饰信号的k-mers加入变异数据中,标记已知RNA修饰的模体偏好,并成功识别了高置信度的m1A、m1acp3Ψ和m22G位点。这些策略成功的扩展了iMVP工具的应用范围。
传统的motifs 搜索工具通常仅适用于小规模数据集,而iMVP通过引入UMAP和HDBSCAN技术,并且通过使用GPU加速,成功应对了处理极大RNA修饰位点数据集的挑战。研究团队使用iMVP工具进行了对包含1500万个A-to-I RNA编辑位点进行分析。他们观察到不同类型的A-to- I RNA编辑位点在Alu、非Alu重复和非重复区域中呈现出截然不同的模式。进一步应用iMVP工具,他们获得了高分辨率的数据结果,成功识别出各类编辑位点的簇群。
图2 A-to- I RNA编辑位点在Alu、非Alu重复和非重复区域中呈现出截然不同的模体模式
总之,iMVP的开发为RNA编辑修饰研究带来了新的可能性,为科研人员提供了一个更全面、更有效的工具,有望有助于更深入地理解RNA编辑修饰的复杂性和功能。
该成果于近期以“Epitranscriptomic subtyping, visualization, and denoising by global motif visualization”为题发表在Nature Communications。中山大学生命科学学院张锐教授,博士生刘健恒(现为康奈尔大学博士后)为本文的共同通讯作者,刘健恒、黄涛、姚静为本文的并列第一作者,赵天璇、张钰森也对本工作做出重要贡献。中山大学生命科学学院为第一作者单位。
文章链接: https://www.nature.com/articles/s41467-023-41653-4 |