资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

如何进行Motif预测分析和解读？MEME和HOMER全解析

创作时间:

作者:

@小白创作中心

如何进行Motif预测分析和解读？MEME和HOMER全解析

引用

CSDN

https://m.blog.csdn.net/Igenebook/article/details/145679840

Motif预测分析是一种在生物信息学和计算生物学中广泛应用的技术，用于识别DNA、RNA或蛋白质序列中具有生物学功能的短保守序列模式。接下来让我们一起了解其分析的目的、在不同富集类实验中的区别与常用分析软件。

一、Motif预测分析的目的

解析基因调控机制：在DNA序列中，转录因子等调控蛋白通过结合特定的motif来启动或抑制基因转录。如通过motif预测分析找到与细胞周期调控相关基因的启动子区域的motif，可揭示细胞周期的调控机制。

推断生物功能：蛋白质序列中的motif往往与特定功能相关，如酶的活性中心、信号传导蛋白的结合位点等。通过motif预测分析可推断新发现蛋白质的功能。

研究分子进化：保守的motif在不同物种中可能具有相似功能。对比不同物种间的motif，可以了解基因家族的进化关系和功能演变。

二、Motif预测分析在ChIP-seq和RIP-seq中的差异

2.1 技术原理差异

ChIP-seq先通过甲醛交联将细胞内的蛋白质与DNA连接，用超声波将基因组DNA打断，再用特异性抗体进行免疫沉淀，得到与目标蛋白结合的DNA片段，测序后进行motif分析；RIP-seq实验使用蛋白的特异性抗体将RNA-蛋白质复合体沉淀，回收RNA片段，测序后进行motif分析。

图 1 ChIP-seq实验步骤

图 2 RIP-seq实验步骤

2.2 研究对象差异

ChIP-seq研究蛋白质与DNA的相互作用，其motif预测分析主要是寻找转录因子等蛋白质在DNA上的结合位点motif；RIP-seq研究RNA结合蛋白与RNA的相互作用，其motif预测分析是寻找RNA结合蛋白在RNA上的结合位点motif。

2.3 分析意义的区别

ChIP-seq的motif预测分析可用于研究基因转录调控、染色质状态和基因组结构等，帮助构建基因调控网络；RIP-seq的motif预测分析主要用于研究RNA加工、转运、翻译调控和RNA稳定性等，有助于了解RNA结合蛋白在基因表达后调控中的作用。

当然，除了ChIP-seq和RIP-seq，motif预测分析还可用于确定基因家族保守序列，推断基因进化关系和物种亲缘关系；预测蛋白质功能结构域，辅助蛋白质结构预测；构建基因调控网络，揭示信号转导网络中蛋白质相互作用模式等。

三、Motif预测分析常用软件

目前，motif主流的分析软件是MEME和HOMER(http://homer.ucsd.edu/homer/)。MEME主要基于多重期望最大化（EM）算法，通过迭代计算来寻找序列中最可能的motif模式。HOMER则是通过对基因组数据进行统计分析，结合已知的转录因子结合位点信息等，识别motif。

从结果展示方面，这两个软件也是有些区别的。

3.1 MEME分析motif

MEME网址：https://meme-suite.org/meme/

» 3.1.1 网页版分析步骤如下：

① 进入官网，点击MEME模块

② 分析模式选择（绿色框）：motif discovery mode一般选择经典模式，提供一组序列。后面两种模式需要提供两组序列，旨在相对于第二组（对照）在第一组（主要）中富集的基序。the sequence alphabet指如果你的序列不是标准字母表（DNA、RNA、或蛋白质），必须输入自定义字母表，一般不用管。

③ 提交序列（红框）：选择“Upload sequences”上传包含序列的FASTA文件，上传完文件后，MEME网站会自动检测是蛋白序列还是DNA序列；或选择“Type in sequences”直接将序列粘贴到文本框中。

④ 设置参数（黄色框）：Site Distribution根据对序列中motif分布的预期选择，如“zero or one per sequence”表示每个序列中motif出现0次或1次，为默认选项；“one per sequence”表示每个序列中恰好出现1次；“any number of repetitions”表示每个序列中可出现任意次。

⑤ Motif数量（蓝色框）：设置期望MEME发现的motif数量，决定在这一组多条序列中，将被挖掘出的结构域的种类数量。可先设置一个较大的值，再根据初步结果调整。默认值是3。

注：一般可先使用默认参数，如有特殊需求，再对其他参数进行调整。还可选择提供邮箱地址，以便接收结果通知。

⑥ 提交分析：点击“Start Search”按钮提交任务，开始motif分析。

» 3.1.2 结果解读

① 查看基本信息：MEME的结果页面提供多种格式的输出，如HTML、PDF等。首先查看motif的基本信息，包括motif的序列模式、E-value等，E-value越小，表明motif越具有统计学意义。

② 分析motif分布：查看motif在输入序列中的分布情况，了解motif在不同序列中的位置和出现频率，判断其分布是否具有生物学意义。

③ 与已知motif比较：可将发现的motif与已知的motif数据库（如TRANSFAC、JASPAR）进行比较，通过Tomtom工具等，确定是否与已知的motif相似，以推测其可能的生物学功能。

注：如果我们想要包含坐标轴和E-value，选择MEME软件分析更合适哦，motif序列也可以通过Adobe Illustrator等图片编辑软件拼接到peak峰图对应位置。

3.2 HOMER分析motif

» 3.2.1 分析步骤如下：

① 下载脚本安装HOMER、配置环境变量并下载基因组数据数据准备

② 准备目标序列文件：如果是基于ChIP-seq、ATAC-seq等高通量测序数据进行分析，需先进行peak calling，得到包含基因组位置信息的峰文件，如BED格式文件。文件中至少包含染色体、起始位置、结束位置等信息。

③ 确定背景序列：可选择默认的自动背景选择，也可自定义背景序列。若自定义，需准备包含背景序列基因组位置信息的文件。

④ 参数设置（参考）：
-len：设置要查找的motif长度，可指定多个长度，如-len 8,10,12表示查找长度为8bp、10bp和12bp的motif。
-size：指定分析区域的大小。-size 200表示每个峰的中心点前后各100bp，总共200bp的区域将被考虑进行分析；若要使用peak的实际大小进行分析，使用-size given。
-p：指定使用的CPU数量。
-mset：可指定使用的数据库，如-mset vertebrates表示使用脊椎动物数据库。

» 3.2.2 结果解读

① 查看HTML结果文件：在输出目录中，homerresults.html文件展示新基序发现的结果，knownresults.html展示已知基序的发现结果。

注：Known和homer是两种不同的motif预测算法，结果都是可信的。Known motif基于已有转录因子数据库的motif结果，比对本次的peak有没有在这些已有的研究motif上富集；homer result是指利用所有的peak从头（de novo）计算得到motif，然后会比对已有转录因子数据库的motif，看比对率最一致的是哪个（bestmatch）。两者不一定一致（因为motif序列是一组序列模式，相似的序列可能会被归为同一个motif）。

② 分析结果指标：
p-value：基于统计学的p值，用于表示基序在目标序列中出现的显著性。
q-value(benjamini)：p值经过benjamini-hochberg校正后的q值，用于多重假设检验控制假阳性率。
fold enrichment：富集倍数，表示基序在目标序列中出现的频率相对于背景序列的频率。

③ 查看motif序列和logo图：结果中会提供motif 的具体序列信息，还可能有logo图展示motif的序列特征，可直观了解motif中各碱基的分布和保守性。