问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

生信技能48 - 如何获取基因的SNP及RefSeq参考序列命名规则

创作时间:
作者:
@小白创作中心

生信技能48 - 如何获取基因的SNP及RefSeq参考序列命名规则

引用
CSDN
1.
https://blog.csdn.net/LittleComputerRobot/article/details/139652140

SNP概念

SNP(单核苷酸多态性)是指基因组水平上由单个核苷酸的变异所引起的DNA序列多态性,在群体中的发生频率不小于1%。这种变异包括单个碱基的转换、颠换、插入和缺失等。每核苷酸发生突变的概率大约为10^-9,由于压力选择,SNP在单个基因和基因组以及动物不同种群间分布是不均匀的,在非编码区的SNP数量要多于编码区。

转换

转换是指同类型碱基之间的转换,如嘌呤与嘌呤(G→A)、嘧啶与嘧啶(T→C)间的替换。

颠换

颠换是指发生在嘌呤与嘧啶(A→T、A→C、C→G、G→T)之间的替换。

通过排列组合,SNP一共可以有6种替换情况,即A→G、A→T、A→C、C→G、C→T和G→T,但实际上转换的发生频率占较高,而且以C→T(胞嘧啶转换为胸腺嘧啶)转换为主。其原因是CpG的C是甲基化的,容易自发脱氨基形成胸腺嘧啶T,因此CpG岛的SNP频率要高于基因组的平均频率。

RefSeq参考序列命名规则

RefSeq(Reference Sequence)是由NCBI维护的高质量核酸和蛋白质序列数据库,其命名规则对于理解基因组数据至关重要。RefSeq的命名格式通常包含以下部分:

  • 前缀:表示序列类型,如NM_(mRNA)、NP_(蛋白质)、NR_(非编码RNA)等。
  • 版本号:表示序列的版本,如NM_001199547.1中的".1"表示这是第一个版本。
  • 基因标识符:通常与基因名称相关联,如NM_001199547.1中的"001199547"。
  • 版本信息:有时会包含版本信息,如NM_001199547.1中的".1"。

例如,NM_001199547.1表示的是一个mRNA序列,其版本为1。这种命名规则有助于研究人员快速识别和检索特定的序列信息。

SNP的数据库和工具

在生物信息学研究中,SNP的数据管理和分析通常依赖于专业的数据库和工具。其中,dbSNP(The Database of Single Nucleotide Polymorphisms)是NCBI维护的SNP数据库,包含了来自各种物种的SNP数据。而UCSC Genome Browser(University of California, Santa Cruz Genome Browser)则是一个强大的基因组浏览器工具,可以用来可视化和分析基因组数据,包括SNP信息。

这些工具和数据库的使用对于生物信息学领域的研究人员来说至关重要,它们不仅提供了丰富的数据资源,还提供了强大的分析功能,帮助研究人员更好地理解基因组变异及其生物学意义。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号