生物医学文献文本挖掘工具与模型综述
生物医学文献文本挖掘工具与模型综述
生物医学文献文本挖掘是生物信息学领域的重要研究方向,通过自动化的文本分析技术,可以高效地从海量文献中提取有价值的信息。本文将介绍10篇在该领域具有重要影响力的文献,涵盖文本挖掘工具、模型及其应用,帮助读者快速了解生物医学文献文本挖掘领域的研究进展。
tmVar:基于条件随机场的变异信息提取工具
tmVar(Text Mining Variants)是一个用于从生物医学文献中提取序列变异信息的文本挖掘工具。该工具基于条件随机场(Conditional Random Field, CRF)模型构建,旨在应对后基因组时代对复杂疾病序列变异分析和解释的需求,以及协助创建与疾病相关的突变数据库。
tmVar 3.0:改进的变异概念识别与标准化工具
tmVar 3.0是tmVar的第三代改进版本,能够识别更广泛的变体相关实体(例如等位基因和拷贝数变体),并将属于同一基因组序列位置的不同变体组合在一起,以提高准确性。此外,还提供了先进的变异标准化选项。
PubTator:生物医学文献注释的Web工具
PubTator是一个基于Web的文本挖掘工具,主要用于协助生物医学文献的注释工作。该工具可以自动识别和标注生物医学文献中的各种生物概念,如基因、疾病、药物等,从而帮助研究人员快速获取文献中的关键信息。
PubTator Central:生物医学全文文章的生物概念注释服务
PubTator Central (PTC) 是一个用于查看和检索生物医学全文文章中生物概念注释的网络服务。该系统对PubMed摘要和PMC-TM全文文章进行生物概念标注,并通过冲突处理模块解决注释冲突,最终将结果存储在数据库中。
DNorm:基于成对学习排序的疾病名称标准化工具
DNorm是首个用于生物医学文本中疾病名称标准化的机器学习方法。该方法使用NCBI疾病语料库和MEDIC词汇表,结合了MeSH®和OMIM两个数据库。DNorm基于成对学习排序(pairwise learning to rank, pLTR)技术,用于解决大型优化问题。
NCBI疾病语料库:疾病名称识别与概念标准化资源
NCBI疾病语料库是一个由793篇PubMed摘要组成的集合,这些摘要在提及和概念层面上都经过了完全标注,作为生物医学自然语言处理社区的研究资源。
GNormPlus:基因提及与标识符检测系统
GNormPlus是一个端到端的开源系统,用于检测生物医学文本中的基因提及和标识符。研究团队创建了一个新的包含694篇PubMed文章的语料库,手动注释了基因名称及其标识符,以及对基因名称消歧有用的相关概念,如基因家族和蛋白质域。GNormPlus 集成了多种先进的文本挖掘技术,以提高性能。
文本挖掘疾病-基因变异关系
该研究提出了一种高性能的机器学习方法,用于自动化地从生物医学文献中提取疾病-基因变异三元组(triplets)。主要贡献包括开发了一个新颖的框架,用于从文本中提取完整的疾病-基因-变异三元组信息;提出了一种基于全局上下文的文本挖掘方法来挖掘基因关联;在十种常见疾病上测试了方法的有效性;开发了一个包含430个疾病-基因-变异三元组及其对应PMID的新人工注释语料库。
AIONER:基于深度学习的生物医学命名实体识别方案
AIONER是一个基于深度学习的生物医学命名实体识别工具,采用了一种全方案(all-in-one)的方法,能够识别多种类型的生物医学实体,如基因、疾病、药物等。该工具在多个公开数据集上进行了测试,取得了较好的性能。