第二十届全国少数民族语言文字信息处理学术研讨会在广西民族大学成功举办
第二十届全国少数民族语言文字信息处理学术研讨会在广西民族大学成功举办
第二十届全国少数民族语言文字信息处理学术研讨会于2025年2月21-24日在广西民族大学成功举办。本次会议以"聚焦民族语文处理,赋能数字化文化传承"为主题,吸引了来自全国各地的专家学者,展示了多项突破性成果,如藏汉神经机器翻译系统准确率突破92%等。会议还设置了多个分论坛,探讨了理论建构和技术实践等议题。此外,会议还达成了多项合作意向,并宣布了下一届会议的承办单位。
中国工程院院士、西藏大学尼玛扎西教授分享藏语语言智能与多任务大模型等多项突破性成果
广西民族大学副校长高兴宇教授主持开幕式
产学研协同 构建语言智能生态圈
本次会议由中国中文信息学会民族语言文字信息专业委员会主办,广西民族大学携手国家语言资源监测与研究民族语言中心等单位联合承办,中国通服、中国知网、广西民族语文研究中心三家单位协办。
广西民族大学党委书记卞成林教授致辞
开幕式上,广西民族大学党委书记卞成林教授对各位专家的到来表示欢迎和感谢,并介绍了该校少数民族语言文字信息处理领域的学科建设进展与研究成果,已建成语言博物馆、国家语言资源监测与研究民族语言中心广西民族语文大数据基地、语言计算与智能广西高校工程研究中心三大科研平台,为民族语言文化的保护与传承提供了坚实的技术支撑,并在智能翻译、语音识别合成等领域已建成东盟语言资源库等标志性成果,卞成林强调:"我校将持续深化跨语言智能技术的产学研转化,为民族语言文化保护提供全链条技术支撑。"
中国中文信息学会副理事长那顺乌日图教授致辞
中国中文信息学会副理事长那顺乌日图教授在发言中系统回顾了民族语言信息处理40年的发展历程。从1984年内蒙古大学首套蒙文DOS系统,到如今藏语大语言模型的研发,"我们正从单点技术突破转向系统生态构建,标准化建设将成为行业发展的关键转折点。"他表示,当前面临低资源语言技术攻关与产业化应用双重挑战,需加强跨学科协同创新。
前沿成果发布 破解"巴别塔"难题
随着低资源自然语言信息处理技术的发展,采用无监督、多任务、小样本或零样本学习技术等开展民族语言文字信息处理研究已成为新的关注点。为此,本次大会特别设置了特邀报告环节。值得关注的是,西藏大学尼玛扎西院士团队开发的藏汉神经机器翻译系统实现准确率突破92%。北京大学穗志方教授针对“知识驱动的大模型复杂推理能力评测研究”,通过知识驱动与数据合成相结合的方式,对大模型的复杂推理能力进行了细粒度评测。电子科技大学程建教授介绍了“复杂动态自然场景中文字检测和识别技术的研究进展”,并展示了其在实际应用中的成果,据了解动态场景文字识别技术已在智慧文旅中成功落地。中央民族大学赵小兵教授分析了当前人工智能和大模型在“少数民族语言处理中的机遇和挑战”,提出基于小样本学习的低资源语言处理新范式。中科院自动化所赵军研究员分享的基于“大模型知识机制分析:知识局部化/查询局部化?”研究进展,重新评估了面向知识定位的知识易解化假设,并提出了更精准的知识神经元定位方法,其创新的大模型知识定位方法为语言认知计算开辟新路径。
智能技术驱动文化传承创新
"AI+民族语言"作为本届大会创新点,中国通服广西技术服务公司杨金峰副总经理围绕"AI+行业融合创新探索与应用“分享了通信行业智能化改造经验,中国知网关景火博士则展示了"华知大模型"在民族语言处理中的创新应用,据了解知网以文献资源服务平台为依托大力发展人工智能产业,训练了面向科研和知识服务领域的内容权威可信、全栈自主可控的华知大模型,并将华知能力体系嵌入文献查阅、科研创新、知识服务、教学科研等领域场景,开发了一系列大模型智能体应用。
在全球化和智能化的背景下,少数民族语言信息处理在促进多文化交流和保护少数民族文化遗产中显得尤为重要,为推动多语种智能信息处理的产学研一体化发展、AI+多语种智能信息化处理相融合,逐步积累大规模、跨语言、多模态的语言资源工作对于开展语言研究进而突破同语系、跨语言互通意义深远。
三大分论坛构筑数字文化根基
会议围绕“理论建构”与“技术实践”双规并行开设三大平行分论坛,聚焦"民族语言资源库建设与数字人文应用"、"低资源语言智能处理关键技术"、"跨语言信息服务平台构建"三大方向。与会专家认为,随着大模型技术的演进,需重点解决少数民族语言数据标注、多模态语料构建及知识图谱融合等基础性问题,并现场展示了语音识别误差率优化、跨境少数民族语料库动态更新机制等多项前沿成果。
在大模型技术快速迭代背景下,基于深度学习的低资源语言信息处理技术创新和突破,离不开多方协同攻关,构建少数民族语言信息处理学术领域的交互平台,整合少数民族语言资源建设及信息处理的统一标准、统一平台、资源共享机制,提高少数民族语言文字信息处理水平,加速智能语音交互、多语言翻译等技术的产业化应用。
科研与产业深度融合服务社会
会议期间,在尼玛扎西院士的指导下,广西民族大学语言计算与智能团队,内蒙古大学、麒麟软件的参会代表就操作系统国际化、本地化、边境地区民族语言包建设、多语种智能输入法等工程化应用举行了深入交流,并达成合作意向。广西民族大学语言计算与智能团队与中国通服广西公司也就在研广西科技厅支持重点项目 “民族低资源多语种语音大模型建设及应用示范”的进一步研究与发展同与会专家进行了广泛交流。参会单位广西科学院、广西民族语文研究中心、内蒙古大学、内蒙古师范大学、达译科技等单位也分别组织多场专题菁英论坛。期间,广西民族大学人工智能学院还完成了“满血版”深度求索(DeepSeek)R1引擎的独立部署,支持教学和科研。
麒麟多语言操作系统研讨会。尼玛扎西院士(左一)、余杰教授(左二)、飞龙教授(左三)、马发俊老师(左四)、王倚晴老师(左五),罗丽平院长(右一)、秦董洪副院长(右二)、白凤波老师(右三)、张超群老师(右四)、赵地老师(右五)
薪火传承展望青海新篇
本次大会立足国家战略需求,强化人工智能、大数据等技术在语言保护、文化传承中的创新实践,使少数民族语言文化的保护传承与AI技术发展达成行业共识,并宣布第十一届全国少数民族自然语言处理青年论坛(MNLP 2026)将于2026年由青海民族大学承办。作为青藏高原民族语言研究的重镇,青海民族大学计算机学院党委书记昝风彪教授介绍青海民族大学近年来在藏语信息处理领域取得显著突破:其研发的安多藏语语音识别系统准确率达90%以上,填补了方言级语音技术的空白;牵头构建的“汉藏双语平行语料库”规模突破500万句对,支撑了青藏高原多语种政务服务平台的建设。从广西到青海的接力,不仅体现了学术共同体的协作精神,更彰显了技术驱动下少数民族语言文化研究从“抢救保存”向“创新转化”的范式升级。
闭幕式上,会议组织委员会副主席、西藏大学高定国教授宣布本次会议优秀论文评选结果,并对参与会议组织和研讨的全体与会者表示感谢。会议指导委员会主席、新疆大学吐尔根·依布拉音教授为本次会议作总结报告并强调,在全球化4.0时代,民族语言信息处理既要筑牢"数字防火墙",更要做强"文化传播器",未来要共同开创少数民族语言智能信息处理新时代,推动少数民族语言信息系统智能化、媒体化、数字化、标准化、产业化的快速发展,加速“产学研一体化”,积极推进少数民族语言文字保护和传承,开启少数民族文化保护和传承发展的新纪元。从字符编码到智慧赋能,数十载学术接力不仅守护了文化基因,更让民族语言在数字文明中焕发新生。
本文原文来自网易新闻