问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

“万卷·丝路”多语言预训练语料库发布,赋能“一带一路”科技创新

创作时间:
作者:
@小白创作中心

“万卷·丝路”多语言预训练语料库发布,赋能“一带一路”科技创新

引用
公众号
14
来源
1.
https://news.qq.com/rain/a/20250110A0222M00
2.
https://m.thepaper.cn/detail/29891113
3.
https://news.qq.com/rain/a/20250110A02CA200
4.
https://www.163.com/dy/article/JLHL8E0005346936.html
5.
https://cloud.baidu.com/article/3418789
6.
https://finance.sina.com.cn/jjxw/2024-07-19/doc-incesaex0908826.shtml
7.
http://www.why.com.cn/wx/article/2025/01/10/17364969581304795931.html
8.
https://www.mittrchina.com/news/detail/13677
9.
http://www.rmhb.com.cn/zt/ydyl/202404/t20240410_800362733.html
10.
https://www.sxtourgroup.com/home/media_enterprises/info.html?id=4209&catId=15
11.
https://lxs.szu.edu.cn/info/1002/4139.htm
12.
https://www.jfdaily.com/news/detail?id=842133
13.
https://www.shlab.org.cn/news/5444041
14.
https://www.mindspore.cn/news/newschildren?id=3431

1月9日,上海人工智能实验室联合大模型语料数据联盟成员发布“万卷·丝路”多语言预训练语料库,为多语言大模型训练提供高质量数据支撑。这一项目旨在通过先进数据智能技术,赋能“一带一路”高质量发展。

“万卷·丝路”首期开源包含泰、俄、阿、韩、越等五个语种的语料,总规模超1.2TB(单语种均超过150GB),Token总数超过300B,涵盖生活、百科、文化、新闻等七大领域数据。作为综合性文本语料库,其数据规模和质量均达到国际领先水平。

基于“书生·浦语”智能标签分类体系,研究团队将每个语料子集细分为7个大类和32个小类,覆盖历史、政治、文化、房产、购物、天气、餐饮、百科、专业知识等内容,便于研究者根据具体需求检索数据,并可适应不同研究领域多样化需求。

为确保数据安全与质量,“万卷·丝路”通过专家人工标注,确立了包含完整性、有效性、可理解性、流畅性、相关性、相似性和安全性等七个维度的文本数据质量评估体系。使用基于大语言模型的数据质量评估开源工具Dingo进行评估,结果显示五个子集均获得优异的综合评分。

这一语料库的发布,不仅提升了AI在多语言内容理解和推理的能力,还推动了“一带一路”沿线国家的科技创新与合作。大模型语料数据联盟由上海人工智能实验室联合中央广播电视总台、人民网、国家气象中心、中国科学技术信息研究所、上海报业集团、上海文广集团等10家单位联合发起。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号