“万卷·丝路”多语言预训练语料库发布,赋能“一带一路”科技创新
创作时间:
作者:
@小白创作中心
“万卷·丝路”多语言预训练语料库发布,赋能“一带一路”科技创新
引用
公众号
等
14
来源
1.
https://news.qq.com/rain/a/20250110A0222M00
2.
https://m.thepaper.cn/detail/29891113
3.
https://news.qq.com/rain/a/20250110A02CA200
4.
https://www.163.com/dy/article/JLHL8E0005346936.html
5.
https://cloud.baidu.com/article/3418789
6.
https://finance.sina.com.cn/jjxw/2024-07-19/doc-incesaex0908826.shtml
7.
http://www.why.com.cn/wx/article/2025/01/10/17364969581304795931.html
8.
https://www.mittrchina.com/news/detail/13677
9.
http://www.rmhb.com.cn/zt/ydyl/202404/t20240410_800362733.html
10.
https://www.sxtourgroup.com/home/media_enterprises/info.html?id=4209&catId=15
11.
https://lxs.szu.edu.cn/info/1002/4139.htm
12.
https://www.jfdaily.com/news/detail?id=842133
13.
https://www.shlab.org.cn/news/5444041
14.
https://www.mindspore.cn/news/newschildren?id=3431
1月9日,上海人工智能实验室联合大模型语料数据联盟成员发布“万卷·丝路”多语言预训练语料库,为多语言大模型训练提供高质量数据支撑。这一项目旨在通过先进数据智能技术,赋能“一带一路”高质量发展。
“万卷·丝路”首期开源包含泰、俄、阿、韩、越等五个语种的语料,总规模超1.2TB(单语种均超过150GB),Token总数超过300B,涵盖生活、百科、文化、新闻等七大领域数据。作为综合性文本语料库,其数据规模和质量均达到国际领先水平。
基于“书生·浦语”智能标签分类体系,研究团队将每个语料子集细分为7个大类和32个小类,覆盖历史、政治、文化、房产、购物、天气、餐饮、百科、专业知识等内容,便于研究者根据具体需求检索数据,并可适应不同研究领域多样化需求。
为确保数据安全与质量,“万卷·丝路”通过专家人工标注,确立了包含完整性、有效性、可理解性、流畅性、相关性、相似性和安全性等七个维度的文本数据质量评估体系。使用基于大语言模型的数据质量评估开源工具Dingo进行评估,结果显示五个子集均获得优异的综合评分。
这一语料库的发布,不仅提升了AI在多语言内容理解和推理的能力,还推动了“一带一路”沿线国家的科技创新与合作。大模型语料数据联盟由上海人工智能实验室联合中央广播电视总台、人民网、国家气象中心、中国科学技术信息研究所、上海报业集团、上海文广集团等10家单位联合发起。
热门推荐
柠檬泡水营养好吗?怎么喝柠檬片更好?
去黑头控油护肤品:选择与使用指南
月见草油的精炼、应用与贮存
冷阳台潮气大的原因分析及其解决方案分享
甲亢诊断标准及饮食禁忌
如何准确选定管辖法院
ConcurrentMap的相关特点和使用
ConcurrentHashMap 在Jdk 17 不同版本中的优化和改进
如何深入了解投资产品的潜在风险?这些潜在风险如何进行评估和管理?
跟着水熊虫探索极端环境下的生命
夏洛特夫人月季的夏季养护办法
两个月宝宝认人的原因及应对方法
基于Boost和平均电流控制方法的APFC电路设计
甾体类抗炎药物有哪些
如何在中国大陆地区查询并确认网站域名已正确备案?
高丽参的功效与作用有哪些
宝宝落地就醒,有什么应对技巧?
照片拷贝到文件管理的四种方法详解
失忆的原因及护理措施
轰趴馆装修设计:打造个性化与功能性并重的聚会空间
时间管理拼图照片制作教程
公司注册资本的法律定位与实务分析
资本公积的来源及其法律意义探讨
提升眼部魅力的多种方法,帮助你拥有明亮动人的大眼睛
眼睛变大手术都有什么呢?
与流浪狗友好互动,温暖它们的心
眼角纹的肉毒素去除
【王者荣耀】喵趣横生:揭秘沈梦溪新皮肤、职业定位与实战攻略,助力成为炸猫大师
阳台盆栽蓝莓怎么授粉
上下智齿只拔下面行吗?根据自身情况来定|良心牙医建议同一侧智齿一起拔|理由告知