问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

中文互联网语料库CCI 2.0开放,涵盖1.25亿个网页 | 2024中关村论坛

创作时间:
作者:
@小白创作中心

中文互联网语料库CCI 2.0开放,涵盖1.25亿个网页 | 2024中关村论坛

引用
1
来源
1.
https://news.ycwb.com/2024-04/27/content_52650220.htm

在2024中关村论坛年会上,智源研究院正式发布了中文互联网语料库CCI 2.0版本。该语料库规模达500GB,涵盖1.25亿个网页,是目前国内规模最大、质量最高的中文语料库之一,将为AI行业发展提供重要基础资源支持。

作为2024中关村论坛年会的平行论坛之一,数据安全治理与发展论坛4月26日在北京成功举办。论坛上,智源研究院正式发布了中文互联网语料库CCI 2.0(Chinese Corpora Internet,简称 CCI),规模约500GB,涵盖1.25亿个网页。

据介绍,中文互联网语料库 CCI 是由智源研究院联合多家数据贡献单位构建的高质量、可信数据集,于2023年11月首次开源(CCI 1.0),旨在为国内大数据及人工智能行业提供一个安全、可靠的语料资源,共同推动大数据和人工智能领域的健康发展。

在中国网络空间安全协会人工智能安全治理工作委员会等的推动下,智源研究院与多家企业经过四个月的努力,共收集约8TB互联网数据,通过严格的清洗和筛选,形成了超过500GB的高质量“中文互联网语料库” CCI 2.0,数据类型全面、质量较高、安全可信,包括网页、公众号、博客、百科、问答、试题等。

为了推动产业持续贡献、共建高质量人工智能数据集,在中国网络空间安全协会人工智能安全治理工作委员会的指导下,智源研究院联合多家企业单位成立数据集工作组,打造了“贡献—共享”的数据运营方式。同时,智源研究院连同京能数字产业有限公司,搭建了首个数据集“共建-共享”平台,数据贡献单位通过贡献的数据集数量和质量,获得评定的积分,然后通过该平台以积分兑换方式进行数据集下载。同时,智源研究院牵头组织数据集工作组制定了文本语料共享清洗过滤规范,建立了内容清洗过滤规则共享机制。

本文原文来自羊城晚报

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号