问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

大模型备案语料要求详解:从来源到标注的全方位指南

创作时间:
作者:
@小白创作中心

大模型备案语料要求详解:从来源到标注的全方位指南

引用
1
来源
1.
https://www.cnblogs.com/senlin202511/p/18675535

随着人工智能技术的快速发展,大模型备案已成为一项重要工作。其中,语料要求是备案中被重点考察的环节之一。本文将详细介绍大模型备案中语料来源的合法性、质量把控、知识产权、个人信息保护等方面的具体要求,帮助申请单位更好地满足相关标准。

语料来源

  1. 合法合规性:语料获取途径必须完全符合法律规定,坚决不能侵害他人合法权益,严禁使用依照我国网络安全法规被禁止的信息来训练模型。对于特定来源的语料,在采集的前后阶段都要展开全面的安全评估。

  2. 多元丰富性:尽可能拓展语料来源的丰富度,保证每种语言和类型的语料都涵盖多个出处,同时合理规划境内和境外语料的比例。

  3. 可追溯性:使用开源语料,一定要有对应的开源授权文件;自采语料则需保留详实的采集记录,并且避开那些明确禁止采集的内容。

  4. 商业语料规范:若使用商业语料,必须签订具有法律效力的交易合同或合作协议,同时仔细审查交易方或合作方所提供的语料、相关承诺及材料。

严格质量把控

注:以下信息仅供参考。不同省份可能会在实操中有所不同,也可能会更新标注。具体情况请提前咨询。

  1. 不良信息管控:倘若语料中违法不良信息的占比超过 5%,则不应采集或使用该部分语料。

  2. 抽检达标率:在采用人工抽检、关键词、分类模型等手段进行评估时,要确保抽样合格率达到标准。例如,人工抽检时从所有语料中随机抽取至少 4000 条,合格率不得低于 96%;利用关键词、分类模型等技术抽检时,从全部语料里随机抽取不少于总量 10% 的样本,合格率不得低于 98%。

知识产权

需指定专人负责知识产权相关事务,制定管理策略,精准识别语料中潜在的知识产权侵权风险,绝不能使用存在侵权问题的语料进行模型训练。

个人信息保护

一旦使用包含个人信息的语料,必须事先获得个人信息主体的明确授权同意,或者满足其他合法使用的条件。

标注严谨规范

  1. 人员管理:对标注人员开展安全培训与考核,依据能力划分等级,并明确标注规则。标注人员必须具备上岗资格,同时要有定期重新培训考核机制,必要时能够暂停或取消其标注上岗资格。

  2. 内容抽检:对标注语料进行严格抽检,功能性标注要保证内容准确、客观;安全性标注要求每条标注语料至少经过一名审核人员审核通过,建议针对安全内容至少进行一次复审 。

安全制度

除落实以上涉及的各环节外,还应制定对应的规章制度,形成完善的安全制度体系,做到有理可依,也方便在发起大模型备案时通过安全措施考核。如果发起大模型备案后再临时补充相关制度,可能会造成申报资料出现前后不一的情况,导致申请被驳回。

总结

大模型备案主要分语料安全评估、模型安全评估、安全措施评估三大部分。本文主要介绍了语料方面的信息,其它两大部分的评估及一些具体信息,将在后续整理出来,供大家参考。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号