大模型备案语料要求详解：从来源到标注的全方位指南

创作时间:

作者:

@小白创作中心

引用

来源

https://www.cnblogs.com/senlin202511/p/18675535

随着人工智能技术的快速发展，大模型备案已成为一项重要工作。其中，语料要求是备案中被重点考察的环节之一。本文将详细介绍大模型备案中语料来源的合法性、质量把控、知识产权、个人信息保护等方面的具体要求，帮助申请单位更好地满足相关标准。

合法合规性：语料获取途径必须完全符合法律规定，坚决不能侵害他人合法权益，严禁使用依照我国网络安全法规被禁止的信息来训练模型。对于特定来源的语料，在采集的前后阶段都要展开全面的安全评估。
多元丰富性：尽可能拓展语料来源的丰富度，保证每种语言和类型的语料都涵盖多个出处，同时合理规划境内和境外语料的比例。
可追溯性：使用开源语料，一定要有对应的开源授权文件；自采语料则需保留详实的采集记录，并且避开那些明确禁止采集的内容。
商业语料规范：若使用商业语料，必须签订具有法律效力的交易合同或合作协议，同时仔细审查交易方或合作方所提供的语料、相关承诺及材料。

注：以下信息仅供参考。不同省份可能会在实操中有所不同，也可能会更新标注。具体情况请提前咨询。

不良信息管控：倘若语料中违法不良信息的占比超过 5%，则不应采集或使用该部分语料。
抽检达标率：在采用人工抽检、关键词、分类模型等手段进行评估时，要确保抽样合格率达到标准。例如，人工抽检时从所有语料中随机抽取至少 4000 条，合格率不得低于 96%；利用关键词、分类模型等技术抽检时，从全部语料里随机抽取不少于总量 10% 的样本，合格率不得低于 98%。

需指定专人负责知识产权相关事务，制定管理策略，精准识别语料中潜在的知识产权侵权风险，绝不能使用存在侵权问题的语料进行模型训练。

一旦使用包含个人信息的语料，必须事先获得个人信息主体的明确授权同意，或者满足其他合法使用的条件。

人员管理：对标注人员开展安全培训与考核，依据能力划分等级，并明确标注规则。标注人员必须具备上岗资格，同时要有定期重新培训考核机制，必要时能够暂停或取消其标注上岗资格。
内容抽检：对标注语料进行严格抽检，功能性标注要保证内容准确、客观；安全性标注要求每条标注语料至少经过一名审核人员审核通过，建议针对安全内容至少进行一次复审。