美国政府和NIST如何推动数据标注产业发展?
美国政府和NIST如何推动数据标注产业发展?
随着互联网和物联网的迅猛发展,数据标注服务应运而生并迅速成长为潜力巨大的产业。据Grand View Research的报告,2023年全球数据标注工具和服务市场规模达85亿美元,其中,美国为28亿美元,占1/3,尤其数据标注工具更为突出,占全球市场接近40%。据MARKETSANDMARKETS统计,当前全球Top30数据标注服务提供商中美国就有18家。
美国政府的政策推动
美国政府高度重视数据高质量供给问题。自提出数字经济战略以来,美国政府就开始重视数据高质量供给问题。美国的数据管理机构是商务部,于2016年成立独立的联邦咨询委员会数字经济顾问委员会(DEBA),同年底发布《数字经济战略》,强调技术和数据的双轮驱动。
人工智能战略中,美国政府尤其重视数据高质量提供问题。2020年,特朗普总统宣布美国AI倡议承诺“增强高质量和完全可追溯的联邦数据的访问……提高这些资源对AI研发的价值”,并指示机构识别并解决数据质量限制问题。《联邦数据战略2020年行动计划》旨在通过集中联邦政府资源推动AI技术发展,(1)强调了数据共享与开放,为数据标注服务提供了更丰富的数据资源,提高了数据的质量和覆盖范围;(2)强调了数据治理和隐私保护的重要性,这有助于增强公众对数据标注服务的信任;(3)促进跨部门合作,形成了统一的数据标准和共享机制,提高了数据标注的效率和质量。这些措施共同构建了一个更加健全和高效的AI数据服务体系,对美国的数据标注服务及产业的高质量发展产生了积极的影响。
生成式AI进一步促进美国政府对高质量数据集提供的关注。今年1月,美国商务部数据治理委员会启动了AI和开放政府数据资产工作组,任务是制定可供生成式AI使用的数据开放指南。4月,工作组面向公众发布《为AI准备的政府数据资产开放》的需求征询。强调AI工具越来越多地用于数据分析和数据访问,为确保AI能够恰当便捷地访问数据,要确保数据的完整性,确保数据“机器可理解”,而不仅仅是“机器可读”,强调高质量数据集提供至关重要。
NIST的标准和框架
美国将AI系统的伦理和社会影响纳入国家标准战略,其中之一是确保AI系统的可靠和可信,主要由商务部下属的联邦机构国家标准与技术研究院(NIST)来领导制定相关标准。
2023年1月,NIST发布了AI风险管理框架(RMF)。特别强调没有数据就没有AI,可信AI依赖高质量数据集。AI系统运作的功能和决策可信度,很大程度上取决于系统训练所需的数据集。因此,应采取必要措施以确保使用数据时遵守负责任的AI原则。
NIST积极推动全球可信AI标准的制定。2023年10月,拜登总统发布关于安全可靠和值得信赖的人工智能的行政命令,旨在建立新的AI安全和保障标准,促进创新和竞争,引领全球并推进美国的领导力。行政命令发布180天后, NIST如期发布四份草案文件,旨在帮助提高人工智能(AI)系统的安全性、安全性和可信赖性,其中第四份提出了制定全球AI标准的计划。
NIST不断开发并推出高质量数据集。例如,NIST与执法机构、民间社会和其他利益相关者合作开发面部数据集,可作为开发面部识别技术的组织共享使用。美国政府介入提供急需的高质量数据已有先例。例如,美国交通部在2015年开始着手建立一个公开可访问的国家地址数据库,此前他们认识到几个政府机构以及经济的大部分部门都在收集和依赖地址数据,但缺乏这些信息的单一、全面来源,导致重复收集和碎片化的数据集。
产业实践与创新
高质量数据集首要的前提是确保数据的安全合规。数据标注公司积极参与并获得数据管理顶级行业和国际标准认证,比如,LableYourData公司的数据标记和数据处理服务获得了PCI DSS Level 1和ISO/IEC 27001:2013认证,并符合GDPR和CCPA规定。SuperAnnotate通过认证和遵守包括 SOC2Type2、HIPAA、GDPR、SSO、2FA 和 CCPA等行业安全标准和框架来优先考虑数据安全。
其次,数据标注企业总结高质量数据集的相关标准。比如,ClickWorker公司总结出高质量数据集的六要素:准确性、完整性、一致性、时效性、有效性和独特性。LableYourData公司认为高质量数据集必须符合相关性并具一定覆盖范围:1、数据集的数据应与建模目标相关。如果为自动驾驶汽车设计ML算法,即使是由名人照片组成的最好的数据集,但不具相关性也没用。2、确保构成数据集的数据片段足够高质量,让数据符合所需特征列表。例如,当构建面部识别模型时,训练照片需要具有足够好的质量。3、保证数据特征丰富性和多元性,避免不平衡的数据集导致模型结果存在盲点和偏见的问题。4、尽量使用真实数据,虽然假数据更便宜、更干净,并且数量充足,但假数据可能导致模型结果过度拟合或欠拟合。
再次,数据标注公司制定并在标注平台内嵌数据质量保证(QA)程序化流程。比如,Kili科技公司研发了从数据上载到数据标注再到数据集交付的完整QA工作流,通过一致性检查、审查与反馈以及质量控制指标等工具,增强质量管理;允许在标注界面直接使用自定义QA脚本进行错误的自动化识别,也可以使用预构建的模型自动发现并修复数据集的问题,保证95%准确率的高质量数据集的交付。
另外,标注公司研究高质量数据集的评估指标和参数。比如,LableYourData公司的数据质量测算指标包括:(1)标注者间一致性测算,贯穿整个数据集、标注器之间、标签之间的每个任务,确保每个标注者在数据集的所有类别中使用的方法是一致的;(2)共识算法,测算所有标注者所提供的标注的共识度,并确定最终标注;(3)Cronbach"s Alpha测试,帮助检查整个数据集的标注的一致性和可靠性。
以Scale AI为例,展示美国数据标注企业在技术创新和商业模式上的成功实践。Scale AI通过数据标注业务,从纯人工标注阶段逐步发展到强AI主导阶段,形成了良性的飞轮效应。Scale AI不仅提供数据标注服务,还推出了数据调试SaaS产品Nucleus,并进一步扩展到数据管理和模型开发服务。Scale AI在2024年完成了10亿美元融资,估值达到138亿美元,成为AI产业中最具确定性的公司之一。
总结与展望
美国政府和NIST通过制定“通过数据扩大机会和发现”战略和AI风险管理框架,积极推动高质量数据集的开发和提供。这些举措不仅提升了数据标注服务的质量和效率,还促进了整个信息技术的进步。随着AI技术的不断发展,数据标注产业将继续保持高速增长态势,为AI应用的普及和深化提供坚实的基础。