用于训练大型语言模型的数据集缺乏透明度
创作时间:
作者:
@小白创作中心
用于训练大型语言模型的数据集缺乏透明度
引用
搜狐
1.
https://m.sohu.com/a/807463640_121961440
为了训练更强大的大型语言模型(LLM),研究人员使用了从成千上万的网络来源中汇集而成的庞大数据集。然而,随着这些数据集被多次组合和重组,有关其来源和使用限制的重要信息往往在过程中丢失或混淆。这不仅引发了法律和伦理问题,还可能影响模型的表现。例如,如果数据集被错误分类,可能会导致训练出的机器学习模型使用了不适合特定任务的数据。此外,来自不明来源的数据可能包含偏见,导致模型在实际应用中做出不公平的预测。
为了解决这一问题,来自麻省理工学院及其他机构的多学科研究团队对1800多个文本数据集进行了系统审计。他们发现,超过70%的数据集缺少某些许可信息,而大约50%的信息包含错误。基于这些见解,研究团队开发了一款名为数据来源探测器(Data Provenance Explorer)的工具,能够自动生成数据集创建者、来源、许可证及可允许用途的简易摘要。
热门推荐
HDMI 2.0 是否支持 140Hz 刷新率?详细解析与兼容性探讨
如何备份照片保持原画质
邮政和邮储的区别有哪些?你知道吗?
书画保护小贴士:延长作品保存期限的秘诀
TB矫正器能导出下巴吗?关键看导致下巴后缩的主要原因是什么?一般情况下可以!
科普小课堂:正畸TB功能性矫治器介绍,矫正原理、适应年龄、佩戴时间、价格全攻略!
那达慕体育赛事都有啥?比赛规则你了解吗?
为什么不能吃马肉
孕妇可以喝鸡汤吗
韭菜怎么吃最减肥
《细胞》子刊:孕期补充Akk菌可塑造后代干细胞功能
改装小知识 更换轮毂需要注意哪些参数
上海市各区人口、面积、地区生产总值/人均GDP排名
智能马桶是什么马桶?智能马桶的优点缺点分别是什么?
培养孩子稳定的情绪有多重要?9成的父母都不知道!
玩转撞色:解锁色彩搭配的奥秘,让生活更精彩
关节炎怎样运动才好恢复快
《我的世界》小汽车DIY制作全攻略:从准备到细节处理,畅游沙盒世界!
如何在家中进行布艺床的清洁?清洁布艺床有哪些注意事项?
安徽首批智能防作弊电子秤在农贸市场“上岗”
太原市蒙山大佛景区
海草与海藻:海洋中的“草”与“藻”有何不同?
双向奔赴的爱情是什么?该如何实现?
《英雄联盟》中的“通天代”:从代练文化到竞技精神
10分钟吃下69个热狗!征战大胃王比赛20年,他的大脑被吃坏了……
债务人履行迟延后发生不可抗力的如何认定
十堰:化解不动产登记难 1.1万余户居民圆“安居梦”
甘熙故居:中国最大的私宅
大姜种植管理全解析,轻松实现高产丰收!
哈尔滨红肠应该怎么买?秋林里道斯、哈肉联、商委三驾马车