问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

用于训练大型语言模型的数据集缺乏透明度

创作时间:

作者:

@小白创作中心

用于训练大型语言模型的数据集缺乏透明度

引用

搜狐

1.

https://m.sohu.com/a/807463640_121961440

为了训练更强大的大型语言模型（LLM），研究人员使用了从成千上万的网络来源中汇集而成的庞大数据集。然而，随着这些数据集被多次组合和重组，有关其来源和使用限制的重要信息往往在过程中丢失或混淆。这不仅引发了法律和伦理问题，还可能影响模型的表现。例如，如果数据集被错误分类，可能会导致训练出的机器学习模型使用了不适合特定任务的数据。此外，来自不明来源的数据可能包含偏见，导致模型在实际应用中做出不公平的预测。

为了解决这一问题，来自麻省理工学院及其他机构的多学科研究团队对1800多个文本数据集进行了系统审计。他们发现，超过70%的数据集缺少某些许可信息，而大约50%的信息包含错误。基于这些见解，研究团队开发了一款名为数据来源探测器（Data Provenance Explorer）的工具，能够自动生成数据集创建者、来源、许可证及可允许用途的简易摘要。

热门推荐

HDMI 2.0 是否支持 140Hz 刷新率？详细解析与兼容性探讨

HDMI 2.0 是否支持 140Hz 刷新率？详细解析与兼容性探讨

如何备份照片保持原画质

如何备份照片保持原画质

邮政和邮储的区别有哪些？你知道吗？

邮政和邮储的区别有哪些？你知道吗？

书画保护小贴士：延长作品保存期限的秘诀

书画保护小贴士：延长作品保存期限的秘诀

TB矫正器能导出下巴吗？关键看导致下巴后缩的主要原因是什么？一般情况下可以！

TB矫正器能导出下巴吗？关键看导致下巴后缩的主要原因是什么？一般情况下可以！

科普小课堂：正畸TB功能性矫治器介绍，矫正原理、适应年龄、佩戴时间、价格全攻略！

科普小课堂：正畸TB功能性矫治器介绍，矫正原理、适应年龄、佩戴时间、价格全攻略！

那达慕体育赛事都有啥？比赛规则你了解吗？

那达慕体育赛事都有啥？比赛规则你了解吗？

为什么不能吃马肉

为什么不能吃马肉

孕妇可以喝鸡汤吗

孕妇可以喝鸡汤吗

韭菜怎么吃最减肥

韭菜怎么吃最减肥

《细胞》子刊：孕期补充Akk菌可塑造后代干细胞功能

《细胞》子刊：孕期补充Akk菌可塑造后代干细胞功能

改装小知识更换轮毂需要注意哪些参数

改装小知识更换轮毂需要注意哪些参数

上海市各区人口、面积、地区生产总值/人均GDP排名

上海市各区人口、面积、地区生产总值/人均GDP排名

智能马桶是什么马桶？智能马桶的优点缺点分别是什么？

智能马桶是什么马桶？智能马桶的优点缺点分别是什么？

培养孩子稳定的情绪有多重要？9成的父母都不知道！

培养孩子稳定的情绪有多重要？9成的父母都不知道！

玩转撞色：解锁色彩搭配的奥秘，让生活更精彩

玩转撞色：解锁色彩搭配的奥秘，让生活更精彩

关节炎怎样运动才好恢复快

关节炎怎样运动才好恢复快

《我的世界》小汽车DIY制作全攻略：从准备到细节处理，畅游沙盒世界！

《我的世界》小汽车DIY制作全攻略：从准备到细节处理，畅游沙盒世界！

如何在家中进行布艺床的清洁？清洁布艺床有哪些注意事项？

如何在家中进行布艺床的清洁？清洁布艺床有哪些注意事项？

安徽首批智能防作弊电子秤在农贸市场“上岗”

安徽首批智能防作弊电子秤在农贸市场“上岗”

太原市蒙山大佛景区

太原市蒙山大佛景区

海草与海藻：海洋中的“草”与“藻”有何不同？

海草与海藻：海洋中的“草”与“藻”有何不同？

双向奔赴的爱情是什么？该如何实现？

双向奔赴的爱情是什么？该如何实现？

《英雄联盟》中的“通天代”：从代练文化到竞技精神

《英雄联盟》中的“通天代”：从代练文化到竞技精神

10分钟吃下69个热狗！征战大胃王比赛20年，他的大脑被吃坏了……

10分钟吃下69个热狗！征战大胃王比赛20年，他的大脑被吃坏了……

债务人履行迟延后发生不可抗力的如何认定

债务人履行迟延后发生不可抗力的如何认定

十堰：化解不动产登记难 1.1万余户居民圆“安居梦”

十堰：化解不动产登记难 1.1万余户居民圆“安居梦”

甘熙故居：中国最大的私宅

甘熙故居：中国最大的私宅

大姜种植管理全解析，轻松实现高产丰收！

大姜种植管理全解析，轻松实现高产丰收！

哈尔滨红肠应该怎么买？秋林里道斯、哈肉联、商委三驾马车

哈尔滨红肠应该怎么买？秋林里道斯、哈肉联、商委三驾马车

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号