用于训练大型语言模型的数据集缺乏透明度
创作时间:
作者:
@小白创作中心
用于训练大型语言模型的数据集缺乏透明度
引用
搜狐
1.
https://m.sohu.com/a/807463640_121961440
为了训练更强大的大型语言模型(LLM),研究人员使用了从成千上万的网络来源中汇集而成的庞大数据集。然而,随着这些数据集被多次组合和重组,有关其来源和使用限制的重要信息往往在过程中丢失或混淆。这不仅引发了法律和伦理问题,还可能影响模型的表现。例如,如果数据集被错误分类,可能会导致训练出的机器学习模型使用了不适合特定任务的数据。此外,来自不明来源的数据可能包含偏见,导致模型在实际应用中做出不公平的预测。
为了解决这一问题,来自麻省理工学院及其他机构的多学科研究团队对1800多个文本数据集进行了系统审计。他们发现,超过70%的数据集缺少某些许可信息,而大约50%的信息包含错误。基于这些见解,研究团队开发了一款名为数据来源探测器(Data Provenance Explorer)的工具,能够自动生成数据集创建者、来源、许可证及可允许用途的简易摘要。
热门推荐
小孩经常感冒该如何正确照顾
如何查看电脑连接的Wi-Fi密码?
回乡证换证需要什么资料?
注意力缺陷多动障碍诊断与评估(附量表)
我国首批五名舰载机试飞员现状:有人成为将军,有人梦断长空
二手房数据分析预测
婚庆公司如何取一个时尚的名字?10个实用建议助你打造独特品牌形象
肉毒素注射前该做哪些评估
带你认识龙爪槐
龙爪槐:园林绿化中的吉祥树种
维权全攻略:从取证到诉讼的实战技巧
主题酒店设计全攻略:从初创到改造的创新实践
元末红巾军领袖刘福通之死:历史迷雾中的真相
硅酸盐的性质与结构
余氯检测的方法原理介绍(哪种余氯检测方法比较好)
全球八大稀有狗狗品种大盘点
价格低不掉毛的小型犬有哪些?哪些品种的小型犬适合家庭饲养?
清明节环保实践:传统与现代的绿色融合
孙权遭遇张辽与满宠的惨败:战略失误与个人局限
梅西年薪仅1200万美元,性价比超高!
连续给出关键比赛,马竞依靠“梅西保镖”的蜕变重新崛起
贴水映了什么市场状况?如何应对贴水情况?
长江存储正加速转向国产半导体设备!
看懂这5大修车陷阱,即便你不懂修车,也不会被维修厂坑
家风传初心——走近李大钊
基于单片机ATM自动取款机系统设计
云南大理洱海旅游什么时候去(什么时候去大理旅游最好)
如何理解现货市场中的换手率?其对市场流动性的影响是什么?
团队如何统一估算基准
昆明有斗南,畅游花海并不难!