资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

机器学习模型训练数据：量的考量与优化策略

创作时间:

作者:

@小白创作中心

机器学习模型训练数据：量的考量与优化策略

引用

来源

https://zh-cn.shaip.com/blog/how-much-training-data-is-enough/

在人工智能和机器学习领域，训练数据的质量和数量是决定模型性能的关键因素。本文将探讨训练数据的重要性、影响训练数据量的关键因素，以及如何在数据有限的情况下优化模型训练。

一个有效的 AI 模型建立在可靠、可靠和动态的数据集之上。无需丰富详细人工智能训练数据目前，构建有价值且成功的人工智能解决方案肯定是不可能的。我们知道项目的复杂性决定并决定了所需的数据质量。但我们并不确定构建自定义模型需要多少训练数据。
正确的数量没有直接的答案机器学习的训练数据是需要的。我们相信一系列方法可以让您准确了解您可能需要的数据大小，而不是使用大致数字。但在此之前，让我们了解为什么训练数据对您的 AI 项目的成功至关重要。

训练数据的意义

IBM 首席执行官 Arvind Krishna 在华尔街日报的未来万物节上发表讲话说，几乎AI 项目中 80% 的工作是关于收集、清理和准备数据。他还认为，企业放弃他们的人工智能企业是因为他们无法跟上收集有价值的培训数据所需的成本、工作和时间。

确定数据样本量有助于设计解决方案。它还有助于准确估计项目所需的成本、时间和技能。

如果使用不准确或不可靠的数据集来训练 ML 模型，则生成的应用程序将无法提供良好的预测。

决定所需训练数据量的 7 个因素

虽然训练 AI 模型所需的数据量完全是主观的，应根据具体情况而定，但还是有一些普遍的因素会对数据产生客观影响。让我们来看看最常见的几个。

机器学习模型

训练数据量取决于模型的训练是在监督学习还是无监督学习下进行。前者需要更多的训练数据，而后者则不需要。

监督学习

这涉及使用标记数据，这又增加了训练的复杂性。图像分类或聚类等任务需要标签或属性，以便机器进行解读和区分，这导致对更多数据的需求。

无监督学习

在无监督学习中，使用标记数据并不是强制性的，因此相对而言，对海量数据的需求较低。话虽如此，模型检测模式、识别先天结构并将它们关联起来所需的数据量仍然很大。

变化性和多样性

为了使模型尽可能公平客观，应完全消除固有偏见。这只能意味着需要更多不同的数据集。这可确保模型学习现有的大量概率，从而避免产生片面的反应。

数据增强和迁移学习

跨行业和跨领域获取不同用例的高质量数据并不总是天衣无缝。在医疗保健或金融等敏感行业，高质量数据很少可用。在这种情况下，涉及使用合成数据的数据增强成为训练模型的唯一出路。

实验与验证

迭代训练是一种平衡，在不断的实验和结果验证之后，计算出所需的训练数据量。通过反复的测试和监控
模型性能，利益相关者可以判断是否需要更多的训练数据来进行响应优化。

如何减少训练数据量要求

无论是预算限制、上市期限还是缺乏多样化数据，企业都可以采用一些方法来减少对大量训练数据的依赖。

数据扩充

从现有数据集生成或合成的新数据非常适合用作训练数据。这些数据源自并模仿父数据，是 100% 真实数据。

转移学习

这涉及修改现有模型的参数以执行和执行新任务。例如，如果您的模型已经学会识别苹果，您可以使用相同的模型并修改其现有的训练参数来识别橙子。

预训练模型

现有知识可以作为新项目的智慧。这可以是与图像识别相关的任务的 ResNet 或 NLP 用例的 BERT。

具有最小数据集的机器学习项目的真实示例

虽然听起来有些雄心勃勃的机器学习项目可以用最少的原材料来执行，但有些情况却令人震惊。准备好惊叹吧。

Kaggle 报告医疗保健临床肿瘤学

Kaggle 的一项调查显示，超过 70% 的机器学习项目都是用少于 10,000 个样本完成的。麻省理工学院的研究团队仅利用 500 张图像训练出一个模型，从眼部扫描的医学图像中检测出糖尿病神经病变。继续以医疗保健为例，斯坦福大学的一个团队成功开发出一种仅用 1000 张图像即可检测皮肤癌的模型。

做出有根据的猜测

关于所需的最小数据量没有神奇的数字，但有一些经验法则可用于得出有理数。

10 法则

作为一个经验法则，要开发一个高效的 AI 模型，所需的训练数据集的数量应该是每个模型参数的十倍，也称为自由度。 “10”倍规则旨在限制可变性并增加数据的多样性。因此，这个经验法则可以帮助你开始你的项目，让你对所需的数据集数量有一个基本的了解。

深度学习

如果向系统提供更多数据，深度学习方法有助于开发高质量模型。人们普遍认为，每个类别有 5000 个标记图像应该足以创建一个可以与人类相媲美的深度学习算法。要开发异常复杂的模型，至少需要 10 万个带标签的项目。

计算机视觉

如果您使用深度学习进行图像分类，那么每个类别的 1000 个标记图像的数据集是一个合理的数字。

学习曲线

学习曲线用于展示机器学习算法对数据量的性能。通过 Y 轴上的模型技能和 X 轴上的训练数据集，可以了解数据的大小如何影响项目的结果。

数据太少的缺点

您可能认为一个项目需要大量数据是相当明显的，但有时，即使是能够访问结构化数据的大型企业也无法获得这些数据。对有限或狭窄数据量的训练可以阻止机器学习模型发挥其全部潜力并增加提供错误预测的风险。

虽然没有黄金法则，并且通常会进行粗略的概括来预测训练数据的需求，但拥有大型数据集总比受到限制要好。您的模型遭受的数据限制将是您项目的限制。

如果您需要更多数据集怎么办

尽管每个人都想访问大型数据集，但说起来容易做起来难。获得大量质量和多样性的数据集对于项目的成功至关重要。在这里，我们为您提供战略步骤，使数据收集变得更加容易。

打开数据集

开放数据集通常被认为是免费数据的“良好来源”。虽然这可能是真的，但在大多数情况下，项目并不需要开放数据集。可以从许多地方获取数据，例如政府来源、欧盟开放数据门户、谷歌公共数据浏览器等。但是，将开放数据集用于复杂项目有许多缺点。

当您使用此类数据集时，您将面临风险培训和测试您的模型基于不正确或缺失的数据。数据收集方法通常是未知的，这可能会影响项目的结果。隐私、同意和身份盗用是使用开放数据源的重大缺陷。

增强数据集

当你有一些训练数据量但不足以满足您的所有项目要求，您需要应用数据增强技术。可用的数据集被重新利用以满足模型的需求。

数据样本将经历各种转换，使数据集变得丰富、多样和动态。在处理图像时可以看到一个简单的数据增强示例。可以通过多种方式增强图像 - 可以剪切、调整大小、镜像、转换为各种角度，并且可以更改颜色设置。

综合数据

当数据不足时，我们可以求助于合成数据生成器。合成数据在迁移学习方面派上用场，因为该模型可以首先在合成数据上进行训练，然后在现实世界数据集上进行训练。例如，可以首先训练基于 AI 的自动驾驶车辆识别和分析物体计算机视觉视频游戏。

当缺乏现实生活时，合成数据是有益的训练数据并测试你的训练有素的模型. 此外，它还用于处理隐私和数据敏感性。

自定义数据收集

当其他形式没有带来所需的结果时，自定义数据收集可能是生成数据集的理想选择。可以使用网络抓取工具、传感器、相机和其他工具生成高质量的数据集。当您需要定制数据集来提高模型性能时，采购自定义数据集可能是正确的选择。一些第三方服务提供商提供他们的专业知识。

为了开发高性能的人工智能解决方案，模型需要在质量可靠的数据集上进行训练。然而，要获得对结果产生积极影响的丰富而详细的数据集并不容易。但是，当您与可靠的数据提供商合作时，您可以构建具有强大数据基础的强大 AI 模型。