多线程优化数据加载效率

创作时间:

作者:

@小白创作中心

多线程优化数据加载效率

引用

nvidia

https://developer.nvidia.com/zh-cn/blog/improved-data-loading-with-threads/

随着Python不断努力删除GIL（全局解释器锁），这为深度学习工作流程中的并行性开辟了新的可能性。本文记录了NVIDIA通过从进程切换到线程来优化PyTorch的数据加载器（torch.DataLoader）的实验，详细介绍了GIL对Python多线程的影响，并通过实验证明了在某些场景下使用线程可以显著提高数据加载效率。

无论您专注于训练还是推理，数据加载都是深度学习工作流程的一个关键方面。然而，它通常会带来一个矛盾：需要同时具备高度便捷和可定制的解决方案。这两个目标众所周知很难协调。

此问题的传统解决方案之一是扩展处理并并行化用户编写的函数。在这种方法中，用户创建自定义算法，而系统则负责在同时计算任务的多个工作进程中扩展其执行。这就是torch.DataLoader发挥作用的地方。

本文记录了我们通过从进程切换到线程来优化torch.DataLoader的实验。这项探索之所以成为可能，是因为Python不断努力删除GIL，使我们能够重新思考深度学习工作流程中的并行性，并探索新的性能优化。

什么是 torch.DataLoader？工作原理是什么？

torch.DataLoader是PyTorch中的基础工具，有助于在深度学习应用中加载数据。它在管理数据输入模型的方式方面发挥着关键作用，可确保流程高效且有效。

torch.DataLoader的重要特性是，它能够并行化加载过程，这在处理大型数据集时至关重要。这种并行化通常通过创建多个工作进程来实现，每个进程负责加载部分数据，这些进程并行运行，从而能够在训练模型的同时加载和预处理数据。

并行性对于保持稳定的GPU数据流、尽量减少空闲时间和尽量提高资源利用率尤为重要。

可怕的 GIL

torch.DataLoader使用进程来并行化数据加载任务，这种方法直接源于Python架构的一个基本方面，即全局解释器锁（GIL）。

GIL是一种互斥体，可防止多个原生线程在CPython（最广泛使用的Python实现）中同时执行Python字节码。这锁的引入目的是简化内存管理，并通过在多个线程试图同时访问或修改Python对象时防止出现竞争条件，以确保线程安全。

虽然GIL使Python的内存管理变得简单，并有助于避免复杂的并发错误，但它也施加了一个重大限制：Python线程并非真正的并行。在受CPU限制的任务中，处理能力是瓶颈，线程不得不轮流运行，导致性能不佳。这就是为什么torch.DataLoader使用进程而不是线程的原因。每个进程都在自己的内存空间中运行，完全绕过GIL，并允许在多核处理器上真正并行执行。

当然，GIL的影响并非完全是负面的。它通过减少开发者对线程安全的关注来简化Python程序的开发，这也是Python如此受欢迎的原因之一。另一方面，GIL可能会成为CPU受限和多线程应用程序的瓶颈，因为它阻碍了多核系统的充分利用。这种权衡在Python社区中引发了关于其优缺点的持续争论。