资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

利用大规模语言模型实现人机协作装配

创作时间:

2025-03-15 13:50:34

作者:

@小白创作中心

利用大规模语言模型实现人机协作装配

引用

来源

https://ai-scholar.tech/zh/articles/robot/HumanRobot-Collaborative-Assembly

随着机器人技术的快速发展，人机协作（HRC）在制造业中的应用越来越广泛。然而，由于语言障碍，与机器人的交互会给操作员带来心理压力和紧张感。为了解决这一问题，本研究提出了一种基于大规模语言模型（LLM）的人机协作装配框架，该框架能够实现自然语言交流，并在波动的生产环境中灵活处理任务和实时错误处理。

概述

本研究提出了一个使用大规模语言模型（LLM）的框架，以改善人机协作制造系统中的通信。在制造过程中，人类操作员要灵活应对动态情况，而机器人则要执行精确的重复性任务。然而，人类与机器人之间的沟通障碍阻碍了双方的协作。在这项研究中，我们提出了一个将自然语言语音命令整合到任务管理中的框架。一项装配任务案例研究表明，该框架可以处理自然语言输入并处理实时装配任务。研究结果表明，LLM 有潜力改善制造装配应用中的人机互动。

框架

本研究提出的框架旨在制造环境中的人机协作装配。该框架旨在促进装配过程中人类操作员与机器人之间的互动。

物理层

物理层根据虚拟层的数据实现人与机器人的交互。该层由三个主要部分组成：

人工指令：操作员通过语音指令控制机器人的动作。
机器人行为：机器人根据预先设定的任务执行某种行为。
传感器数据：传感器数据用于监控环境条件。通过这些数据，机器人可以根据工作空间的变化（如部件的位置和方向）调整动作。

如果在执行任务过程中检测到事件或错误，机器人会通过通信协议通知人类操作员；LLM 模块会将错误信息转换为自然语言信息，并通过语音合成技术传达给操作员。一旦操作员理解并对错误做出回应，机器人就会继续执行任务。

虚拟层

虚拟层具有促进人类指令与机器人行为之间交流的系统功能。该层由两个主要代理组成：

人类代理人：
人类代理将语音指令转换成文本，其格式机器人可以理解。代理使用语音识别模块将语音数据转换成文本，并通过通信模块向机器人发送指令和信息。
机器人代理：
机器人代理解释人类操作员发出的语音指令，并执行任务。这一过程由以下功能模块提供支持：

初始化模块：初始化机器人代理，提供基本操作指南和任务执行协议。它定义了机器人执行任务的能力，并制定了出错时向操作员求助的协议。
LLM 模块：LLM 将人类指令转换为任务，并根据上下文自动检测和建议下一个任务。它还能将任务控制模块的错误信息转换成自然语言，并传达给操作员。
传感器模块：处理来自传感器的数据并调整机器人的动作。例如，它能识别部件的位置和方向，并对机器人进行精确调整。
任务控制模块：执行任务并管理错误。验证传感器数据，并在发现错误时通过 LLM 模块通知操作员。

图 1：使用 LLM 的人机协同装配框架

人机协作装配工作流程

图 2 中的序列图展示了整个工作流程，描述了人机协同装配过程。图中显示了 LLM 模块如何处理来自人类操作员的语音命令，以指导机器人的行动。

首先，操作员发出语音指令，LLM 模块将语音指令转换为机器人的一系列离散任务 t。然后，机器人请求传感器数据以执行ti。如果数据有效，机器人就会继续执行分配的 ti。传感器模块通过将检测到的参数与预先定义的标准进行比较，来确定数据的有效性。

如果执行成功，则通过 LLM 模块向操作员发送完成信息Mc(ti)。

如果数据无效或ti中出现错误，机器人会通过 LLM 模块生成错误信息Mei(ti)，告知人类操作员子任务tic+1中的具体错误及其发生情况，以便有效解决。在人类操作员识别并纠正错误后，人类操作员会向机器人发出新的指令。

然后，机器人根据新的传感器数据，从中断的子任务tic+1开始，在ti处重新开始执行任务。如此反复，直至ti完成。

图 2：制造系统中的人机协同装配序列图

案例研究

在本研究中，建议的框架被集成到制造装配系统中，并应用于电缆鲨鱼产品的装配操作。本案例研究旨在证明该框架的有效性。

LLM 和 ASR 模块

本节将介绍如何在系统中实现 LLM 和 ASR 模块。通信方面由 OpenAI 的语音识别模型 "whisper1 "和语音合成模型 "ts-1 "实现。这可确保将人类语音指令准确转换为文本，并以机器人能够理解的形式进行回复；LLM 模块使用 OpenAI 预先训练好的 GPT-4.0 将人类指令转换为任务，然后由机器人执行。

传感器模块：视觉系统

传感器模块包含一个视觉系统。该系统提供装配过程中的环境数据，并反馈给任务控制模块。YOLOv5 模型用于物体检测，定制模型则使用单个部件（如外壳、楔形件、弹簧、端盖）的图像数据集进行训练。图 4 显示了视觉系统如何提取特征。该系统可识别部件的位置和方向，并协助进行精确的装配操作。

图 4：视觉系统的特征提取方法

任务控制模块：装配任务

任务控制模块执行 LLM 指示的任务，解释人类指令并处理错误。它验证传感器数据，如果数据有效，则继续执行任务；如果数据无效，则通过 LLM 模块通知操作员错误详情。图 5 展示了缆鲨装配过程。

图 5：缆鲨装配流程

案例研究结果

所提出的框架已集成到电缆鲨鱼装配系统中。操作员通过语音指令与机器人互动，执行装配任务。在情景 1 中，机器人会检测到重叠的部件，并请求人工干预。在情景 2 中，当楔形部件组装不正确时，机器人会停止，需要人工纠正。在情景 3 中，机器人检测到缺少一个弹簧部件，需要人类操作员放置该部件。表 1 显示了每项任务指令的语言变体。表 2 显示了每个场景中语言变体的成功率。

图 6：各方案的个案研究传播结果

表 1：任务指令的语言差异

表 2：语言变体的成功率

案例研究讨论和局限性

本案例研究评估了 LLM 集成如何提高人机协作的效率和灵活性。结果显示，指令越具体，机器人的表现就越好。例如，模糊指令 "已更正，请继续操作 "由于缺乏上下文和明确的任务参考而失败。这一结果表明了建议框架的局限性和改进空间。

结论和未来的挑战

大型语言模型（LLMs）的开发使人机协作装配中基于环境数据的运动执行和协作成为可能；通过集成 LLMs，机器人可以更好地理解人类操作员的指令，解决错误并利用环境反馈来改进执行。通过集成 LLM，机器人可以更好地理解人类操作员的指令，解决错误并利用环境反馈来改进执行。在这项研究中，集成了 LLM，以便对制造环境中的任务变化做出动态响应。

为了应对人类与机器人合作装配的挑战，本研究特别关注以下几个方面：

开发无需对机器人进行大量培训的通信系统（C1）
提高应对变化和错误的灵活性（C2）
将先进技术与以人为本的设计相结合，提高易用性 (C3)

Cable Shark 设备的组装过程被用来验证该框架的有效性，并通过语音命令实现直观的人机交流；通过集成 LLM、传感器和任务控制机制，该框架可动态响应任务变化和错误；通过集成 LLM、传感器和任务控制机制，该框架可用于控制机器人的工作流程、在保持生产率的同时，确保工作流程的连续性。

至于未来的任务，公司计划在真实的工业条件下测试该框架。这将包括操作员的多样性和制造环境的不同条件（如噪音、灰尘、亮度）。他们还计划提供有关机器人任务的各种数据和传感器信息，以提高基于 LLM 框架的适应性，改善任务的灵活性、安全性和处理意外错误的能力。此外，它还将致力于通过结合触觉和手势等多模式策略来改进人机交互。

本文原文来自arXiv