利用大规模语言模型实现人机协作装配
利用大规模语言模型实现人机协作装配
随着机器人技术的快速发展,人机协作(HRC)在制造业中的应用越来越广泛。然而,由于语言障碍,与机器人的交互会给操作员带来心理压力和紧张感。为了解决这一问题,本研究提出了一种基于大规模语言模型(LLM)的人机协作装配框架,该框架能够实现自然语言交流,并在波动的生产环境中灵活处理任务和实时错误处理。
概述
本研究提出了一个使用大规模语言模型(LLM)的框架,以改善人机协作制造系统中的通信。在制造过程中,人类操作员要灵活应对动态情况,而机器人则要执行精确的重复性任务。然而,人类与机器人之间的沟通障碍阻碍了双方的协作。在这项研究中,我们提出了一个将自然语言语音命令整合到任务管理中的框架。一项装配任务案例研究表明,该框架可以处理自然语言输入并处理实时装配任务。研究结果表明,LLM 有潜力改善制造装配应用中的人机互动。
相关研究
为提高制造业的安全性和效率,人们开发了多种人机协作(HRC)方式。例如,Fernandez 等人开发了一种具有多传感器功能的双臂机器人系统,用于实现安全高效的协作。该系统集成了手势识别功能。Wei 等人还开发了一种利用 RGB-D 视频预测人类意图的深度学习方法。
此外,Liu 等人还开展了一项研究,通过整合语音命令、手部动作和肢体动作等不同模式来改进 HRC。这种方法使用深度学习模型进行语音命令识别,但并不关注上下文相关的交流。Wang 等人还采用了一种教学-学习模型,利用自然语言指令预测人类意图并促进协作。该模型使用自然语言进行多模态处理,但并不关注与语言多样性的交互。
之前的这些研究介绍了使用环境数据和自然语言的方法,以提高制造过程中人机协作装配的安全性和效率。然而,在人机协作装配方面,有效整合自然语言能力以处理上下文相关通信和语言多样性的研究还很有限。作者旨在整合基于 LLM 的方法,以改善人机交流。这种方法是将计算机视觉和 LLM 等现有技术结合起来的第一步,目的是在制造过程中利用人的灵活性和机器人的精确性。
框架
本研究提出的框架旨在制造环境中的人机协作装配。该框架旨在促进装配过程中人类操作员与机器人之间的互动。
物理层
物理层根据虚拟层的数据实现人与机器人的交互。该层由三个主要部分组成:
- 人工指令:操作员通过语音指令控制机器人的动作。
- 机器人行为:机器人根据预先设定的任务执行某种行为。
- 传感器数据:传感器数据用于监控环境条件。通过这些数据,机器人可以根据工作空间的变化(如部件的位置和方向)调整动作。
如果在执行任务过程中检测到事件或错误,机器人会通过通信协议通知人类操作员;LLM 模块会将错误信息转换为自然语言信息,并通过语音合成技术传达给操作员。一旦操作员理解并对错误做出回应,机器人就会继续执行任务。
虚拟层
虚拟层具有促进人类指令与机器人行为之间交流的系统功能。该层由两个主要代理组成:
人类代理人:
人类代理将语音指令转换成文本,其格式机器人可以理解。代理使用语音识别模块将语音数据转换成文本,并通过通信模块向机器人发送指令和信息。机器人代理:
机器人代理解释人类操作员发出的语音指令,并执行任务。这一过程由以下功能模块提供支持:
- 初始化模块:初始化机器人代理,提供基本操作指南和任务执行协议。它定义了机器人执行任务的能力,并制定了出错时向操作员求助的协议。
- LLM 模块:LLM 将人类指令转换为任务,并根据上下文自动检测和建议下一个任务。它还能将任务控制模块的错误信息转换成自然语言,并传达给操作员。
- 传感器模块:处理来自传感器的数据并调整机器人的动作。例如,它能识别部件的位置和方向,并对机器人进行精确调整。
- 任务控制模块:执行任务并管理错误。验证传感器数据,并在发现错误时通过 LLM 模块通知操作员。
图 1:使用 LLM 的人机协同装配框架
人机协作装配工作流程
图 2 中的序列图展示了整个工作流程,描述了人机协同装配过程。图中显示了 LLM 模块如何处理来自人类操作员的语音命令,以指导机器人的行动。
首先,操作员发出语音指令,LLM 模块将语音指令转换为机器人的一系列离散任务 t。然后,机器人请求传感器数据以执行ti。如果数据有效,机器人就会继续执行分配的 ti。传感器模块通过将检测到的参数与预先定义的标准进行比较,来确定数据的有效性。
如果执行成功,则通过 LLM 模块向操作员发送完成信息Mc(ti)。
如果数据无效或ti中出现错误,机器人会通过 LLM 模块生成错误信息Mei(ti),告知人类操作员子任务tic+1中的具体错误及其发生情况,以便有效解决。 在人类操作员识别并纠正错误后,人类操作员会向机器人发出新的指令。
然后,机器人根据新的传感器数据,从中断的子任务tic+1开始,在ti处重新开始执行任务。如此反复,直至ti完成。
图 2:制造系统中的人机协同装配序列图
案例研究
在本研究中,建议的框架被集成到制造装配系统中,并应用于电缆鲨鱼产品的装配操作。本案例研究旨在证明该框架的有效性。
LLM 和 ASR 模块
本节将介绍如何在系统中实现 LLM 和 ASR 模块。通信方面由 OpenAI 的语音识别模型 "whisper1 "和语音合成模型 "ts-1 "实现。这可确保将人类语音指令准确转换为文本,并以机器人能够理解的形式进行回复;LLM 模块使用 OpenAI 预先训练好的 GPT-4.0 将人类指令转换为任务,然后由机器人执行。
传感器模块:视觉系统
传感器模块包含一个视觉系统。该系统提供装配过程中的环境数据,并反馈给任务控制模块。YOLOv5 模型用于物体检测,定制模型则使用单个部件(如外壳、楔形件、弹簧、端盖)的图像数据集进行训练。图 4 显示了视觉系统如何提取特征。该系统可识别部件的位置和方向,并协助进行精确的装配操作。
图 4:视觉系统的特征提取方法
任务控制模块:装配任务
任务控制模块执行 LLM 指示的任务,解释人类指令并处理错误。它验证传感器数据,如果数据有效,则继续执行任务;如果数据无效,则通过 LLM 模块通知操作员错误详情。图 5 展示了缆鲨装配过程。
图 5:缆鲨装配流程
案例研究结果
所提出的框架已集成到电缆鲨鱼装配系统中。操作员通过语音指令与机器人互动,执行装配任务。在情景 1 中,机器人会检测到重叠的部件,并请求人工干预。在情景 2 中,当楔形部件组装不正确时,机器人会停止,需要人工纠正。在情景 3 中,机器人检测到缺少一个弹簧部件,需要人类操作员放置该部件。表 1 显示了每项任务指令的语言变体。表 2 显示了每个场景中语言变体的成功率。
图 6:各方案的个案研究传播结果
表 1:任务指令的语言差异
表 2:语言变体的成功率
案例研究讨论和局限性
本案例研究评估了 LLM 集成如何提高人机协作的效率和灵活性。结果显示,指令越具体,机器人的表现就越好。例如,模糊指令 "已更正,请继续操作 "由于缺乏上下文和明确的任务参考而失败。这一结果表明了建议框架的局限性和改进空间。
结论和未来的挑战
大型语言模型(LLMs)的开发使人机协作装配中基于环境数据的运动执行和协作成为可能;通过集成 LLMs,机器人可以更好地理解人类操作员的指令,解决错误并利用环境反馈来改进执行。通过集成 LLM,机器人可以更好地理解人类操作员的指令,解决错误并利用环境反馈来改进执行。在这项研究中,集成了 LLM,以便对制造环境中的任务变化做出动态响应。
为了应对人类与机器人合作装配的挑战,本研究特别关注以下几个方面:
- 开发无需对机器人进行大量培训的通信系统(C1)
- 提高应对变化和错误的灵活性(C2)
- 将先进技术与以人为本的设计相结合,提高易用性 (C3)
Cable Shark 设备的组装过程被用来验证该框架的有效性,并通过语音命令实现直观的人机交流;通过集成 LLM、传感器和任务控制机制,该框架可动态响应任务变化和错误;通过集成 LLM、传感器和任务控制机制,该框架可用于控制机器人的工作流程、在保持生产率的同时,确保工作流程的连续性。
至于未来的任务,公司计划在真实的工业条件下测试该框架。这将包括操作员的多样性和制造环境的不同条件(如噪音、灰尘、亮度)。他们还计划提供有关机器人任务的各种数据和传感器信息,以提高基于 LLM 框架的适应性,改善任务的灵活性、安全性和处理意外错误的能力。此外,它还将致力于通过结合触觉和手势等多模式策略来改进人机交互。
本文原文来自arXiv