异构多机器人协作能够突破单个机器人性能的限制,实现团队合作与优势互补,在办公/家庭服务、安防巡检、星际探索以及军事攻防等自动化、无人化任务中具有重要意义。然而,传统的多智能体协作方法通常依赖于精细建模,难以应对复杂动态环境,且无法理解和处理自然语言任务描述。
为解决上述问题,AIRS智能控制中心冀晓强教授团队提出了国际首个用于大语言模型(LLM)微调的异构多机器人协作控制数据集MultiPlan,以及错误诊断指标MRED。MultiPlan基于自然语言任务描述框架定义了任务内容、环境描述和动作规划,结合机器人底层SDK,提供了简洁且可部署的智能协作方案。与传统方法相比,微调后的7B参数规模模型在复杂任务的规划及控制能力上实现了对GPT-4o等闭源大模型的显著超越。MultiPlan数据集涵盖100个常见室内外生活场景,通过模板生成与人工复核的数据流水线,确保了数据的泛化性和多样性。在现实世界中的实验验证进一步体现了本研究的实际应用价值:分别在办公室服务和城市街道清洁两个场景中进行部署,证明了方法的有效性和鲁棒性。
期刊介绍
Journal of Field Robotics(JFR)是机器人学领域的顶级期刊之一,致力于发表面向真实世界应用的前沿研究,强调理论研究与实际工程应用的紧密结合,特别关注机器人在复杂场景和真实任务中的实际部署与表现。JFR在国际机器人学领域享有极高声誉,对论文的创新性、工程实践价值和技术细节的完整性要求严格。
本论文被该期刊专题特刊 “Embodied Artificial Intelligence for Field Robots”接收,该特刊聚焦于将人工智能与物理实体深度融合的前沿研究,旨在探讨具身智能在复杂真实环境中提升机器人自主性和适应性的最新进展。
研究介绍
Embodied Artificial Intelligence(EAI)作为一种新兴范式,将人工智能与物理实体深度结合,以实现机器人在复杂环境中的动态感知、交互和学习能力。相比于传统的单机器人系统,异构多机器人系统(HMRS)在工业自动化和灾害救援等任务中展现了更高效的任务执行能力。然而,现有的多机器人任务规划方法,包括共识算法、行为驱动方法和强化学习策略,普遍存在适应性不足、难以应对动态环境和复杂协作问题的局限性。基于此,本研究提出了一种将大语言模型(LLM)与EAI相结合的多机器人协作规划控制方法,通过自然语言接口实现直观灵活的任务描述,并利用LLM的广泛知识和上下文理解能力解决传统方法的不足。
图1. 异构多机器人系统通过优势互补拓展了单机器人系统的能力
在方法上,本文设计了一种可扩展的自然语言描述框架,将异构多机器人任务转化为可量化的语言指令,从而有效提升任务的物理语义对齐能力。基于该框架,本文构建了首个面向LLM的多机器人任务规划数据集——MultiPlan,为LLM在多机器人系统中的任务规划和协作提供了全面且多样化的场景支持。此外,为评估LLM的规划性能,本文提出了多机器人协作错误诊断评估(MRED)指标,能够细粒度地识别和量化任务执行中的错误。最后,通过对LLM的监督微调,本文验证了其在复杂任务场景下的泛化能力,并进行了室内外实地测试,包括办公室服务和城市街道清洁任务,验证了模型的实际应用能力和鲁棒性。
图2. 本文进行的部署测试示意图:办公室服务任务和城市街道清洁任务
之后,通过对LLM的监督微调,本文验证了其在复杂任务场景下的泛化能力,并进行了室内外实地测试,包括办公室服务和城市街道清洁任务,验证了模型的实际应用能力和鲁棒性。
研究贡献
本文的主要贡献是:
提出了一种面向异构多机器人任务的可扩展自然语言描述框架,有效解决了抽象语言指令与物理执行之间的鸿沟。构建了涵盖100个常见场景的大规模高质量大模型微调数据集--MultiPlan数据集。提出的MRED评估指标能够系统性的对任务规划的错误进行诊断。MultiPlan数据集和MRED评估指标不仅填补了LLM在多机器人任务规划领域的研究空白,还为进一步研究提供了高质量的基准。作者简介
本文通讯作者为AIRS智能控制中心主任、香港中文大学(深圳)研究助理教授冀晓强。冀晓强教授,香港中文大学(深圳)理工学院研究助理教授,兼任深圳市人工智能与机器人研究院智能控制中心主任,并担任中国仿真学会智能物联专委会委员等。冀晓强教授在美国哥伦比亚大学获得博士学位,主要研究方向为智能控制系统,主持多项科研及人才项目,至今在Automatica、Journal of Field Robotics(JFR)、IEEE/ASME T-Mech、T-ASE、Information Fusion、RA-L、CDC、ICRA等顶尖国际期刊及会议发表论文四十余篇。在非最小相位系统方面,是该领域全球范围内学习控制设计的推动者之一。担任包括IEEE T-AC在内的多个顶级期刊及会议的审稿人、MECC副编辑、RCAR等国际会议领域主席,并于近期获得CINT优秀论文奖、ISUI最佳论文奖等。
本文第一作者为香港中文大学(深圳)计算机与信息工程专业硕士研究生万瀚文。万瀚文于2023年加入港中大(深圳)理工学院攻读硕士学位,主要研究方向为具身智能控制、大模型和强化学习控制等。目前在Journal of Field Robotics(JFR),EMNLP,ASC国际顶级期刊/会议发表论文,曾担任IROS、ICRA等机器人国际顶级会议审稿人。
* 相关信息由论文作者提供