胡洁教授团队提出具身智能和多模态大模型赋能,开辟智能制造新路径
发布时间:2025-06-13   阅读:134

上海交大williamhill威廉希尔官网机电设计与知识工程研究所胡洁教授、戚进副研究员团队联合香港理工大学、复旦大学、瑞典皇家理工学院等单位,在Robotics and Computer-Integrated Manufacturing发表论文“Empowering Natural Human–Robot Collaboration through Multimodal Language Models and Spatial Intelligence: Pathways and Perspectives”,首次将人机协作、多模态大模型与具身智能整合为统一研究框架,为探索人机共生及制造业场景提供了新路径。博士生武对娣为第一作者,加拿大工程院院士、JMS及RCIM主编Lihui WANG 教授,香港理工大学郑湃教授为共同作者;胡洁教授、戚进副研究员为共同通讯作者。


确认1.png


确认2.png


在工业 5.0 倡导的以人为中心的智能制造背景下,人机协作的智能化需求日益凸显,而多模态大语言模型与具身智能的快速发展为其带来了前所未有的演进机遇。然而,现有研究普遍针对日常和通用任务,在制造和工业领域的专家模型方面仍面临一定挑战。本研究发挥多学科融合优势,面向实际工程需求,旨在以自然语言作为支点、以具身智能作为突破,由“人-计算机”交互智能迈向“人-机器人”技能迁移,实现“少样本、快速学习”和“低成本、一机多能”。


确认3.png


该论文以语言为枢纽连接人类与大模型,系统梳理了人-信息-物理系统(HCPS)中“感知、认知、执行”的前沿方法,为构建自然人机协作系统提供系统性路径。首先剖析了模型演进脉络,从基础模型到视觉-语言-动作模型,深入探讨了 “交互-协作-共生” 的人机关系演进,同时明确了 “单一-通用-专用” 的算法设计路线,总结分析了 “空间-物理-具身” 智能的耦合关联。该论文提供了具身智能数据集和基准,以及构建特定任务仿真平台以实现空间技能学习的方法,建立起多维度理论基础。


确认4.png


针对工业场景中的实际挑战,论文从 “Why”、“How”、“What”、“Where”四个维度展开讨论。语言作为桥梁可打破语义壁垒、提升机器人自主性,而 “视觉-语言-运动” 融合范式能有效兼顾模型推理能力与物理世界动态约束。此外,论文还展望了数字表亲、增强现实等技术在产品生命周期、智能制造和脑机接口等场景中的潜力。 论文相关资源已公开至 GitHub(https://github.com/WuDuidi/MLLM-HRC-Survey)。本研究为学术界提供了跨领域的研究框架,为以人为中心的工业智能化开辟了多元应用方向。


论文链接:https://doi.org/10.1016/j.rcim.2025.103064



供稿:机电设计与知识工程研究所