2024 年,人形机器人领域迎来爆发式增长。特斯拉 Optimus 的持续迭代、OpenAI 对 1X 的战略投资,众多初创公司异军突起,以及包括 Mobile ALOHA 在内学术界的不断创新,共同描绘出一幅激动人心的未来图景。
技术进步的浪潮固然令人振奋,但保持清醒和冷静,在开放探索的基础上,审慎选择符合时代需求和技术发展规律的路径,才是引领人形机器人走向成熟的关键。
本期机器之心《智者访谈》邀请到清华大学自动化系研究员、机器人控制实验室主任赵明国教授,从运动控制的视角看人形机器人发展。赵明国教授在机器人控制领域有二十多年的研究与实践,他认为当前人形机器人领域呈现出如春秋战国般多元化的发展态势,这既是蓬勃发展的象征,也潜藏着方向迷失的风险。
赵明国教授强调,「智能人形机器人」不能只是「智能」和「人形机器人」的简单叠加,而应当是一个全新的研究主题和技术范畴,需要机器人学和人工智能两个领域更深层次的融合,制造能够在复杂环境中自主适应和学习的智能体。
对大模型技术在机器人控制领域的应用,赵教授认为单纯依赖「大脑」解决运动控制问题并不合理。人类的运动控制是一个复杂的多层次系统,涉及本体反射、中枢控制和大脑控制等多个层面。我们需要更深入地研究生物系统的运动控制机理,重新思考机器人控制系统的架构,并探索更有效的学习和优化方法。
赵教授主张技术的先进性并不等同于实用性,只有与时代需求和经济发展相匹配的技术,才能真正落地生根,开花结果。例如,维纳控制论中的很多思想因为过于超前而未能对早期的计算机和人工智能起到重大的推动作用。
那么,究竟什么样的技术路线才能终胜出?人形机器人的未来又将如何演变?点击观看视频,让我们一同探索。
访谈文字整理
机器之心:赵明国教授好,非常高兴您做客机器之心的《智者访谈》。近年来,随着具身智能和大语言模型的迅速发展,公众对于如何实现智能机器人的讨论热度空前。今天我们很高兴能与您从运动控制的视角探讨人形机器人的发展前景。
谈及人形机器人,人们往往会联想到几家著名企业,比如专注于机器人运动控制和硬件设计的波士顿动力,以及凭借在人工智能和大数据方面的优势进军人形机器人领域的特斯拉。
赵明国:事实上,在波士顿动力之前,日本本田公司就已经在人形机器人领域做出了开创性的贡献。波士顿动力主要专注于提升机器人的运动控制能力,而特斯拉则依托其在自动驾驶技术和先进器件方面的优势,更多从制造业和供应链的角度切入,为人形机器人的发展带来了全新的思路。这种方法让许多人认为,如果未来机器人要实现大规模应用,特斯拉的路线可能更符合当前技术发展的趋势,因此也有不少企业选择追随特斯拉的发展路径。
然而,这并不意味着波士顿动力或本田的技术路线就失去了重要性。我认为这些不同路线都有其价值,因为技术的进步是一个渐进的过程,需要一代又一代的积累和发展。除了企业的努力,学术界也在不断提出新的理论和方法。目前,许多公司,包括一些创业团队,正在尝试将学术界的研究成果与本田、波士顿动力和特斯拉等公司的技术应用相结合,探索新的发展方向。
当前人形机器人领域的发展状况,可以比作春秋战国时期,虽然存在几个主流的技术路线,但更多呈现出百花齐放的局面。
01、白马非马:智能人形机器人不只是
智能与人形机器人的简单叠加
机器之心:众所周知,运动控制是建立在明确的运动学和力学原理基础之上,在数学和工程方面具有严谨性。相比之下,人工智能具备自适应和自学习能力,尤其在处理复杂问题时,AI 常能发现人类难以想到的解决方案。然而,这种特性也带来了可解释性的挑战。
波士顿动力的机器人在运动控制方面表现卓越,同时也展现了高度的智能。例如,配备机械臂的 Spot 机器人在物体识别和抓取方面表现出色。另一方面,以 AI 技术见长的特斯拉在硬件领域也投入了大量资源。您一直强调将运动控制与人工智能相结合的重要性,在发展人形机器人方面,我们可以从这些公司的实践中获得哪些启示?
赵明国:人形机器人与人工智能的结合可以采取多种方式。其中一种是两个领域各自发展,然后将各自的优势整合。但除此之外,还存在其他途径。以波士顿动力为例,他们曾强调专注于运动控制而不涉足人工智能,但实际上他们也运用了一些智能的方法。不过,他们的核心在于解决运动控制问题,如行走、奔跑和跳跃等,只不过在解决这些问题时,他们采用的方法可以是传统的运动控制技术,也可以是智能的方法。
同样,专注于人工智能的公司在解决智能问题时,也会使用机器人作为载体。例如,进行对话交互时,可以选择人形机器人,也可以选择智能音箱,这对智能本身的影响并不显著,核心问题在于能否实现顺畅的人机交互。
然而,要将人工智能与人形机器人真正深度融合,就像「白马非马」这个哲学命题一样,需要创造出一个全新的事物。智能人形机器人必然不同于传统意义上的智能系统,也不同于常规的人形机器人,而是一个更深层次融合后的独立存在。
我认为「具身智能」这个概念较为贴合这种场景。在这种情况下,我们期望机器人能展现出行为层面的智能,不仅能够在各种复杂地形上行走,还能在面对干扰时完成任务,表现出智能化的行为。例如,机器人应该能够避开障碍物,在动态环境中规划路径,比如开门这个典型案例,包括应对不同形状、不同类型的门,同时能制定策略绕过中间的障碍物,或者在有其他人同时开门时做出规避或让步等行为。在手部操作方面,这样的例子更为丰富,因为人类大部分操作都是通过手来完成的。
这是一个全新的研究主题——如何让机器人展现智能。这需要机器人学和人工智能两个领域进行更深层次的融合,而不仅仅是一个领域借用另一个领域的技术来提升自身。我们需要将两者有机结合,创造出一个全新的技术范畴。
机器之心:您的观点非常具有启发性,但似乎目前很少有人从这个角度来探讨这个问题。
赵明国:这实际上取决于不同的视角,我只是试图将问题阐述得更加清晰。无论采用何种方法,要开发出这种新型机器人,我们需要考虑几个关键。
首先是腿部的智能;其次是手部的智能,包括手指和手臂的智能,手臂负责运动,手指负责实际的抓取和操作。在进行手部操作时,腿部通常也在运动,这需要手足协调。除此之外,还有一些全身性的智能,如骑自行车、攀岩,以及前面提到的开门,这些活动强调全身的协调。从运动能力的角度来看,有些智能机器人可能更侧重于腿部功能,有些更注重手部功能,还有一些可能侧重全身运动,也可能是这三个领域的不同组合。
在早期阶段,我认为可以为这三个领域分别选取一些典型案例作为代表,用它们来推动技术发展,并作为标准测试平台。如果一个机器人能够完成特定任务,就意味着相关技术已经取得突破,能够实现某些功能了。我们可以从一个领域开始,逐步扩展到两个,终实现三个领域的突破,然后再考虑实际应用。
当然,也有团队选择直接从应用需求出发,通过反向推导来进行开发。目前业界还没有形成共识,各种方法都有人在尝试。但从基本的逻辑看,无非就是这三个领域的不同组合。
已点赞:214