杏彩体育人工智能又上新了!我国这一通用具身智能平台今天发布
杏彩体育机器人创新中心——北京人形机器人创新中心发布了全球首个“一脑多能”“一脑多机”的通用具身智能平台“慧思开物”。
传统的机器人软件系统的开发,大多是针对同一个任务、单一场景来开发的,比如送餐机器人只会送餐,不会干程序以外的事儿。但这套具身智能平台,颠覆了传统机器人软件开发的模式,具备在不同场景和不同机器人上使用的通用性,简单说就是让机器人的硬件身体有了一个聪明的“大脑”,还能通过靠谱的“小脑”干各种不同的活儿。“慧思开物”究竟是什么,有了哪些新的能力?即刻揭秘↓↓↓
在发布会现场,北京人形机器人创新中心团队用直播的形式,公开展示了“慧思开物”平台的能力。“慧思开物”能够实现从任务理解到执行的全流程智能化,具备处理多场景复杂任务的泛化能力。
首次实现了单个软件系统在机械臂、轮式机器人、人形机器人等多构型本体上的兼容,能够适应多样化的应用场景和任务,为具身智能机器人提供强大的感知、决策与执行能力。
我们可以为某个垂直行业去提供一个全套的解决方案,也就是天工机器人加上“慧思开物”平台,它就可以在某种程度上闭环完成用户需要它去完成的任务,我们这个平台也可以以一种独立的形式存在,机器人应用开发商或者是系统集成商可以使用这个平台,在市场上选购一款机器人,通过简单配置以及简单的自然语言的描述,或者当有一些复杂任务需要一些编程,就可以让这样一个机器人去物理世界完成相应的任务。
就在近期,优必选工厂内,大批机器人集体进厂,开展训练,结合的就是通用具身智能平台“慧思开物”的能力,通过将机器人接入这个具身智能平台,机器人不仅可以有聪明的大脑去拆解任务、调动小脑来执行任务,还可以进行互相的协作,可以真正推动智能机器人从单一任务执行跃升至复杂环境下的自主决策与执行。
把最新发布的通用具身智能平台“慧思开物”接入机器人,会给机器人带来哪些类人的能力?记者第一时间进行了互动体验。
这里有一个工业分拣机器人,只要跟它通过一些简单的语音互动,就可以来去操控这样一个机器人为活了。给它设置一个多步骤的任务,看看能不能实现。在手机页面中,同步可以看到机器人的视角,它正在进行这些操作,全流程都是可视化的,我们看到它显示任务执行成功。这些操作的实现就是因为机器人拥有了一个非常智慧的“大脑”,同时有灵活的“小脑”来配合“大脑”共同完成任务。
“天工”的空间理解能力和对物品的精细操控能力如何?记者在它面前随机用积木搭出了一个形状,“天工”成功复现。
在居家场景中,正在整理桌面的机器人,则展示出了它面对外部干扰,能不断纠错,自主实现任务目标的执行能力。面对记者的“捣乱”测试,机器人仍旧顺利完成目标任务。
机器人还展示了它处理长程任务的能力,同时还搭配上了新装备——灵巧手来共同完成。扫码、放入物品、打包、粘贴信息条、放入生产线等一系列动作,连贯完成,无需人为控制。
“天工”机器人加上“慧思开物”通用具身智能平台,天工、开物两者相结合,让具身智能机器人拥有了类似人类拥有的能力。机器人具备智能的能力,并能自主执行任务,离不开“通用智能平台”技术的发展。机器人是怎么学到这些能力、变得越来越智能的?又是怎么指挥自己去完成这些动作的?
机器人智能体是如何炼成的?“慧思开物”平台是由AI大模型驱动的任务规划具身“大脑”以及数据驱动的具身“小脑”构成的,其中,具身“大脑”具备自然交互、空间感知、意图理解、分层规划和错误反思等能力,由具身“大脑”进行任务规划,再调用具身“小脑”技能库执行具体动作,并将执行反馈传递给具身“大脑”,形成任务闭环。
整个“慧思开物”平台,其实它不是一个智能体,而是一个分布式的多智能体杏彩体育。比方说用户提出一个指令说给我烤一片面包,那么它要把这样的一个任务拆解成多个子任务,这个任务就可以被拆解成拿起面包、放到面包机里、摁一下按钮、等待、拿出面包、放到盘子里这样6个子任务来完成,每一项子任务都会对应一个技能。
以创新中心大量机器人模仿学习的高质量数据为基础,机器人技能库里已经上线多个技能,它们可以帮助机器人理解并执行动作,完成任务。
刚才提到的打开、关上、拿起、放下、拉出、旋转,这都是一个技能。我们正在丰富技能库,目前大概有30种比较常用的技能,到今年年底,整个技能库大概会有100种技能,基本上可以覆盖物理世界的绝大部分任务。
这样的大模型安装到机器人身上吗?机器人、机器狗都算是具身智能吗?具身智能能帮我们干什么?记者采访了研究人工智能和机器人的专家,帮我们答疑解惑。
具身智能实际上是让智能算法拥有自己的机器人身体,从而更深刻地理解物理世界规则的一种方法。这种更深入的理解让它在我们的生产生活各种场景的作业能力可以更强。
具身智能不仅仅是把大模型这类人工智能算法安装在电脑的硬件上面,以机器人作为一个载体那么简单。跟DeepSeek、ChatGPT这种语言模型或者离身智能最大的区别是什么?离身智能主要是通过语言、文本、图像作为数据支撑,现在具身智能有了自己的身体之后,它就可以通过自己的交互、体会,用更多的模态和传感器来理解外部世界。