酷应用

谷歌PaLM杀疯了，已从语言模型进化成机器人大脑？？

百家作者：大数据文摘 2022-09-23 13:50:50

大数据文摘授权转载自夕小瑶的卖萌屋

作者：天于刀刀

开篇小编想了解一下，有多少小伙伴和我一样在看完《复联》后对钢铁侠托尼的智能管家贾维斯非常眼馋，然后坚定了自己 all in 人工智能算法这条（不归）路的？

理想中：你是个成熟的 AI 管家，你应该自己学会在家洗衣做菜刷盘子，出门取快递，偶尔穿个机甲打打外星人，到时候记得拍张照，我朋友圈等着用。

现实中：“小爱同学，关灯！”“嘿，Siri。打开网抑云。”

目前业界成熟的落地方案中，大多数都选择将所谓的“智能管家”，也就是语音助手，或称聊天机器人，作为人类和虚拟空间的一个新的输入纽带。

例如一些之前需要人类主动打字搜索的简单问题，现在我们可以通过动动嘴唤醒助手来帮我在虚拟空间中进行检索。

那么有没有什么能够进一步影响到我们的现实生活的机器助手呢？谷歌最新的一项研究表明，也许就在不远的将来，我们可以真正做到动动嘴，指挥机器人帮我们做事啦。[1][2][3]

同样是使用语言模型处理输入产生输出，随着应用场景从虚拟空间来到现实空间，相对于目前已经有简单应用的虚拟管家来说，机器人面临着更多挑战。

首先是传统的自然语言理解（NLU）问题，往往机器只能够识别短文本的明确命令，对于较长的开放式问题可能就抓瞎了。

撰文的时候小编现场做了一个小实验，分别向 Siri 提出“打开网抑云，播放《听妈妈的话》”以及“今天是我母亲生日，你有什么推荐的音乐吗？”。

结果要么是“我没有找到相关应用”，或者是“你需要先订阅 Apple Music”。

从这个回答中可以看出，Siri 完全没有理解我的语义，表现不够智能。

（也许开通 Apple Music 会好一点？笑死）

其次，由于目前大模型生成结果的不确定性，往往输出的结果不一定是合理的。

引用原博客[2]的例子，例如你输入“我不小心把水碰翻了，你能帮帮我吗？”，GPT-3 的回复是“你可以试试真空吸尘器” [4]。这是一个正确的建议，可是万一我家里没有吸尘器怎么办？

另外当问 FLAN [5] 同样的问题，他会使用“对不起，我不是故意的”来道歉，这不是一个有用的回复。

小结一下，目前的难点在于：

只能接受短文本 (very short) 和明确命令 (hard-code command)，不接受长链命令 (long-horizon tasks)和虚拟目标 (abstract goals)；
LM 输出结果可行性较差，且不可控。

因此，谷歌的研究团队想到，能不能使用一种有效的方法来结合语言模型和机器人学习算法的优点，去实现一个落地的“贾维斯”。

那么有没有这样一个语言模型，他既能够理解上下文语义，也可以处理长文本，如果能表现出一定的逻辑能力那就最好不过啦。

还记得 PaLM [6] 吗？能理解上下文语义，通过 emoji 猜测电源名，甚至可以解释笑话的 PaLM，同时也在思维链提示任务中表现出彩。

光是能让机器人能接受复杂命令还不够，此外最重要的还是能让它选择一个最贴近现实的选择作为输出。这个性质在机器人问题中被称为可供性 (affordance)。

根据维基百科的定义，在物体的抓取和操纵中，机器人需要学习环境中物体的可供性，即从视觉感知和经验中学习：

物体是否可以被操纵；
学习如何抓取物体，以及；
学习如何操纵物体以达到特定目标。

例如，原则上可以通过多种手部姿势和接近策略来抓住锤子，但有效接触点的集合及其相关的最佳抓握力是有限的。

研究团队使用可供性方程 (affordance function) 来控制机器人在一个特定环境中去选择一个可行的方案。

最终将语言模型 (Say) 和可供性方程 (Can) 相结合，就得到了一个新的解决方案：PaLM-SayCan。

使用 PaLM-SayCan，机器人充当语言模型的“手和眼睛”，而语言模型提供有关任务的高级语义知识。

具体来说，语言模型会根据人机对话的输入生成建议 (Say)，而机器人本身也会根据现实情况产生一个行为 (Can)，通过融合我们自然得到了一个最合理的行动计划。

博客[2]中还通过 demo 视频[7]展示了 PaLM-SayCan 系统的可解释性。

我们可以看到它根据语言分数（蓝色）、可供性分数（红色）和综合分数（绿色）来考虑最佳选项。

这套方案极大地提升了模型的可解释性，同时看起来也是一个非常通用的解决方案。

能够想到，除了实验中的“厨房”场景外，我们可以轻易地将这套方案应用到客厅、卧室、卫生间，甚至是办公室等其他封闭场景中。

此外，原实验中还有个和我们搞 AI+互联网/软件/金融/等不太一样的地方在于，他的评价指标有两个：

计划成功率，表示机器人是否选择了正确的指令；
执行成功率，表示它是否成功执行了指令。

结果表明，使用 PaLM 的系统取得了 sota，同时也证明了语言模型对机器人技术的改进效果。

在未来，谷歌团队也会继续探索如何更好地驾驭语言模型并且使其更加紧密地和其他领域联系在一起。

不过我还是想吐槽一下，目前放出的 demo 视频里，机器人的表现非常呆板，在进行一些精密操纵的时候（例如拿起一个苹果）往往速度非常慢，视频里好多都是经过五倍速快进剪辑的效果。

此外他的一些行为选择也有限制，例如在视频中，机器人正确地拿着海绵来到了不干净的台面。

正当我以为他下一个动作就是帮你擦桌子的时候，研究人员站起身接过了海绵，轻轻地拍了拍机器人的头，然后擦起了桌子。

搞了半天最后机器人只是帮人类跑了一次腿罢了！看来仿生人的出现还是遥遥无期啊。

最后稍微扩展一下，小编一直在思考如果是在闲聊任务中，我们可不可以设计一个类似可供性分数的对话主线，辅助模型生成更连贯更有逻辑的输出？

如果机器最终实现了有主题有逻辑的对话，那么这个是否就算是智能的体现呢？

欢迎一同探讨，若有相关论文也可推荐交流！

参考文献：

[1] Do As I Can, Not As I Say: Grounding Language in Robotic Affordances, https://arxiv.org/pdf/2204.01691.pdf

[2] Towards Helpful Robots: Grounding Language in Robotic Affordances，https://ai.googleblog.com/2022/08/towards-helpful-robots-grounding.html

[3] Grounding language in robotic affordances, https://www.youtube.com/watch?v=E2R1D8RzOlM

[4] Language Models are Few-Shot Learners, https://arxiv.org/abs/2005.14165

[5] Introducing FLAN: More generalizable Language Models with Instruction Fine-Tuning, https://ai.googleblog.com/2021/10/introducing-flan-more-generalizable.html

[6] Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance, https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-to.html

[7] PaLM-SayCan is also interpretable, https://github.com/say-can/say-can.github.io/blob/main/img/demo_sequence_compressed.mp4?raw=true