当前关注：机器人的“GPT时刻”来了：当机器像人类一样学习

神译局是36氪旗下编译团队，关注科技、商业、职场、生活等领域，重点介绍国外的新技术、新观点、新风向。

(资料图片仅供参考)

编者按：人类的学习方式是，先学习理解基础知识和概念，然后在实践中达到融会贯通。而机器的学习方式是强化学习，通过奖励系统来识别对错，从而在训练中寻找到正确的模式。但这种学习方式的弊端在于缺乏灵活性，稍微改变一下场景，机器就失能了，因为它并没有“理解”。那么，如果先拿基础知识来对模型进行预训练会发生什么？实验证明，在这种情况下，机器会表现得更好。本文章来自编译，希望对您有所启发。

Jeffrey Fisher for Quanta Magazine

想象一下，你的邻居打电话来请求帮忙：能给我们的宠物兔子喂点胡萝卜片吗？你可能会想，这很简单。你可以想象到他们厨房的样子，即使你从未去过那里：冰箱里放着胡萝卜，抽屉里放着各种刀具。这是抽象的知识，你不知道邻居的胡萝卜和刀到底是什么样子的，但你心里会有一个大致的概念。

人工智能程序无法做到这一点。在你看来很容易的任务，对目前的算法来说是一项巨大的工程。

一个经过人工智能训练的机器人，可以在一个熟悉的厨房里找到一把特定的刀和胡萝卜，但在另一个厨房里，它将缺乏成功的抽象技能。华盛顿大学计算机科学专业的研究生维克多·钟（Victor Zhong）说，“它们不能对新环境进行泛化。机器之所以失败，是因为要学习的东西实在太多，要探索的空间也太大。”

问题是，这些机器人没有一个用来构建的概念基础。他们不知道刀或胡萝卜到底是什么，更不知道如何打开抽屉，选择一个胡萝卜并将其切成片。这种局限性在一定程度上是由于，许多高级人工智能系统都是通过一种名为“强化学习”的方法进行训练的，这种方法本质上是通过试错进行自我教育。经过强化学习训练的人工智能，可以在他们被训练的环境中很好地执行自身接受过训练的工作。但是如果改变工作或环境，这些系统往往会失效。

为了克服这一限制，计算机科学家已经开始教机器人一些重要的概念。这就像在使用新软件之前阅读手册一样：你可以在没有它的情况下尝试探索，但有了它你会学得更快。普林斯顿大学的计算机科学家卡瑟·纳史木汗（Karthik Narasimhan）说：“人类通过实践和阅读的结合来学习。我们希望机器也能做到这一点。”

钟和其他人的新研究表明，以这种方式启动学习模型可以在模拟环境中提高学习效率。这不仅能让算法学习得更快，还能引导它们掌握原本从未学过的技能。研究人员希望这些智能体成为多面手，能够学习从国际象棋、到购物、再到清洁的任何事情。随着展示用例变得越来越实用，科学家们认为这种方法甚至可能改变人类与机器人互动的方式。

“这是一个相当大的突破，”谷歌的机器人研究科学家布莱恩·伊切特（Brian Ichter）说，“在一年半的时间里，它取得了难以想象的进步。”

1. 稀少的奖励

乍一看，机器学习已经取得了显著的成功。大多数模型通常使用强化学习，在这种学习方式中，算法通过获得奖励来学习。它们一开始是完全无知的，但能通过试错获得知识。强化学习可以让人工智能轻松掌握简单的游戏。

以电子游戏《贪吃蛇》（Snake）为例，玩家在游戏中控制一条蛇，蛇在吃数字苹果之后会变长。你想让蛇吃到最多的苹果，同时呆在边界内，避免撞到自己越来越笨重的身体。这种明确的对错结果会给机器带来积极的反馈，所以足够多的尝试可以让它从“菜鸟”变成“高手”。

但假设规则改变了，玩家需要在更大的网格或三维空间中操作，那么虽然人类玩家可以快速适应，但机器不能，因为有两个关键的弱点。首先，更大的空间意味着蛇需要更长的时间才能找到苹果，当奖励变得稀少时，学习速度会呈指数级下降。其次，新的维度提供了全新的体验，强化学习很难推广到新的挑战。

穿着蓝色衬衫的维克多·钟（Victor Zhong）。维克多·钟通过先为机器灌输基本信息，来帮助机器学习概括理解其知识。图片来源：Matt Hagen

钟说，我们不需要屈服于这些障碍。“如果我们想让人工智能学会下棋，为什么需要从头开始训练一个模型呢？”这种方法效率低下。人工智能漫无目的地四处游荡，直到它偶然发现一个好的情况，比如将军。钟说，需要仔细的人为设计，让智能体知道一个好的情况意味着什么。

在一定程度上，这是因为机器在理解人类语言和破译图像方面遇到了困难。对于一个机器人来说，要完成基于视觉的任务，比如寻找和切胡萝卜，它必须知道胡萝卜是什么，物体的图像必须是“基于”对该物体是什么的基本理解。直到最近，还没有什么好的方法可以做到这一点，但是语言和图像处理速度和规模的迅速增长，使得这成为可能。

新的自然语言处理模型使机器能够从本质上学习单词和句子背后的含义，将它们与世界上的事物联系起来，而不仅仅是像数字字典那样存储一个简单（和有限）的含义。

计算机视觉也经历了类似的数字爆炸。大约在 2009 年，ImageNet 作为用于计算机视觉研究的注释图像数据库首次亮相。今天，它拥有超过 1400 万张物体和地点的图像。像 OpenAI 的 DALL-E 这样的程序，尽管没有确切的对比可以借鉴，却能根据命令生成新的图像，看起来像是人工制作的。

加州理工学院（California Institute of Technology）和英伟达公司（Nvidia）的计算机科学家阿尼玛·阿南德库马尔（Anima Anandkumar）表示，这表明机器现在只有获得足够的在线数据，才能真正了解世界。这表明他们可以像人类一样从概念中学习，并将其用于生成新的东西。她说：“我们现在正处在一个伟大的时刻。因为一旦有了生成的能力，我们可以做的事情就更多了。”

2. 游戏系统

像钟这样的研究人员认为，机器不必再在完全不知情的情况下进行探索了。有了复杂的语言模型，研究人员可以增加一个预训练步骤，让程序在尝试和错误之前从在线信息中学习。

为了测试这一想法，钟和他的同事们在五种不同的类似游戏的环境中，将预训练与传统的强化学习进行了比较。每个模拟环境都对机器提出了独特的挑战。其中一个要求机器操作三维厨房中的物品，另一个则要求机器通过阅读文本，来掌握打击怪物的精确行动顺序。但最复杂的环境是一个真实的游戏，即有 35 年历史的 NetHack，其目标是在一个复杂的地下城中找到一个护身符。

对于简单的设置，自动预训练意味着简单地建立重要的概念：这是胡萝卜，那是怪物。在 NetHack 中，机器通过观看人类玩家的游戏过程，使用人类玩家上传到互联网上的游戏指南进行训练。这些游戏过程甚至不需要那么好，机器只需要建立对人类行为的直觉。机器并不是要成为专家，而只需成为一名普通选手。它会通过观察来建立直觉：人类在特定场景下会做什么？机器将决定哪些行动是成功的，制定自己的胡萝卜和大棒。

“通过预训练，关于如何将语言描述与世界上正在发生的事情联系起来，我们形成了良好的先验，”钟说。智能体从一开始就能发挥得更好，并在随后的强化学习中学习得更快。

结果，经过预训练的智能体的表现，确实优于经过传统训练的智能体。“经过预训练的机器在这五种环境中都获得了全面的胜利，”钟说。较简单的环境只显示出轻微的优势，但在 NetHack 复杂的地下城中，机器的学习速度快了许多倍，达到了传统方法无法达到的技能水平。

身穿红裙的阿尼玛·阿南德库马尔（Anima Anandkumar）。阿南德库马尔说：“这种学习方式与标准的强化学习相比是一个巨大的飞跃。”图片来源：Monica Almeida for Quanta Magazine

阿南德库马尔的团队还对机器进行预培训，让它们更快地学习，在全球最畅销的视频游戏《我的世界》（Minecraft）上取得了重大进展。《我的世界》被称为“沙盒”游戏，这意味着它为玩家提供了一个几乎无限的空间，让他们在其中互动并创造新的世界。为成千上万的任务单独编程奖励功能是徒劳的，学不会这个游戏，所以该团队的模型（“MineDojo”）通过观看带字幕的游戏视频，来构建对游戏的理解，而无需规范良好的行为。

3. 超越游戏

游戏是展示“预训练模型可行”的好方法，但它们仍然是简化的世界。训练机器人应对现实世界的难度要大得多，因为现实世界的可能性几乎无穷无尽。“我们提出了一个问题：有没有介于两者之间的东西？”纳史木汗说。所以他决定尝试让机器在网上购物。

他的团队创建了 WebShop。“它基本上就像一个购物管家，” 纳史木汗说。用户可以这样说：“给我买一双 100 美元以下的白色耐克鞋，我希望评论说这双鞋对幼儿来说非常舒适。”接下来，程序就会找到并购买这双鞋。

就像钟和阿南库玛尔的游戏一样，WebShop 通过图像和文本训练来培养机器的直觉，只不过这次的训练内容是来自亚马逊的页面。“随着时间的推移，它会学会理解语言，并将其映射到需要在网站上采取的行动中。”

乍一看，购物管家似乎并没有那么超前。不过，虽然先进的聊天机器人可以帮你找到心仪的运动鞋，但像下订单这样的互动则需要完全不同的技能。尽管你床边的 Alexa 或 Google Home 音箱可以下订单，但它们依赖于执行预定任务的专有软件。WebShop 则以人类的方式浏览网页：通过阅读、输入和点击。

纳史木汗说：“这是向通用智能迈出的一步。”

卡瑟·纳史木汗（Karthik Narasimhan）说：“人类通过实践和阅读的结合来学习。我们希望机器也能做到这一点。”图片来源：David Kelly Crow/普林斯顿大学

当然，让机器人与现实世界互动有其自身的挑战性。以瓶子为例，你可以通过它的外观认出它，你知道它是用来储存液体的，你知道如何用手操作它。但真正的机器能把文字和图像变成复杂的运动智能吗？

卡瑟·纳史木汗与普林斯顿大学的机器人专家安如达·玛捷达（Anirudha Majumdar）合作，想找到答案。他们教机械臂操作以前从未见过的工具，并使用取自成功语言模型的描述性语言对其进行预训练。根据去年6月发布在预印本服务器 arxiv.org 上的结果，与通过传统探索学习的程序相比，该程序几乎在所有工具和动作上都学得更快，表现也更好。

工程师们在谷歌的机器人实验室建立了一个更加复杂的命令库，同样植根于情景构建预训练。“你需要考虑的可能性非常多，”谷歌机器人团队的研究科学家卡罗尔·豪斯曼（Karol Hausman）说，“所以我们要求语言模型为我们分解它。”

该团队使用了一个移动助手机器人，它有一个 7 关节的手臂。研究人员使用语言技能对其进行训练。对于任何给定的命令，比如“帮我清理溢出的饮料”，该程序会使用语言模型从 700 个训练过的动作库中提出动作建议，比如“抓起”纸巾、“捡起”瓶子，或“扔掉”瓶子。豪斯曼说，机器会承认自己的局限性，比如“我实际上没有能力将其清理干净，但我可以给你拿一块海绵。”该团队最近报告了这个名为 SayCan 项目的结果。

赋予机器人语言模型的另一个好处是，它能轻易理解同义词和其他语言。一个人说“扭转”，而另一个人说“旋转”，机器人都能听懂。谷歌的研究科学家夏飞说：“我们尝试过的最疯狂的事情是，它还能理解表情符号。”

4. 机器人正在学习进化

SayCan 可能是迄今为止最先进的基于语言学习的机器人展示。而且语言和图像模型也正在不断改进，创造出更好、更复杂的预训练技术。

但夏谨慎地克制着自己的兴奋。“有人半开玩笑地说，我们达到了‘机器人 GPT’时刻，”他说。他指的是能够理解大量人类命令的开创性语言模型，“实际上我们还没到那一步，还有很多东西有待探索。”

例如，这些模型可能会提供错误的答案或采取错误的行动，研究人员正试图了解这些问题。而且，尽管人类的身体直觉建立在童年玩玩具的基础上，但机器人仍然需要与现实世界的互动来发展这种直觉。

尽管如此，进展还是很快。越来越多的研究人员相信，更智能的机器人将是最终结果。纳史木汗追溯了机器的进化过程，“我们先有键盘和鼠标，然后是触摸屏，”他说，下一步是接地气的语言。你将与自己的电脑进行对话，问它某些问题的答案，或者让它帮你做一些事情。他说：“让机器人助理拥有超强能力的梦想还没有实现。但我认为这很快就会发生。”

译者：Jane

关键词：