生成式人工智能:一个充满创意的新世界
神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。
编者按:人与其他生物最大的区别,在于人会分析和创造,也就是具备高级思考能力。但是,最近十年在模型、算力和数据的共同推动下,人工智能先是慢慢开始擅长以各种识别(语音、图像等)为代表的分析型任务,在最近更是开始在创作出感性和美丽的东西方面崭露头角,这就是所谓的生成式人工智能。本文对这一趋势进行了剖析和展望。文章来自编译。
(资料图片仅供参考)
人类擅长分析事物。但机器甚至更强。机器可以分析一组数据,并找出其中存在的、适用大量用例的模式,不管这些用例是欺诈还是垃圾邮件检测,预测交付的 ETA (估计到达时间),或预测接下来要展示什么样的 TikTok 视频给你。它们在执行这些任务上正变得越来越聪明。这就是所谓的“分析人工智能”(Analytical AI)或传统人工智能。
但人类不仅擅长于分析事物——我们还擅长于创造。我们会写诗、能设计产品、开发游戏和编写代码。直到最近,在创造性的工作上,机器还没有机会与人类掰掰手腕——它们只能从事分析性的以及死记硬背的认知劳动。但是现在机器正在开始擅长创作出感性和美丽的东西。这个新类别被称为“生成式人工智能”(Generative AI),也就是说,机器正在生成新的东西,而不是分析已经存在的东西。
生成式人工智能不仅正在变得更快、更便宜,而且在某些情况下创作出来的东西甚至比人类做出来的还要好。从社交媒体到游戏,从广告到建筑,从编码到平面设计,从产品设计到法律,从市场营销到销售,每一个需要人类原创性工作的行业都面临着重塑。这些行业的部分职能可能会被生成式人工智能完全取代,而在人机协同带来的迭代得更频繁的创作循环的作用下,其他一些职能更有可能会蓬勃发展——但在广泛的终端市场上,生成式人工智能应该会释放出更好、更快、更便宜的创造力。我们的梦想是,生成式人工智能将把创作和知识工作的边际成本降为零,从而创造出极高的劳动生产率和经济价值——以及相应庞大的市值。
生成式人工智能涉及的领域——知识工作和创造性工作——牵涉到数十亿工人。生成式人工智能可以让这些工人的效率和/或创造力至少提高 10%:他们不仅能变得更快、更有效率,而且比以前能力更强。因此,生成式人工智能有产生数万亿美元经济价值的潜能。
为什么是现在?
生成式人工智能与更广泛的人工智能都有一样的“为什么是现在”:更好的模型、更多的数据、更多的计算。这一类别的人工智能的变化日新月异,我们甚至都无法全都捕捉下来,但概述其最近的历史,好将当下放在一个合适的背景下去理解是值得的。
第 1 波浪潮:小型模型主宰时期(2015 年之前)
5 年多前,小型模型被认为是理解语言“最先进”的模型。这些小型模型擅长分析任务,并被部署到从预测交货时间到欺诈分类的各种工作上。不过,对于通用的生成任务来说,它们的表现还不够好。生成与人类水平相当的文章或代码仍然是白日梦。
第 2 波浪潮:规模竞赛(2015 年至今)
Google Research 发表了一篇具有里程碑意义的论文(Attention is All You Need),里面描述了一种新的,用于自然语言理解的神经网络架构,叫做 transformers,它可以生成高质量的语言模型,同时该模型还具备了更高的可并行性对训练时间的要求明显减少。这些模型是小样本学习器,可以相对容易地针对特定领域进行定制化。
随着模型变得越来越大,其表现开始与人类水平相当,然后就会超越人类,这是必然的。
随着模型变得越来越大,其表现开始与人类水平相当,然后就会超越人类,这是必然的。从 2015 年到 2020 年,用于训练这些模型的计算量增加了 6 个数量级,在手写、语音和图像识别、阅读理解和语言理解方面的结果已经超过了人类的性能基准。 其中OpenAI 的GPT-3 脱颖而出:与GPT-2相比,GPT-3 模型的性能有了巨大飞跃,为大家在 Twitter 提供了从代码生成到讽刺笑话写作等任务的诱人演示。
尽管这些基础研究有了进展,但这些模型并不普遍。它们很庞大且很难跑起来(需要协调 GPU),没法让大家广泛访问(不可用或仅限封闭测试版),而且当作云服务使用的成本很高。尽管存在诸多限制,但最早的生成式人工智能应用已经开始加入竞争。
随着 AI 模型的规模越来越大,它们的表现已经开始超越主要的人类性能基准。
第 3 波浪潮:更好、更快、更便宜(2022 年及之后)
计算变得更便宜。新的技术,如扩散模型(diffusion models),降低了训练和运行推理所需的成本。研究界继续开发出更好的算法和更大的模型。开发者的访问权限从封闭测试版扩展到公开测试版,而且在某些情况下甚至是开源的。
对于一直没法访问 LLM (大型语言模型)的开发者来说,面向探索和应用开发的闸门现在已经打开。应用开始遍地开花。
用 MidJOURNEY 生成的插图
第四波浪潮:杀手级应用出现(现在)
随着平台层的巩固,模型继续变得更好/更快/更便宜,模型访问趋于免费和开源,应用层已经成熟,创造力已经蓄势待发。
就像移动设备通过 GPS、摄像头和移动连接等新功能释放了新型app的活力一样,我们预计这些大型模型将激发新一波的生成式人工智能应用。正如十年前移动的拐点为少数杀手级app打开了市场一样,我们预计生成式人工智能的杀手级应用也会出现。竞赛正在进行中。
就像移动设备通过 GPS、摄像头和移动连接等新功能释放了新型app的活力一样,我们预计这些大型模型将激发新一波的生成式人工智能应用。
市场格局
下面的示意图概述了将为每一类别提供支持的平台层以及可在其基础上开发的潜在应用类型。
生成式人工智能版图
模型
文本是进展最大的领域。不过,自然语言很难做到正确,而质量很重要。今天,这些模型已经非常擅长一般题材的短/中篇写作(但即便如此,一般也是用来迭代或作为初稿)。随着时间的推移,随着模型变得更好,应该可以预期会看到更高质量的输出、更长形式的内容和更好的垂直向内容的调优。
正如 GitHub 的 CoPilot 所表明的那样,代码生成可能在短期内对开发者的生产力产生重大影响。它还将让非开发者更容易获取代码的创造性使用。
生成是较新的现象,但现在已经获得了病毒式传播:在 Twitter 上分享的生成图像要比文字更有趣!我们正在看到具有不同审美风格的图像生成模型出现,以及用于编辑和修改生成图像的不同技术出现。
语音合成的出现已有一段时间(你好 Siri !),但消费者和企业应用正在变得越来越好。对于像电影和播客这样的高端应用而言,要想即时生成听起来没那么机械化,像人类发音的语音的门槛相当高。但就像图像一样,今天的模型为实用应用的进一步细化或最终输出提供了一个起点。
视频和 3D 模型在这条曲线上升得很快。大家对这些模型释放电影、游戏、VR、建筑和实体产品设计等大型创意市场的潜力感到兴奋。正如我们所说那样,研究机构正在发布基础的 3D 和视频模型。
其他领域:从音频和音乐到生物学和化学(生成蛋白质和分子,有人知道吗?),许多领域都在进行基础模型的研发。
下图说明了我们也许可以预期看到的基础模型的进展,以及相关应用成为可能的时间表。 2025 年及以后的情况只是猜测。
不同类型生成是人工智能应用的发展时间线预测。橙色为初次尝试,黄色为即将实现,绿色是应用的黄金时间
应用
以下是部分我们颇感兴奋的应用。但实际的应用远不止所列举的这些,创始人和开发者想象出来的创意应用让我们着迷。
文案:为了推动销售和营销策略以及提供客户支持,对个性化网络和电子邮件内容的需求在不断增长,这些都是语言模型的完美应用。措辞的简短形式和风格化,加上这些团队的时间和成本压力,应该会推动对自动化和增强解决方案的需求。
垂直向的写作助理:当今大多数写作助理都是水平型的;我们相信有机会针对特定的终端市场构开发出更好的生成应用,比如法律合同写作,剧本写作等。这里的产品差异化方向是针对特定工作流程对模型和UX模式进行微调。
代码生成:当前的应用让开发者如虎添翼,提高了他们的生产力:在安装了 GitHub Copilot 的项目里面,有近 40% 的代码都是这个代码助手生成的。但更大的机会也许是让消费者获得了编码的能力。学习如何给出提示可能会成为终极的高级编程语言。
生成艺术:艺术史与流行文化的整个世界现在都已经被编码进这些大型模型里,任何人都可以任意探索以前需要一生才能掌握的主题和风格。
游戏:做这一行的梦想是用自然语言创建可操纵的复杂场景或模型;要想到达那个最终状态可能还有很长一段路要走,但有些更直接的选项在短期内更为可行,比方说生成纹理和天空盒艺术(skybox art)。
媒体/广告:想象一下,如果可以将公司公司的工作自动化,针对消费者动态优化广告文案和创意,那会有多大的潜力。这里是多模态生成的绝佳机会,可以将销售信息与互补的视觉效果结合在一起。
设计:对数字和实体产品进行原型设计是一个劳动密集型的迭代过程。来自粗略草图和提示的高保真渲染已经成为现实。随着 3-D 模型变得可用,生成式设计过程将延伸到制造和生产——从文本到对象。你的下一个 iPhone 应用程序或运动鞋可能是由机器设计的。
社交媒体和数字社区:有没有用生成工具表达自我的新方式?随着消费者学会在公共场合创作,像 Midjourney 这样的新应用正在创造新的社交体验。
用 MidJOURNEY 生成的插图
生成式人工智能应用剖析
生成式人工智能应用会是什么样子?以下是一些预测。
智能及模型微调
生成式人工智能应用是基于 GPT-3 或 Stable Diffusion 等大型模型之上开发出来的。随着这些应用拿到了更多的用户数据,就可以对模型进行微调,从而:1)针对特定问题领域提高模型的质量/性能; 2) 降低模型规模/成本。
我们可以将生成式人工智能应用看作是 UI 层和位于大型通用模型“大大脑”(big brain)之上的“小大脑”(little brain)。
形态因子
如今,生成式人工智能应用主要作为现有软件生态体系的插件而存在。代码补全发生在你的 IDE 里;图像生成发生在 Figma 或 Photoshop 上;甚至 Discord 机器人也是将生成式人工智能注入到数字/社交社区的工具。
还有少量独立的生成式人工智能 web 应用,比方说用于文案写作的 Jasper 和 Copy.ai、用于视频编辑的 Runway 以及用于记笔记的 Mem。
插件可能是让应用发展起来的有效楔子,利用插件也许是一个很精明的办法,说不定能克服用户数据与模型质量的这个“先有鸡还是先有蛋”的问题(应用需要分发,从而获得足够多的使用来改进模型;但要想吸引用户,你需要一个好的模型)。我们已经看到这种分发策略在其他市场类别得到了回报,比方说消费者/社交领域。
交互范式
今天,大多数生成式人工智能的演示都是“一次性”(one-and-done)的:给出一个输入,机器就吐出一个输出,你可以保留这一输出,或者选择丢弃,然后再试一次。但模型的迭代性症状越来越强,也就是对输出可以修改、优化、升级以及派生出不同的生成结果。
现如今,生成式人工智能输出被当作原型或初稿使用。这类应用非常擅长提出多种不同的想法,从而让使创意过程得以继续进行(比方说,logo 或建筑设计的不同选项),而且它们还非常擅长就需要用户细化处理才能达到最终状态的初稿(比方说博客文章或代码自动完成)提出建议。部分在用户数据的支持下,随着模型变得越来越智能,我们应该可以预期这些草稿会变得越来越好,直到好到可用作最终产品。
持续的品类领导力
最好的生成式人工智能公司可以通过不断地推动用户参与/数据和模型性能这个飞轮的旋转来制造可持续的竞争优势。为了获胜,团队必须让这个飞轮转起来:1)实现出色的用户参与 → 2)将更多的用户参与转化为更好的模型性能(及时改进、模型微调、用户选择作为标记的训练数据)→ 3)用出色的模型性能来推动更多用户增长和参与。他们可能会进入特定的问题领域(比方说,代码、设计、游戏),而不是试图成为适用所有人的通用产品。他们可能会先深度集成到应用之中,去借势和分发,然后尝试用人工智能原生工作流替换现有的应用。用正确的方式开发这些应用,从而积累用户和数据需要时间,但我们相信最好的应用会具有持续性,而且有机会变得规模庞大。
阻碍与风险
尽管生成式人工智能很有潜力,但在商业模式和技术方面还有很多问题需要解决。关于版权、信任与安全以及成本等重要问题远未解决。
睁大眼睛
生成式人工智能前面的路还很长。平台层刚刚开始变好,但应用领域几乎还没有启动。
需要明确的是,我们不需要大型语言模型来写出一部托尔斯泰小说才能让生成式人工智能物尽其用。这些模型在今天已经足以写出博客文章的初稿,创作出 logo 以及产品界面的原型。中短期内可创造出大量价值。
第一波生成式人工智能应用类似 iPhone 刚问世时的移动 app 的环境——有点噱头,不太靠谱,竞争差异化和商业模式尚不明确。不过,其中一些应用让我们得以一窥未来可能会出现的情形。一旦你看到一台机器生成复杂的功能代码或精美的图像,就很难想象未来机器不会在我们的工作和创作的手段上发挥根本性的作用。
如果我们允许自己梦想一下几十年后的情形,那么很容易想象生成式人工智能会深度嵌入到我们的工作、创造和娱乐方式的未来:会自己写的备忘录;3D打印任何你能想象到的东西;将文字变成一部皮克斯电影;类似于 Roblox 那样的游戏体验,能够以我们想象的速度快速生成丰富的世界。虽然这些体验在今天看起来就像科幻小说一样,但发展的速度非常快——在几年之内,我们已经从狭义的语言模型发展到代码自动完成——如果这种变化速度得以延续,能遵循“大型模型的摩尔定律”的话,那么这些难以置信的场景也许就会进入可能性的领地。
PS:这篇文章是与 GPT-3 共同编写的。 当然,整篇文章不是都是由 GPT-3 生成的,但它负责对抗作家的文字,生成完整的句子和段落文本,并且为生成式人工智能头脑风暴出不同的用例。用 GPT-3 写这篇文章能让人很好地体验一把人机共同创作的交互,这可能会形成新常态。我们还用 Midjourney 为这篇文章制作了插图,不得不说,这很有趣!
译者:boxi。