GPT4多模态预期落空，关于AIGC还有什么值得畅想？

自ChatGPT走红以来，市场不乏追捧、跟风、质疑等等各类声音。ChatGPT背后的语言模型——GPT的技术进展，也成为了市场关注的焦点。各方对GPT4的猜测不断。在A股市场上，各类预期概念炒作也层出不穷。

目前来看，纯文本交流已逐渐无法满足公众对于人工智能的期待，多模态（包含文本、图像、视频处理）是最受关注的技术变革方向。

而多模态大模型究竟何时到来？GPT4到底有什么更新？就此，《科创板日报》整理了目前已知的GPT4爆料、多模态大模型相关资料等。

(资料图片仅供参考)

GPT4多模态预期落空 Kosmos-1横空出世

国盛证券、天风证券等机构曾认为，GPT4可能是一个多模态模型，可用于图像等领域，有望极大刺激视频处理的需求。自多模态传闻兴起后，ChatGPT相关概念股也纷纷冲高。其中，当虹科技（688039.SH）在4个交易日（2月27日-3月2日）内累计涨幅超过50%。

但据Forbes、CAMBIO等外媒报道，OpenAI创始人Sam Altman否认了多模态的可能性，GPT4仍然是纯文本模式。基于此，Cambrian AI的分析师Alberto Romero猜测，在跳到下一代多模态人工智能之前，OpenAI试图通过对模型和数据集大小等因素进行调整来达到语言模型的极限。

而承载了公众对于多模态人工智能的期望的，是另一个语言模型——Kosmos-1。据ZDNET等外媒报道，微软近日推出的多模态大型语言模型Kosmos-1，可以处理文本、音频、图像和视频等内容。

图片来源于微软

微软表示，用于训练Kosmos-1资料同样源自网络。为了让Kosmos-1能进一步理解图像内容，研究人员事先将图像以文字内容加上大量标记，让Kosmos-1能够进一步理解图像内容，藉此实现多模态运作。

相关研究人员在学术论文中写道：“作为智能的基本组成部分，多模态感知是实现人工智能的必要条件。”加入图像内容理解能力之后，Kosmos-1不仅能够识别文字以外的图像内容，甚至能进一步判断视频内容。

有关GPT4的一切

多模态、参数量暴涨、革命性突破、与人类无异……公众对GPT4加诸了许多想象，并翘首以盼它的到来。在A股市场上，ChatGPT各类概念炒作也层出不穷。

与多模态一样，参数量暴涨一事同样被创始人Sam Altman否定。Altman称，GPT4并没有数千、数万亿个参数要训练，其参数量并不会比GPT3高出太多，因为研发的重心在如何提升数据利用效率上。此前有市场传闻称，GPT4参数量或有指数级暴涨，达到100万亿个。

据Forbes最新报道，有专家指出，同为大语言模型的Megatron 3所用的参数比GPT3多很多，但前者的测试表现并没有超过后者，AI领域内，数据越多并不意味着越好。与此同时，提升算法效率有助于降低GPT4的运行成本。

不过值得一提的是，GPT4的编码能力或许更强大。据外媒ZDNET今年1月报道，OpenAI正积极招聘程序员，要求应聘者能用日常语言来描述代码的功能。基于此，业内普遍预测，GPT4的编码能力或将有新的突破，目前，微软和OpenAI共同开发的AI编程工具Github Copilot已经在使用微调后的GPT3，来将自然语言转换成代码。

发布时间上，OpenAI并未宣布GPT4的发布时间，但New York Times等一众外媒都认为，GPT4或将于2023年的某个时间点推出。Forbes推测，GPT4或将逐步公开。以GPT-3为例，一开始GPT-3主要开放给部分合作伙伴、付费用户和学术机构，在2022年底才开放给公众。GPT-4大概率将遵循同样的开放节奏。

目前，ChatGPT已经挑战产业对于AI的认知。天风证券认为，GPT4未来可能会是生成式AI时代的“报晓鸟”。未来，生成式AI可能成为人类思维的“大副”。全要素生产率在PC时代飞速增长，在互联网普及后（2005-2022）增长缓慢，生成式AI时代全要素生产率可能重新加速上升。

与此同时，多模态大模型让深度学习对个体的多层次理解成为可能，让“AI生成设计”到“AI生成产品”成为可能，而该市场或将比“AI生成内容”大很多倍。

关键词：