“文澜BriVL”模型设计者、人大教授卢志武:多模态大模型,我国弯道超车的可能性很大 | 36氪专访

采访 | 周鑫雨、苏建勋、杨轩

文| 周鑫雨


【资料图】

编辑| 苏建勋

想过河,但连一块石头都摸不着。这是2020年卢志武和中国人民大学高瓴人工智能学院团队自研多模态大模型时遇到的困境。

彼时,GPT-3已经发布,国内NLP(自然语言处理)领域的研究已逐渐形成规模。但将涉及领域从文字扩展到图像、视频的多模态大模型,依然几近“无人区”。

在一年多的时间里,团队做了许多“前无古人”的尝试。比如在2021年初,率先采用微软新推出的Deep Speed框架来支持几十亿参数模型的训练。在资源稀缺的情况下,“巧劲”也是必须的——为了减少显存占用,团队尝试性地采用了ViT(VisionTransformer)架构,还在自监督训练中采取了较小的Batch(分批处理)而不降低效果。

2021年3月,团队的无人区探索有了初步的成果:多模态大模型“文澜BriVL 1.0(Bridging-Vision-and-Language 1.0)”,后续还发布了 “文澜BriVL 2.0”。两年后,2023年3月8日,卢志武团队借鉴文澜的研究经验,自主研发了多模态对话大模型,并落地了第一款应用级多模态ChatGPT产品:“元乘象 ChatImg”。

“元乘象 ChatImg”好比是“会看图的ChatGPT”。据卢志武介绍,基于多模态融合模块和语言解码器,目前Chatlmg参数规模大概为150亿。用户输入一张图片,Chatlmg就能对其中的内容进行解读,并继续相关的对话。

元乘象 ChatImg图文交互演示。

从艰难穿越无人区到落地应用,卢志武认为,中国AI模型研究者不仅要精于技术,也要敢于拥抱新技术。同时,学者们也要认识到,从研究走向落地,仍需要跨过一些鸿沟。

以下是36氪和卢志武的对话:

穿越无人区

36氪:您为什么在3月8日这个时间点推出多模态大模型产品ChatImg?

卢志武:去年11月30日ChatGPT推出后,各方测评后都发现了现有研究范式将面临严峻的挑战。之前的NLP研究都是针对单任务去训练小模型,比如翻译、实体识别、情感分析等。但是ChatGPT出现后,一个大模型就可以完成所有的任务。所以,单独对每个任务进行研究失去了意义。

ChatGPT的发布对多模态方向的冲击相对少一点,毕竟ChatGPT的强项是在文本处理。但是当时我们也听到一些关于GPT-4想要做多模态的风声,因此也特别着急。所以团队赶紧用了大概2个月的时间去训练ChatImg,在3月8日这个时间点推出,比GPT-4和百度的文心一言更早。

36氪:按任务划分研究方向的模式是如何诞生的?

卢志武:NLP的研究其实有很长的历史,针对不同的细分领域,比如情感分析、实体识别、翻译,大家想的都是分开每个老师自己做,没有想过用一个方法把任务一统天下。

2020年GPT-3出来的时候,其实有点出乎大家的意料,用一个大模型就可以做多个任务。但是当时GPT-3的效果还没那么好,所以大家也没有重视。

36氪:研究方向的差异会造成研究方法的不同吗?

卢志武:差别太大了。比如说单独做翻译任务,我们只要专门去收集翻译数据,训练一个小模型,绝大部分高效的研究人员都能做这件事。但是大语言模型需要很多数据和算力,一般高校的老师就做不了,基本上被大厂垄断了。

36氪:在2020年GPT-3出来后,国内会不会有研究人员想做大模型,但是由于您刚才说的数据和算力等资源的限制无法做?

卢志武:其实2020年的时候,国内一些研究者已经意识到大模型的重要性,比如我们开始做多模态大模型,以及智源研究院的唐杰和刘知远教授,是国内最早做自然语言大模型的一批。

但国内主要缺的是算力,当然高质量数据也是一个难点。另外,在模型商业落地的过程当中,由于模型本身很大,推理过程消耗的算力就很多,成本太高了,可能要几十张卡才能部署起来,根本没法落地。所以2020年的时候大家做的基本是纯学术研究。

36氪:2020年的时候,团队和智源研究院合作,对方主要提供的也是算力资源?

卢志武:是的。大概在2021年初,我们组做文澜训练的过程中,最多的时候用了约400块A100,最后在算力上都花了3000万元。

36氪:在模型研发过程中团队还遇到过哪些困难?

卢志武:当时我们是国内最早一批做多模态大模型的,没有人告诉你怎么走,连模型怎么设计都不知道。最后我们用了大概半年的时间定了一个方案,慢慢用一小部分数据去测试,发现效果不错,就拿更大体量的数据去测试,最后直接上了6亿数据去训练,发现效果更好了。

设计路径我们也和OpenAI撞车了两次。一次在2021年1月,OpenAI发布了多模态模型CLIP,其实我们2020年也开始做了,最后是2021年3月发布了多模态大模型文澜BriVL 1.0。

当时学界其实会很强调图文数据之间的强相关,比如蛋糕的图片对应的是“蛋糕”,但人类在理解图片的时候,其实图文之间的相关性是比较弱的,比如蛋糕的图片也可以是“生日快乐”。所以当我们把图文之间的关系强调为一种弱相关,数据收集的成本就会大大降低。

这是一种思想上的突破,这点上我们和CLIP也是英雄所见略同。

另一次,就是我们在2023年3月8日发布ChatImg,早于OpenAI发布GPT-4。我们两次与OpenAI并跑,证明我们对多模态大模型的前沿方向一直有很好的眼光。

36氪:除了思想上的突破,团队还用了哪些“巧劲”?

卢志武:2021年3月后,我们就开始用6亿的图文对数据和400卡的算力,但当时其实没有一个好用的框架支持这么大的算力。刚好微软推出了Deep Speed框架,其实这是一个很不完善的框架,很多时候我们都是在调Bug。但是这个框架的优势在于能够支持更大算力的并行,把算力的利用率提高。最后调Bug花了一个月,训练模型花了一个月。

我们也是国内最早一批采用ViT(Vision Transformer)架构的,这个架构能够把多模态大模型的显存占用降下来。

产学,要跨过鸿沟

36氪:发布文澜后,团队有立刻受到企业关注吗?

卢志武:是有的。一家企业专门成立了团队研究文澜,我们也和几家企业达成了合作,帮他们研发应用到具体场景的大模型。

36氪:在企业做模型和在学校会有不同吗?

卢志武:其实对于普通教授来说很难承受,比如我们训练文澜模型时,所有学生一整年都没发论文,因为所有人的精力都投入到大模型训练上,全是一些工程相关的事,所以没有时间去写论文。

36氪:您觉得我国的AI人才储备在全球范围内处于什么水平?

卢志武:我觉得中国人的聪明程度完全没问题,只是说还是有一些系统上的难题,比如高校老师做大模型,就要在一定程度上放弃论文考核,顶住压力。

36氪:现在团队做成果转化是以人大高瓴学院为主要单位吗?

卢志武:其实会考虑两方面。一方面,模型训练仍然放在人大,因为在资源的争取上能够有更多的机会。但是从落地的角度而言,只能依靠企业形态,我们的开源研究成果也在学生高一钊成立的公司“智子引擎”进行一些商业化的落地。但光靠公司,又很难申请到相应的研究资源

36氪:会有企业向您抛来橄榄枝吗?

卢志武:也会有。但我们作为学者,还是希望能够独立,自己去决定研究方向

36氪:大模型的发展不是线性的,那是不是意味着我们有机会超越OpenAI?

卢志武:至少在多模态上,我觉得很有可能。目前OpenAI的GPT-4在多模态的理解和生成上还没有给出一个完美的解决方案。OpenAI在语言上做的太好了,但也会形成路径依赖,转向多模态并不是那么容易

36kr制图

关键词: