环球百事通!掀起下一波音视频体验新风潮,声网如何做到?

1.厚积薄发,凤鸣AI引擎亮相

数字世界大门打开,人们通过各式各样的数字化工具探索生活、工作的新玩法和新可能。兴奋和便捷之余,不佳的体验和不稳定的工具也一直萦绕在身边——公共场合开电话会议噪音太大;在家k歌音质太差;千元机上语音网聊卡顿还耗电。一座座难关横亘在用户和数字化音视频产品之间。

作为全球实时互动云服务开创者,声网希望解决这些难题,助力用户体验迈上新的台阶。


【资料图】

3月23日,作为声网新一代音频技术智能引擎,磨砺四年的“凤鸣AI引擎”正式对外公开亮相,其囊括AI降噪、AI回声消除、空间音频、最佳音效,致力于为用户带来更纯净、更动听、更沉浸式的语音互动体验。

对于开发者而言,可以通过搭积木般灵活调用的方式,借力凤鸣AI引擎,为平台用户带来崭新的沉浸式体验。对每个使用数字化工具的个人而言,在凤鸣AI引擎支持下,不管是语聊社交、在线K歌还是线上会议、游戏竞技,在音质、降噪等方面,会拥有全新的体验。

凤鸣AI引擎背后,是声网过去多年技术和产品积累的成果。声网算法专家许冉指出:“凤鸣AI引擎代表声网在 RTC音频领域针对核心技术的长期投入和产出,以及声网基于音频核心能力衍生出各种复杂功能和高端效果的决心。”

基于“凤鸣AI引擎”的发布,声网也在试图将触角延展至更多的场景,为商业化空间探索新的可能。声网音频娱乐产品负责人杨帆谈道:“过去几年,线上场景层出不穷,作为音视频技术服务商,声网也在不断通过产品化的方式,探索海内外的多样场景,让实时互动随处可在。”

2.以用户为始,磨砺四年

凤鸣AI引擎的出生最早可以追溯到2019年。当时,正值线上平台发展的火热阶段,有几个客户向声网提出新的需求点——“年轻用户边走边在线聊天噪音太大,影响沟通,能不能改善体验提升用户在平台的活跃时长?”“在公共场合遇到紧急开会效果不佳,怎么样通过技术解决?”。

一贯重视用户反馈的声网意识到这是一个当下必须解决的问题。于是,公司开始探索如何改善用户体验的新方向。“当时,基于用户需求,我们从整个技术链路上游、中游、下游开始,逐步探索降噪、屏蔽回声、提高音质的新方法。”声网音频娱乐产品负责人杨帆告诉36氪,他坦言,这也是声网一直以来产品方法论的内核,从用户需求中发现问题并解决问题,基于此形成产品解决方案。

此后几年,随着用户对于音视频体验需求的逐步升级,声网将凤鸣AI引擎作为产品的核心方向持续跟进。过程中,根据用户的不断反馈,声网更加确信,用户对实时音视频体验的诉求已经从基础的“能够沟通”转变为注重体验质量的“脱离现实”和“极致拟真”。

这是声网洞察到的用户需求也是整个音视频领域对于数字化工具提出的新要求。过去几年,随着直播带货、线上交友、在线会议、社交元宇宙等各类线上新玩法的涌入,企业和个人不仅需要音视频技术服务商来解决基础的低时延音视频通话问题,还需要借助新的技术,在远程沟通协作的同时,尽可能地打破物理距离的藩篱,让实时互动的体验身临其境,极致沉浸。凤鸣AI引擎因此而生。

底层技术方面,凤鸣AI引擎通过AI驱动的方式,打通了音频采集、前后处理、云端传输、编解码等链路,不仅升级了语音体验,也为行业开发者和企业尝试多样玩法提供了新的可能。

此次,凤鸣AI引擎发布了AI降噪、AI回声消除、空间音频、最佳音效四大核心能力:

其中,凤鸣·AI降噪比传统的降噪算法在效果上有明显提升,不仅能对稳态和非稳态噪音进行屏蔽,还能在噪音密集的空间实现高保真的纯净通话体验,据了解,该AI降噪算法可实现Android、iOS、Mac、Windows、Web等全平台覆盖,对相应设备CPU的能耗均值低于1%。 凤鸣·AI回声则可以利用算法,对各类环境中的回声混响进行抑制,让音频体验实现高保真,比如用户在在线K歌时,不管在什么环境中都能收录更自然流畅的人声。 凤鸣·空间音频通过纯软件算法的方案,完美模拟现实听觉感受,让声音具有方位感和空间感。这项能力最适配的是元宇宙和游戏这类3D场景,可以让人们像《头号玩家》中的主角一样,拥有虚拟世界的沉浸感与临场感。该功能对相应设备CPU消耗增幅均值低于0.7%,对内存消耗增幅均值低于2M。 凤鸣·最佳音效是凤鸣AI引擎的亮点之一,该功能由声网在语聊行业的多年实践积累而来,包含此前服务不同场景大客户的音效配置方案。这项能力此后可以输出给其他场景用户,对于平台留存和变现能力大有助益。据悉,目前,已经有头部语音社交平台使用了凤鸣·最佳音效配置方案,加入了空间音频、美声、电音等新的玩法。

杨帆提到:“这四大能力是凤鸣AI引擎最具竞争力的点,也是过去几年用户需求最集中,触及场景最广泛的方向。”据他透露,此前凤鸣AI引擎的各项能力已经在超过10个中大型客户的服务中落地,经历了几年的打磨,内部也在专业音频体验层面进行了系统的评分,“新产品的稳定性和成熟度已经有了保障,也做好了面向更多场景的准备。”杨帆说。

因此,这四项核心能力是声网践行实时互动的又一大步,也是其完善音视频技术服务体系的又一举措

3.创新者优势

凤鸣AI引擎之于声网,是一次新的产品跃迁,之于整个行业,则是一次新风向的探索。

不论是此前火热的元宇宙,还是当前热门的GPT-4,人们对数字世界的热情被一次次地推高,音视频体验正在迎来新的赛点。作为“RTE(Real-Time Engagement)”概念的定义者,2020年声网将实时互动带入大众视野,并凭借此前在教育、社交、娱乐、游戏领域的经验,掀起了音视频技术服务的新风向,这次,借助凤鸣AI引擎,声网再次将音视频服务的能力和边界推向了新的高处。

接下来,各家音视频技术服务商比拼的是读懂用户需求的能力,这个层面,声网已经具备一定的技术优势。目前,声网在这个层面是探索较早,经验优势和技术储备较丰富的公司。

“过去几年,我们对音频算法进行了充足的训练,拥有丰富的经验,在这个领域,至少领先友商半个身位。此外,我们的解决方案在体验、效能、低端机适配、能耗要求方面,有明显的竞争优势”杨帆告诉36氪。据悉,目前声网API 已经赋能社交直播、教育、游戏电竞、IoT、AR/VR、金融、保险、医疗、企业协作等几十个行业,涉及200多种场景。

经验优势的内核之一就是基于大量数据形成的AI算法实战经验。声网算法专家许冉提到:“AI算法不能束之高阁,声网的算法在场景中做了大量的训练,可以在500毫秒内实现采集、弱网对抗、传输、编解码,这种算法实战能力是声网的长板。”他也谈道,“在量化指标上,业界一般用MOS评价语音质量,带噪语音经凤鸣AI引擎处理后,语音质量可以达到3.9分,因为MOS是1—5的评分,这个水平大概是什么水平呢?一般来说,我们认为MOS分在0.1分的区别是主观可以感受音质的差别。”

这些优势都依赖于声网过去数年丰富的客户实践。数据显示,声网的实时互动技术服务覆盖全球200多个国家和地区,2021 年全年,声网实时音视频分钟数月均用量超500亿分钟。截至2022年12月31日,声网全球注册应用已超54.8万。

依托于这些能力,接下来,声网将基于凤鸣AI引擎形成新一代RTC音频解决方案,一方面会将凤鸣AI引擎作为底层通用的技术平台,加持出海动作;另一方面,凤鸣AI引擎也会持续探索更个性化的语音方案、语音超分、co-experiencing场景,持续扩展能力边界。“通过实时互动技术不断地丰富人们的娱乐生活,提供更便利的体验是声网始终不变的方向。”杨帆强调。

关键词: