Meta的人工智能音频编解码器承诺比MP3压缩率高10倍

2022-11-02 14:09

上周，Meta宣布了一种名为“EnCodec”的人工智能音频压缩方法，据报道，该方法可以以64kbps的速度压缩比MP3格式小10倍的音频，而且质量不会损失。据 Meta 说，这种技术可以在低带宽的连接中显著提高语音的音质，比如在服务不稳定的地区打电话。这种方法也适用于音乐。

据信，该技术可以在低质量的连接上实现高质量的通话和音乐。

上图：音频波中数据的图示。

Meta于10月25日在一篇题为《高保真神经音频压缩》的论文中首次发布了这项技术，作者是Meta AI研究人员Alexandre Défossez、Jade Copet、Gabriel Synnaeve和Yossi Adi。Meta 也在其博客上总结了关于 EnCodec 的研究。

上图：Meta声称其新的音频编码器/解码器可以压缩比MP3小10倍的音频。

Meta将其方法描述为一个训练有素的三部分系统，将音频压缩到所需的目标大小。首先，编码器将未压缩的数据转换为较低帧率的“潜在空间”表示。然后，“量化器”将表示压缩到目标大小，同时跟踪最重要的信息，这些信息稍后将用于重建原始信号。（这个压缩信号是通过网络发送或保存到磁盘的。）最后，解码器利用单个CPU上的神经网络将压缩数据实时转换回音频。

事实证明，Meta使用“鉴别器”是创造这种方法的关键，这种方法可以在不丢失信号的关键元素的情况下尽可能地压缩音频，使其具有独特性和可识别性：

“有损压缩的关键是识别人类无法感知的变化，因为在低比特率下不可能实现完美重建。为此，我们使用‘鉴别器’来提高生成样本的感知质量。这就形成了一个猫捉老鼠的游戏，其中鉴别器的工作是区分真实样本和重构样本。压缩模型试图通过推动重构样本与原始样本在感知上更相似，来生成样本来欺骗鉴别器。”

值得注意的是，使用神经网络进行音频压缩和解压并不是什么新鲜事，特别是在语音压缩方面，但 Meta 的研究人员声称他们是第一个将该技术应用于48千赫立体声音频（略好于CD的44.1千赫采样率）的团队，这是互联网上分发的音乐文件的典型采样率。

上图：说明Meta的EnCodec压缩工作原理的框图。

至于应用，Meta表示，这种由人工智能驱动的“音频超压缩”可以在恶劣的网络条件下支持“更快、更高质量的通话”。当然，由于是元数据，研究人员也提到了 EnCodec 的元数据的含义，称该技术最终可以提供“丰富的元数据体验，而不需要重大的带宽改进”。

除此之外，也许有一天我们还能从中获得非常小的音乐音频文件。目前，Meta的新技术仍处于研究阶段，但它预示着未来高质量音频可以使用更少的带宽，这对流媒体网络负担过重的移动宽带提供商来说将是一个好消息。

THE END

责任编辑：赵龙

相关阅读

展会预告

新品

中维世纪新品 | 这样的火眼金睛，才够格做“黑悟空”“天命人”
中维世纪又推智能场景机!此次场景机在看清电子屏幕的基础上，增加字符提取与超阈值报警功能，超清视野与灵…
中维世纪新品 | 这样的火眼金睛，才够格做“黑悟空”“天命人”
思特威推出具有AOV快启功能的5MP高分辨率IoT图像传感器SC535IoT
思特威推出0.7微米5000万像素图像传感器SC5000CS
云天励飞发布新一代AI芯片DeepEdge10
爱芯元智发布新一代IPC SoC芯片AX630C和AX620Q

访谈

做行业赋能者 HID迎接数字化浪潮新机遇破解新挑战

今年3月份，全球可信身份解决方案提供商HID发布了最新的《安防行业现状报告》（以下简称“报告”），该报告…
数字化浪潮下，安防厂商如何满足行业客户的定制化需求?

回顾近两年，受疫情因素影响，包括安防在内的诸多行业领域都遭受了来自市场 “不确定性”因素的冲击，市场…
博思高邓绍昌：乘产品创新及客户服务之舟，在市场变革中逆风飞扬

11月24日，由慧聪物联网、慧聪安防网、慧聪电子网主办的2022(第十九届)中国物联网产业大会暨品牌盛会，在深…

企业

圣恩科技：守护城市生命线
树立行业标杆，讲好中国故事，传递中国声音，充分展现腾飞的中国经济、崛起的民族品牌和向上的企业家精神。…
佳都科技“数智堤坝”助力地铁安全度汛
高新兴与麒麟软件达成战略合作，加速国产化应用生态布局与落地
圣恩科技：守护城市生命线
熵基科技在多模态BioCV技术领域取得新突破
捷顺科技发布“停充一体”标准，打造一站式停充服务，推动停车充电行业规范发展