首页 > 人工智能 Meta的人工智能音频编解码器承诺比MP3压缩率高10倍

Meta的人工智能音频编解码器承诺比MP3压缩率高10倍

2022年11月02日 14:09

据信，该技术可以在低质量的连接上实现高质量的通话和音乐。

上图：音频波中数据的图示。

上周，Meta宣布了一种名为“EnCodec”的人工智能音频压缩方法，据报道，该方法可以以64kbps的速度压缩比MP3格式小10倍的音频，而且质量不会损失。据 Meta 说，这种技术可以在低带宽的连接中显著提高语音的音质，比如在服务不稳定的地区打电话。这种方法也适用于音乐。

Meta于10月25日在一篇题为《高保真神经音频压缩》的论文中首次发布了这项技术，作者是Meta AI研究人员Alexandre Défossez、Jade Copet、Gabriel Synnaeve和Yossi Adi。Meta 也在其博客上总结了关于 EnCodec 的研究。

上图：Meta声称其新的音频编码器/解码器可以压缩比MP3小10倍的音频。

Meta将其方法描述为一个训练有素的三部分系统，将音频压缩到所需的目标大小。首先，编码器将未压缩的数据转换为较低帧率的“潜在空间”表示。然后，“量化器”将表示压缩到目标大小，同时跟踪最重要的信息，这些信息稍后将用于重建原始信号。（这个压缩信号是通过网络发送或保存到磁盘的。）最后，解码器利用单个CPU上的神经网络将压缩数据实时转换回音频。

事实证明，Meta使用“鉴别器”是创造这种方法的关键，这种方法可以在不丢失信号的关键元素的情况下尽可能地压缩音频，使其具有独特性和可识别性：

“有损压缩的关键是识别人类无法感知的变化，因为在低比特率下不可能实现完美重建。为此，我们使用‘鉴别器’来提高生成样本的感知质量。这就形成了一个猫捉老鼠的游戏，其中鉴别器的工作是区分真实样本和重构样本。压缩模型试图通过推动重构样本与原始样本在感知上更相似，来生成样本来欺骗鉴别器。”

值得注意的是，使用神经网络进行音频压缩和解压并不是什么新鲜事，特别是在语音压缩方面，但 Meta 的研究人员声称他们是第一个将该技术应用于48千赫立体声音频（略好于CD的44.1千赫采样率）的团队，这是互联网上分发的音乐文件的典型采样率。

上图：说明Meta的EnCodec压缩工作原理的框图。

至于应用，Meta表示，这种由人工智能驱动的“音频超压缩”可以在恶劣的网络条件下支持“更快、更高质量的通话”。当然，由于是元数据，研究人员也提到了 EnCodec 的元数据的含义，称该技术最终可以提供“丰富的元数据体验，而不需要重大的带宽改进”。

除此之外，也许有一天我们还能从中获得非常小的音乐音频文件。目前，Meta的新技术仍处于研究阶段，但它预示着未来高质量音频可以使用更少的带宽，这对流媒体网络负担过重的移动宽带提供商来说将是一个好消息。

责任编辑：赵龙

文章来源：//www.profoottalk.com/2022/1102/1947.shtml