Cartesia宣布推出 Sonic：用于逼真语音的低延迟语音模型

date

Jun 1, 2024

URL

slug

Cartesia-Sonic

status

Published

构建实时智能

想象一下，在这个世界里，人工智能的效率令人难以置信：处理任何规模的上下文，在世界上的任何设备上运行，并实时处理任何模式。在这个世界里，智能无处不在，寿命长，与我们交谈，帮助我们理解和导航周围环境，并独立运作，为我们解决复杂的问题。在这个世界上，每个人都可以访问、控制和执行即时智能，个性化和私密地满足他们的需求。

我们的信念是，这个未来需要全新的智能架构。今天的模型远远达不到人类智能设定的标准。他们不仅不像我们那样了解世界的细节，而且速度缓慢且成本高昂，以至于他们的开发和传播霸权化了给大公司。即使是最好的模型也无法连续处理和推理长达一年的音频、视频和文本流（1B 文本令牌、10B 音频令牌和 1T 视频令牌），更不用说在设备上执行此操作了。难道不是每个人都能获得不需要编组数据中心的廉价情报吗？

让这一愿景成为现实是我们毕生的工作。在过去的 4 年里，我们的联合创始人 Albert 和 Karan 共同创建了一种新的范式，即“状态空间模型”或“SSM”，它为构建 AI 模型提供了一种从根本上更有效的方法。状态空间模型为训练高效的实时模型提供了优雅的基础，这些模型可以像人类一样本地流入信息。像 S4 和 Mamba 这样的状态空间模型，最初由我们的团队（与无与伦比的 Tri Dao）在学术界开发，现在正在迅速被全世界采用，并激发了学术界和工业界其他实验室的新一代工作——从视觉、机器人和生物学的变体，到工业中的语言模型（Jamba、Zamba 等）。这些模型让我们看到了人工智能比以往任何时候都更加高效和可访问的未来。

在笛卡尔，我们痴迷于优化智能的效率，让每个人都能更快、更便宜、更容易地获得智能。我们正在构建该平台，为在每台设备上运行的长效实时智能提供支持。

实时智能将有多种形式，我们正在构建的第一个目标是具有长寿命记忆的实时对话式 AI。这是一个新的计算平台，模型可以原生地交谈和理解音频，对交互有长期记忆，并可以采取行动解决问题。我们对这个平台将如何实现从实时游戏到客户支持的新体验感到兴奋，我们在下面报告了我们开发的初步进展。

用于高分辨率模态的低延迟模型

延迟是构建实时智能的一大挑战。当出现输入时，模型应立即响应。我们在开发新的状态空间模型架构方面取得了进展，这些架构能够高效、低延迟地生成高分辨率的音频和视频等模态。为了构建实时对话式 AI，我们一直在试验和扩展我们在语音和音频方面的方法。

在迄今为止的实验中，我们发现，与广泛使用的用于音频生成的 Transformer 实现相比，我们可以同时提高模型质量、推理速度、吞吐量和延迟。在多语言 Librispeech 上训练一个时期的参数匹配 Cartesia 模型可降低 20% 的验证困惑度。在下游评估中，这导致单词错误率降低 2 倍，质量得分提高 1 分（满分 5 分，根据 NISQA 评估进行衡量）。在推理时，它实现了更低的延迟（首次音频时间缩短 1.5 倍）、更快的推理速度（实时因子降低 2 倍）和更高的吞吐量（4 倍）。

我们将在另一份报告中发布有关新架构的更多详细信息。

Sonic：低延迟语音生成

我们使用此架构来训练我们今天发布的名为 Sonic 的新语音模型。Sonic 以 135 毫秒的模型延迟为任何语音创建高质量逼真的语音，这是此类模型中最快的。

我们构建并优化了自己的状态空间模型推理堆栈，使我们能够以低延迟和高吞吐量为 Sonic 提供服务，从而使我们能够以更低的成本提供高质量的模型。Sonic 发布时带有 Web Playground 和低延迟 API。Playground 具有多样化的语音库，适用于客户支持、娱乐和内容创建等应用程序，支持即时克隆和语音设计（速度、情感），所有这些都可以通过 API 使用。

使用API

https://play.cartesia.ai/