Cartesia发布Sonic低延迟语音模型，实时智能语音聊天新篇章开启

AI每日新闻2年前 (2024)更新 shen

2,060 0 0

在人工智能领域，实时语音交互技术正逐步成为推动人机交互体验升级的关键动力。近日，备受瞩目的科技公司Cartesia发布了其最新研发的Sonic低延迟语音生成模型，引发了业界的广泛关注。这款模型以其卓越的实时性和高度逼真的语音表现力，被业界认为是复制智能实时语音聊天能力的重要一步。

Cartesia此次发布的Sonic模型，以其135毫秒的超低延迟和高度逼真的语音表现力，为用户带来了前所未有的实时语音交互体验。用户只需提供10秒的录音，Sonic便能迅速模仿说话者的韵律、语调和声音特征，并且支持音调、速度、情感、发音等参数的调节，实现了高度定制化的语音输出。 Cartesia发布Sonic低延迟语音模型，实时智能语音聊天新篇章开启

Cartesia在Sonic模型的研发过程中，引入了创新的“状态空间模型”（SSM）架构。这一架构能够处理任意大小的语境，并原生地实时处理各种形式的模态，为构建下一代基础模型提供了强有力的支撑。SSM架构的引入，不仅提高了模型在处理高分辨率模态（如音频和视频）时的生成效率和低延迟性能，还使得模型在推理速度、吞吐量和延迟方面取得了显著改进。

Cartesia在实时对话型AI的开发方面已经取得了初步进展。他们正在研发一个具有长期记忆、能够实时对话的AI计算平台，该平台将解决复杂问题，并为用户带来全新的体验。Sonic模型的发布，为这一平台的实现提供了重要的技术支撑。

AI旋风认为，Sonic模型的发布标志着实时语音交互技术进入了一个新的发展阶段。这款模型以其超低延迟和高度逼真的语音表现力，为用户带来了更加自然、流畅的实时语音交互体验。同时，SSM架构的创新应用也为实时智能系统的发展提供了新的思路和方法。 Cartesia发布Sonic低延迟语音模型，实时智能语音聊天新篇章开启

Sonic模型的推出，不仅为用户带来了更加便捷、高效的实时语音交互体验，也为内容创作者、客户支持、娱乐等领域提供了全新的应用可能性。用户可以通过Sonic模型轻松实现即时克隆和语音设计，为内容创作带来更多的创意和灵感。

Cartesia在发布会上表示，他们的下一个目标是在未来一年内实现原生多模态的实时智能。这意味着他们的技术将不仅仅局限于音频领域，而是能够实现对任何形式的模态进行即时理解和生成。这将进一步推动实时智能的发展，并为用户带来更加丰富、多样的人机交互体验。

随着AI技术的不断进步和应用场景的不断拓展，实时智能将在未来成为人机交互的主流方式。而Cartesia作为这一领域的领军企业之一，将继续引领实时智能技术的发展方向，并为用户带来更加出色的产品和服务。