OpenVoice V2重磅发布：声音风格精细控制开启全新语音克隆时代

AI每日新闻2年前 (2024)发布 shen

2,484 0 0

近日，MyShell TTS团队宣布推出其创新声音克隆技术OpenVoice的V2版本，这一新版本在声音风格的精细控制方面取得了显著进展，为用户提供了更加丰富的语音克隆体验。OpenVoice V2不仅继承了前代版本的优势，更在音频质量、语言支持和商业应用等方面实现了全面升级。

OpenVoice V2的核心能力在于其精准的声音克隆和灵活的声音风格控制。通过仅使用一小段参考发言者的音频片段，该技术便能精确复制其声音，并生成多种语言的语音。更令人瞩目的是，用户现在可以对声音的情绪、口音、节奏、停顿和语调进行细致调整，实现个性化的声音输出。这种精细化的控制能力使得OpenVoice V2在语音克隆领域脱颖而出，为用户提供了前所未有的创作空间。

在功能方面，OpenVoice V2延续了前代版本的准确音色克隆特性，并在此基础上进行了拓展。它现在能够直接支持英语、西班牙语、法语、中文、日语以及韩语等多种语言，显著提高了音频输出的质量。此外，OpenVoice V2还具备零样本跨语言声音克隆的能力，即使某些语言未在训练集中出现，也能实现声音复制，这一特性极大地拓宽了AI技术的应用范围。 OpenVoice V2重磅发布：声音风格精细控制开启全新语音克隆时代

在性能上，OpenVoice V2也表现出色。它采用了新的训练策略，显著提升了音频质量。同时，该技术在保持高性能的同时，计算成本也大大降低，相比于市场上现有的商业API具有更高的性价比。此外，OpenVoice V2还集成了MeloTTS技术，进一步增强了声音的自然度和表现力，使得生成的语音更加逼真动人。

值得一提的是，自2024年4月起，OpenVoice的V1和V2版本均以MIT许可证发布，这意味着用户可以在商业和研究用途中免费使用这些技术。这一举措无疑将推动OpenVoice技术的广泛应用和进一步发展。

AI旋风认为，OpenVoice V2的发布标志着语音克隆技术迈入了新的里程碑。其精细化的声音风格控制能力使得语音克隆不再仅仅是简单的声音复制，而是成为了一种具有创意和个性化的表达方式。同时，多语言支持和免费商业使用的策略也将进一步推动该技术在各个领域的应用和发展。

展望未来，随着AI技术的不断进步和市场的不断拓展，我们有理由相信OpenVoice等创新声音克隆技术将在更多领域发挥重要作用。无论是虚拟角色创作、语音助手优化还是语音内容生成等领域，这些技术都将为用户提供更加丰富、更加个性化的语音体验。