来自bilibili 万能君的软件库制作的3s克隆音频工具V1.0,音频克隆、风格描述自由引导,不限制字数,不用搭建环境,解压即用!

 

来自:https://www.bilibili.com/video/BV1KfQKBZEDS

网盘

https://1858359676.share.123865.com/123pan/kxn7vd-w5fz

https://pan.quark.cn/s/bb3472573c2d

链接:https://pan.xunlei.com/s/VOrfN4rPUVmzVluktsEaA5niA1?pwd=n4t5#

https://url90.ctfile.com/f/38254190-17569751044568-fecb73?p=2988 (访问密码: 2988)

链接: https://pan.baidu.com/s/1FS5j2FErGnq2TPQ8APwoYw?pwd=45zs 提取码: 45zs

 

预览

清华OpenBMB刚放出来一个东西叫VoxCPM2,我看完直接沉默了。

先说参数:20亿,训练数据200万小时多语言音频,输出48kHz录音棚级音质。这几个数字摆出来,传统TTS基本可以退场了。

但最让我觉得可怕的不是这个。

它不用Tokenizer。

传统方案是把音频切成离散token再生成,这个过程信息损失很严重,声音听起来总差点意思。VoxCPM2直接在连续潜空间做扩散自回归,音色、情绪、呼吸节奏,全给你保留下来。

指标我给你列一下:

① 支持30种语言加9种中文方言,普通话粤语闽南语随便切

② RTX 4090跑下来实时率0.13,流式输出几乎感觉不到延迟

③ 不需要参考音频,用自然语言描述就能直接生成声音

④ 声音克隆可以调情绪、语速、口癖,想让它说话磕巴都行

⑤ 终极克隆模式:给一段参考音频加文本,连呼吸节奏都能复刻出来

协议是Apache 2.0,商用友好,GitHub已经破万星,连续霸榜Trending。

播客、有声书、游戏配音、短视频旁白,开源方案现在完全够用,甚至比很多付费方案更强。