目前音频合成技术,如果是identity-dependent (一种声音一个模型,输入文字,输出语音)的技术,主要的问题还是在棒读感上。合成出来的段落像是念出来的而不是讲出来的。最近b站有些人用vits[1]去合成了一些galgame角色的声音。如果合成了只是一两句,那其实感觉还不错[2]。但是如果说一整段就感觉有很明显的语调问题[3]。
而对于使用更加方便的identity-independent/zero-shot/few-shots (一个统一模型可以输出不同声音,输入文字和参考语音,输出语音)的方法,合成效果却不如人意。B站上有人用中文版的SV2TTS/Voice Cloning[4],也就是MockingBird[5]做了一些视频,但是绝大多数都是针对某个人的数据进行finetune的[6,7],最后使用起来的便利性和identity-dependent方法差不多。而如果不进行finetune的话,其实效果真的挺烂的,一般都摆不上台面。
[1] Kim, J., Kong, J., & Son, J. (2021, July). Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech. In International Conference on Machine Learning (pp. 5530-5540). PMLR.
[2] 基于VITS的galgame多角色语音合成(day3-5). https://www.bilibili.com/video/BV1nS4y1s7EG
[3] 【CV失业计划】基于VITS神经网络模型的近乎完美派蒙中文语音合成. https://www.bilibili.com/video/BV1rB4y157fd
[4] Jia, Y., Zhang, Y., Weiss, R., Wang, Q., Shen, J., Ren, F., ... & Wu, Y. (2018). Transfer learning from speaker verification to multispeaker text-to-speech synthesis. Advances in neural information processing systems, 31.
[5] GitHub - babysor/MockingBird: 🚀AI拟声: 5秒内克隆您的声音并生成任意语音内容 Clone a voice in 5 seconds to generate arbitrary speech in real-time. (2022). Retrieved from https://github.com/babysor/MockingBird
[6]「MockingBird」电梓播放器!. https://www.bilibili.com/video/BV1RF411z7C5
[7] MockingBird-中文语音克隆软件手把手教学. https://www.bilibili.com/video/BV1DL4y1q7VL