关注二次元语音合成ing

楪利普贝当də幽灵

如果谈论广义的语音合成，可以追溯到十九世纪末磁性录音机的问世，并且相信冲突中的二十世纪，语音合成功能被应用于更大范围的诉求会只多不少。贴吧的“语音合成吧”亦早在2013年5月创建。

既然如此，二次元语音合成是什么地方吸引我呢？我想了想：

因为是二次元有亲切感√ 很虚拟√
UP主着手→采声（模因）→训练→初期成果展示（非角色模因）→继续训练→（截止至视频发布时）最终成果
这种UP主常用的视频模式
能从中感受到作者的挚爱与二次元角色不可能被获得的一面，是非常有趣的。

另外因为商业版权与道德因素，可以预见在短期内是不会被接受的“亚文化”。

Wien

试试这个
https://huggingface.co/spaces/Xi-JinPing/Xi-JinPing-TTS

楪利普贝当də幽灵

Wien 这是？

Lyrith

只知道coefont🤔还是因为凪白
https://coefont.cloud/

🇻高级会员👑💎🌈

哎，什么时候能有赛博生活

sj_ghost2

🇻高级会员👑💎🌈 快了

楪利普贝当də幽灵

🇻高级会员👑💎🌈 很渴望吗？

n0099

您说的很对，但现在是后现代二十一世纪

ControlNet

目前音频合成技术，如果是identity-dependent (一种声音一个模型，输入文字，输出语音)的技术，主要的问题还是在棒读感上。合成出来的段落像是念出来的而不是讲出来的。最近b站有些人用vits[¹]去合成了一些galgame角色的声音。如果合成了只是一两句，那其实感觉还不错[²]。但是如果说一整段就感觉有很明显的语调问题[³]。

而对于使用更加方便的identity-independent/zero-shot/few-shots (一个统一模型可以输出不同声音，输入文字和参考语音，输出语音)的方法，合成效果却不如人意。B站上有人用中文版的SV2TTS/Voice Cloning[⁴]，也就是MockingBird[⁵]做了一些视频，但是绝大多数都是针对某个人的数据进行finetune的[⁶,⁷]，最后使用起来的便利性和identity-dependent方法差不多。而如果不进行finetune的话，其实效果真的挺烂的，一般都摆不上台面。

[¹] Kim, J., Kong, J., & Son, J. (2021, July). Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech. In International Conference on Machine Learning (pp. 5530-5540). PMLR.
[²] 基于VITS的galgame多角色语音合成（day3-5）. https://www.bilibili.com/video/BV1nS4y1s7EG
[³] 【CV失业计划】基于VITS神经网络模型的近乎完美派蒙中文语音合成. https://www.bilibili.com/video/BV1rB4y157fd
[⁴] Jia, Y., Zhang, Y., Weiss, R., Wang, Q., Shen, J., Ren, F., ... & Wu, Y. (2018). Transfer learning from speaker verification to multispeaker text-to-speech synthesis. Advances in neural information processing systems, 31.
[⁵] GitHub - babysor/MockingBird: 🚀AI拟声: 5秒内克隆您的声音并生成任意语音内容 Clone a voice in 5 seconds to generate arbitrary speech in real-time. (2022). Retrieved from https://github.com/babysor/MockingBird
[⁶]「MockingBird」电梓播放器！. https://www.bilibili.com/video/BV1RF411z7C5
[⁷] MockingBird-中文语音克隆软件手把手教学. https://www.bilibili.com/video/BV1DL4y1q7VL

n0099

ControlNet 什么带论文

楪利普贝当də幽灵

ControlNet
谢谢，经这样介绍对音频合成技术有了更多的认识。

如此看来像油库里视频常使用的无感情朗读也是无法解决语调而不得已的选择。
gal整体而论存在情景样本少且语调定向（声优塑造角色印象）的缺陷，大概只能通过源源不断的调整，再将调整后的语句加入样本中最终得出成果。这方面采集Vtuber的具有优势。