Created 03/01/2020 at 09:32PM

知乎私信记录

我大概是从19年寒假的时候开始入门语音的,之前只是读了几篇论文,网络上有大量关于比较流行方法的解释,入门挺快的。在这之前话,我自己也学过一段时间的机器学习和深度学习,复现了一些经典算法,推导了公式,差不多了有了大致的了解。

然后进了实验室,实验室的老师让我做语音,但实际上一个精通语音的人都没有,很痛苦。于是我就从经典论文开始读起,tacotron,tacotron2,wavenet这些,还看了好久的短时傅里叶变换(其实现在也不大熟),然后就到了19年寒假,那时我开始跑github上的代码,第一个跑的是tacotron,跑的效果很差,不过也算是成功了,然后就是在tacotron的代码基础上做自己的实验,这期间也熟悉了transformer,然后就复现了fastspeech,第一版复现的效果真的挺差,大概到了7月,一直维持这种状态,能力提升其实很有限。

后来就去公司实习了,我觉得在公司实习最大的提升就是我把代码这些事弄清楚了,把tacotron2和FastSpeech的效果都跑的像个样,算是积累了一些经验,不过我当时也在跑multispeaker tts,还尝试了很多个方案,包括speaker id -> embedding和speaker verification -> embedding这两种方式都尝试过,不过效果很差

我实习在19年9月结束的然后就去开学上课了,这个学期基本语音的一点都没看,课太多,一直到这个寒假得知自己可以去实习了才开始重新开始看。我个人来说的话,其实进度不算很快,而且一些更传统的方法,包括语音识别的一些方法都完全不了解,个人觉得还是挺重要的,最近也在恶补这些。其实我也没有很了解语音合成,希望上面的这些经历能对你有帮助哈,如果可以的话我们也可以多多交流