Created 03/06/2020 at 06:12PM
上次那篇文章记录了从2月5日到28日的实验,现在已经3月6日了,10日即将入职腾讯,那就再总结一下这些天做了什么。
实验列表
- RL-LightSpeech(用强化学习搜索alignment):github repo
- NTM-LightSpeech & NTM-FastSpeech(对encoder output直接扩增或是通过一个parallel attention结构,得到扩增X倍长度的decoder input,decoder部分存在一个二分类器,决定vector的去留,使得decoder output的长度和ground truth相同):NTM-LightSpeech github repo;NTM-FastSpeech github repo
- Atten-FastSpeech(结合Tacotron2和FastSpeech):github repo
论文阅读
最近主要阅读的论文有一下几个方向:
-
机器翻译中的非自回归模型,试图借鉴思路:
- Deterministic-Iterative-Refinement
- Mask-Predict
- NAT-with-Auxiliary-Regularization(之前在Atten-FastSpeech借鉴过,但大方向有问题一切免谈)
- NAT-CTC (用了ctc loss,可能有一定的借鉴作用,还需要进一步尝试)
-
传统TTS:
- UFANS & FPETS:第一篇论文提出了一个U-net结构的vocoder,但是没有跟主流的vocoder进行对比,并没有说清楚U-net到底对performance产生了怎么样的影响,第二篇论文读完之后我并不清楚它所谓的alignment loss是如何计算得到的,alignment target来自哪里,此外,也没有做U-net结构与其他结构的对照试验和文中所说的learnable position encoding与常规的position encoding的对照试验,所谓的提升性能尚存疑问,另外,文中所阐述的两阶段训练实属复杂,所约定的开源代码依然不见踪影
- DCTTS:文中所提出的guided attention可以借鉴
-
语音识别:
- CTC(仍在阅读,争取早日完全掌握)
- RNN-T(有一种使用RNN-T的TTS方法还没有阅读,争取找个时间好好读一读)
计划
- 弄懂CTC和RNN-T,读那篇RNN-T结合TTS的paper
- 向TTS中引入CTC loss?
- 熟悉tensorflow,熟悉tacotron代码
跟进
- 3.7:貌似CTC无法用在无类别区分的数据上,那么CTC loss需要类别区分的目的究竟是什么
- 3.7:RNN-T值得阅读,就算CTC loss可以用在无类别的数据上,直接expand十倍的方法最后可能还是失败
- 3.8:考虑training是autoregressive,inference时non-autoregressive