Created 03/19/2020 at 08:41PM

这几天读了几篇voice conversion的paper,一篇是FAIR的TTS-skins,另一篇是A VOCODER-FREE WAVENET VOICE CONVERSION WITH NON-PARALLEL DATA,下面是这两篇paper的大致解读。

Voice Conversion

voice conversion(语音转换)是将一个人的音色转化为另外一个人音色的任务,知乎大神王赟有一篇更详细的综述,大家可以去读一读,11514 语音转换技术综述

TTS-skins

这篇是facebook AI研究院(FAIR)最近发布的一篇关于voice conversion的paper,它是一个wav2wav的model,不依赖于文本,模型基于wavenet,需要一个pretrained ASR model。

架构

下图是TTS-skins的整体结构

首先训练一个ASR model,这里个人理解类似于PPGs(但文中并没有引用),训练一个SI-ASR模型,去PPGs,相当于去除音色信息的“语音”,PPGs是一个time-versus-class矩阵,在计算出PPGs后,有一个speaker embedding LUT得到对应speaker的embedding与PPGs在时间维度concentrate,送入一个基于wavenet的Decoder,作为Decoder的condition,wavenet以自回归的形式进行预测出target speech。

细节

vocoder-free wavenet voice conversion

有一些voice conversion model需要parallel data,有一些需要一个vocoder提供信息,如下图,这篇论文展示了如何省去那个提供信息的vocoder。

架构

架构如下,最大的贡献在于使用了PPG,F0和vuv三个信息,摆脱了WORLD vocoder的依赖

总结

上述两篇文章展示了目前做voice conversion比较通用的一些思路,TTS-skins还展示了于TTS系统结合,达成MultiSpeaker TTS model的一些能力,但是由于这两篇paper都是基于autoregressive的wavenet,估计实际应用起来速度堪忧,如果想真正于TTS系统完美结合,还需要针对性地设计模型吧。