Created 04/18/2020 at 05:49PM

前言

Expressive TTS是目前语音合成领域中比较活跃的方向,它和单纯TTS的区别是,它更关注合成声音的风格(例如新闻播报,讲故事,解说)、情感(例如生气,兴奋,悲伤)、韵律(例如重读,强调)等等。自从深度学习技术大放异彩后,语音合成模型在合成声音的自然度方面有了极大的提高(例如Tacotron,Tacotron2,WaveNet),跳词复读的问题也在最近得到了解决(例如DurIAN,FastSpeech),而深度学习不仅可以让语音的自然度得到大幅度的提升,在对一些难以显式建模的特征上也有很强大的学习能力,因此,让语音合成能更加expressive成为了一个研究热点。以下是有关这一方向的部分论文:

本文将主要涉及前七篇,最后三篇放在(二)中。文中若有用词不当或者理解错误的地方,欢迎大家指正,互相学习。

正文

第一篇和第二篇属于Expressive TTS中比较经典的文章,其中的一些结构设计被后续研究大量使用,个人认为这两篇文章也代表了Expressive TTS研究的两个细分方向,即inference时依赖reference audio(第一篇),inference时不依赖reference audio,使用style token(第二篇)。前七篇paper按照这种划分,可以把第一,三,四归为一类,二,五,六,七归为一类,当然有些paper同时具有上述两种特征,这里只做一个粗略的划分。

第一类

首先看第一篇paper,本文将decoder的输入分为三个部分,分别是prosody embedding,speaker embedding和transcript embedding,对应着韵律信息,音色信息和文本信息,其中prosody embedding和speaker embedding为1*dim_size的向量,transcript embedding为phone_len*dim_size的向量,prosody embedding和speaker embedding expand到phone_len之后和transcript embedding concatenate作为decoder input,如图:

reference encoder的结构设计:

training时期,使用(phone,mel spectrogram)成对数据集,phone作为Transcript Encoder的input,mel spectrogram作为Reference Encoder的input,speaker embedding采用lookup table的形式。个人理解,文章作者将语音视为三种信息的集合,分别是文本信息、音色信息和韵律信息,数据集中具有文本信息和音色信息的标签(speaker id),而韵律信息和这两个有标签信息联合训练,目的就是为了让韵律信息和其他信息“解纠缠”,流动到reference encoder中。paper中设计了多个实验,比如说固定长度的prosody embedding和可变长度的prosody embedding,最后选择了固定长度的prosody embedding,因为可变长度虽然可以建模更长时间的韵律信息,但是也混杂了文本和音色信息,文章也探讨了不同激活函数和dim_size对prosody encoder性能的影响,并采用了多个评估方法进行评价,演示地址,总体来说效果挺好,文章作者还做了一个实验,在inference时,采用和reference audio对应文本有些许差别的文本作为transcript输入,例如,"Second--Her family was very ancient and noble."和"First--Her family was very sarcastic and horrible.",demo结果展示了些许差别的文本也能用reference audio类似的语调生成出来,这让这类模型相比于voice conversion model,有了其他更特别的应用。

刚刚说到,该模型在训练时,文本信息和音色信息都相当于存在标签,而prosody信息相当于“解纠缠”出来的,而第三篇和第四篇则相当于给prosody信息也加上了标签。第三篇中,作者认为prosody信息可以被看作pitch和loudness,他选取了两个1-D time series分别为F0和loudness,得到logF0 contours和RMS contours,计算它们的mean,variance,maximum和minimum,去除RMS的minimum,最后得到一个7 features的time series作为reference encoder的input,结构示意图如下:

第四篇文章同样使用了F0特征,并且额外使用了一个style encoder,个人认为,作者向模型中引入更多的标签信息,是为了让一些难以被显式建模的信息被模型分离出来,从而实现更加可控的transfer,大家可以参考我先前做的一篇笔记,Mellotron: NVIDIA's Speech Synthesis 阅读笔记,文章中作者还用该模型进行了音乐生成的实验,github也有NVIDIA官方的复现版本

第二类

先来看第二篇paper,第二篇论文主要专注于对于latent attribute的建模,提出了一个GST(Global Style Token)模块,该模块更像是一种新的聚类方法,模型在training的时候同样也有一个reference encoder,mel spectrogram作为input输入reference encoder得到一个1*dim_size的向量,这一部分和第一篇论文一致,但随后,计算出来的向量作为attention模块中的query vector进入attention模块进行计算,正如文章所说“Here, attention is not used to learn an alignment. Instead, it learns a similarity measure between the reference embedding and each token in a bank of randomly initialized embeddings.”。训练结束后,相当于这个GST模块提取了数据集当中audio的全局style特征,作为信息存储在style embedding中,inference时期,可以直接使用得到的style embedding,也可以向第一篇论文那样继续使用reference audio。个人觉得这里的GST十分有意思,论文中也去进行了解释,文章称之为“End-to-End Clustering/Quantization”,文章作者也对不同的attention结构进行了实验,最后发现Transformer中的multi-head attention有着最好的效果。下面是模型的结构示意图:

相比第一篇paper,这篇paper中style的提取更加灵活,可以做类似第一篇的parallel style transfer,也可以做non-parallel style transfer。文中还有进行了噪音分离相关的实验,这一部分将在(二)中讨论。上面说的,GST模块可以看成一种聚类的方法,那么其他的聚类方法可能也能work,第五篇paper就使用了VAE作为特征提取器,VAE全称Variational Autoencoder,它具有很强的数学背景,因此具有良好的解释性,最开始被用在图像生成上。除了将GST模块替换为VAE,第五篇论文还同时建模了latent attribute和observed attribute,不同于第二篇论文中考虑single speaker的latent attribute,这里考虑了multi speaker data中speaker id这个observed attribute和style这个latent attribute,参见下图。并且,不同于很多multi speaker TTS model都在使用的speaker lookup table,这里更关注“continuous attribute space”,于是作者使用两个VAE分别去建模latent和observed attribute,并且采用措施推动两个VAE学到不同的attribute,有兴趣的读者可以参考论文section 2.3。

第六篇论文和第七篇论文更像是上面方法的改进和拓展,第六篇论文继续改进特征提取模块,引入了VAE+flow的reference encoder设计,如下图。

第七篇论文引入了多个基于GST的reference encoder,用来建模不同的style,这里将style分为speaker,emotion和prosody,使用三个encoder来建模,并且加入了多个auxiliary task作为正则,每个encoder的output都会去进行style classification,并且style之间引入orthogonality constraint,来分离向量空间,个人认为这里和第五篇论文的任务较为类似,只是这里用auxiliary task的形式去推动encoder去学到不同的attribute,而auxiliary task的引入也意味着对于数据集的要求更高了,模型结构如下图:

总结

上面对Expressive TTS近期的一些进展进行了大致介绍,上面很多工作已经给我们展示了惊艳的效果。但整体来说,在style embedding的可解释性和数据集的灵活性方面还有很大的空间可以完善,相信未来会有更多工作让我们惊艳。