研究领域和项目

语音合成

我去麻萨诸塞大学读计算机，在很大程度上受到其人工智能研究项目的吸引。毕业后去了工业界。原以为自此与人工智能告别。没想到现在又回到人工智能的研究。我不相信有什么精神力量在背后设计着我的人生之路。如果我自己都不能设计，别的东西又怎么可能做到？然而人生又着实充满戏剧性。重操旧业又复活了昔日即将熄灭的火焰。于是久违的热情又不断高涨起来。当初正是怀着对自然语言处理的热情介入了人工智能领域。如今又被重新投入其中，依然和语言有不解之缘。幸运的是现在专业的形势已不比从前。当时曾为三层神经网络的收敛问题犯愁，现在深度神经网的研究和应用正在火热进行中。

人类语言以文本和语音两种形式存在。因此，自然语言处理的对象也包括文本和语音。但从计算机处理的角度来说文本具有优先性。文本这种离散的语言符号形式更接近于计算机的数据形式。所以，自然语言处理的一个基本策略是以文本为核心。所有核心的语言处理，如信息检索、语言翻译和语言理解，都以文本为基础。这样，完整的自然语言处理就需要两个不可缺少的桥梁：语音到文本和文本到语音的转化。通常连接两地只需要一座桥。但是从技术的角度来看，这两个相反方向的转化涉及到非常不同的、复杂的过程，尽管它们在人那里都觉得是那么的轻而易举。语音到文本的转化称作语音识别。文本到语音的转化称作语音合成。从实用的角度来看，语音信道有着文本不能替代的优势。开车时我们还可以说话，但却很难输入文本。我们可以一边听收音机一边做家务，但是读书时我们就只能做一件事。事实上语音是更加便捷的交流方式。

一个播音员拿到一段文稿，把它读出来。这其中就涉及到一个语音合成的过程。但是让机器做这件普通人都能随意做出来的事却并不是那么简单。这个过程牵涉到语言的两种形式，而且这两种形式又具有非常不同的特性。与文本相比语音有更大的自由度。同一文本可以对应多种语音。语音合成的过程总体上可以分成两个阶段：文本分析和声波生成。第一步，文本被分解成音素序列。音素是语音的最小单元。英语中的phonics和汉语中的注音都属于这一步。第二步，根据音素序列产生出连贯的声波。这里准确和连贯是两个基本要求。可见，语音合成技术不仅需要语言学的知识，而且依赖于信号处理技术。最后，它在计算机上的实现又以计算机科学和技术为基础。

深度学习在语音合成中的应用正在打破上述传统的架构。深度神经网络的强大建模能力使得传统架构中的多个步骤可以聚合在一起。例如，在西方表音语言中，文本到声波参数的转化可以由一个复杂的神经网络来承担。这样，音素序列便被跳过，文本分析因此被大大简化。对于汉语这样的表意语言来说，我们也可以直接从拼音出发。深度学习方法不仅简化了传统语音合成的流程，而且使合成语音的质量也大幅度提高。

多语文本-语音转化

语音合成有了几十年的历史。但是直到近期单语语音合成是唯一的目标。一方面由于技术难度，另一方面由于市场需求小，多语语音合成长期没有得到重视。但是随着全球化和互联网媒体应用的深化发展，多语语音合成也被列为一个重要的任务。这在新加坡有特别的市场。在这个多元文化的国度里一句话中包含三门语言是常有的现象。

与单语语音合成相比多语语音合成显然有更大的技术难度。这表现在语音合成的两个阶段。首先，分析多语文本比单语文本要复杂的多。遇到每个词需要先断定它属于那种语言，然后才能运用合适的读音规则。当然，在中文中识别英文单词对于机器来说也是一件容易的事。但是，当我们在英语和德语的混合文本中遇到一个缩写（如UN）我们应该按英语读，还是德语读？这对人都是一个挑战，就更别说机器了。其次，生成混合语言的声波比单一语言也要复杂许多。目前声波生成都基于特定的语音数据库，而且整个数据库必须包含同一个人的语音。对于多语语音合成这就意味着同一个人多个语言的发音都要很标准。这种人非常难找到。另一个问题是同一个句子中不同语言词汇的发音衔接。这也是比较难解决的问题之一。

自然的韵律

与处理多语问题相平行的是提高合成语音的韵律质量。对合成语音的最基本要求是人能明确地听出其中的内容。事实上，这也是对人朗读的基本要求。在此之上，我们会希望其中的抑扬顿挫符合句子的内容。这涉及到音节的高低，轻重和长短以及不同种类的停顿。再往上我们希望语音中能表达出感情和态度。此外，语音的整体特性，如某个特定人的声音，也可以算作韵律的一部分。这已牵涉到不同语音间转化的问题。