连续语音特性及其信息处理-法师兄

连续语音特性及其信息处理

时间：2023-06-06 10:50:58 133人看过来源：互联网

一.永恒的矛盾随着言语工程技术的发展，语音信息处理的对象已经从孤立的语音发展到连续的自然话语语音，问题变得越来越复杂，这主要来源于一对永恒的矛盾。矛盾的一方面是，自然言语是个随机过程，尤其是即兴的(spontaneos)口语对话(dialoge)，语音的随机变化更是无处不在。就音段的变化而言，除了大家熟知的元音央化、儿化或辅音的同化等较为显著的音变现象以外，更难对付的则是由协同发音引起的更为微观的语流音变。这种变化是由语音生成的本质机制决定的，它几乎无所不在，而且是无法回避的。再拿超音段的韵律变化来说，常规的连读变调仅仅是人们常见的一种，更多的是，由于人说话总是具有轻重缓急、抑扬顿挫，相关的语调和语气的运用就会导致常规变调模式的不同程度的调整，引起调域(range)的扩大或缩小以及调阈(threshold)的上浮或下沉。更有甚者，音段特性的变化跟超音段的韵律特性的变化往往彼此相关和相互制约。例如，协同发音作用不但会引起语音音色的复杂变化，而且还会导致各语音单元边界上的调连效应(林茂灿，1994－95)；而弱读引起的就不仅仅是韵律特性的简缩，同时也包括音段特性方面的相应变化，诸如央化、弱化和脱落，等等；又如轻重和节奏的变化，不仅同声调的升降沉浮和时长的伸缩流变相关，还同这两者的协同作用和互补关系有关。如此等等，所有这一切，都是不以人的意志为转移的客观存在，无法回避。可是，矛盾的另一方面是，语音处理处处需要不变的规则。尽管当今的计算机在许多方面已经可以跟人脑媲美，故人称电脑。然而，不管它有多么高明，它毕竟还是机械，目前还只能处理比较有规则的东西，面对上述种种随机变化现象，它就显得无能为力。人们发现，不可能采用常规的音段和韵律模式来处理语流中的音段和韵律问题。所以说，语音信息分布的不平衡性或者说不规则性跟语音信息处理的处处要求规则性，这是一对永恒的矛盾。为了解决这个矛盾，人们力图寻找语音中的不变量(invariance)(Fant,1983),这已成为语音信息处理各个部门包括合成、识别、理解等方面一致的需要，成为语音学界和言语工程界共同关注的热门课题。二.绝对的变化性和相对的不变性语音中究竟有没有不变量？答案是：既有，又没有。如上所述，连续话语里的语音，几乎没有不变的时候，即使象普通话里最简单的元音a，你也很难在语流中找到它的常规模式。例如，从声学表现来看，来啊中的a不同于走啊中的a，又都不同于走啊走中的a，更不同于它在诸如兰或牢里的变体，而所有这些变异还没有考虑轻重音和语调的影响以及不同说话人引起的个体差异。从上述情况来看，确实不存在绝对的语音不变量。但是，语音的变化又都是有条件的、依环境而定的。例如，上述兰里的a，由于受前鼻音韵尾-n提前的协同发音作用，它的舌位比较靠前，而牢里的a由于受后元音韵尾－o的协同发音作用，它的舌位比较靠后。这是一种由它们所处的语音环境决定的系统差异，不管男女老少都是如此。又比如普通话的两个上声相连，第一个上声通常变为阳平；可是，当第二个上声读轻声时，第一个上声就不一定变阳平，不过，不一定不等于没有规律，在这种情况下究竟变不变阳平取决于第二个音节的语法和语义地位(曹剑芬，1995b)。由此可见，环境或条件一定，语音的变化就一定，就有规律可循；而环境和条件不管多么复杂，它们总是有限的，所以，就可以找到随条件或环境而定的(context-dependent)、相对稳定的变化模式，这就是一种相对的不变量(relationalinvariance)。这种不变量在自然语言里是确实存在的，因而可资利用。三.相对不变量的掌握和应用从本质上说，所谓语音的相对不变量，就是语音变化的规律性。通常，这种规律性并不总是显现的，而是隐含在茫茫的自然话语之中，必须通过科学分析和研究，才能被揭示出来。我们今天已经认识或掌握的语音变化知识和规律，是千百年来人类不断探索的积累。但是，这些只是客观存在的语音变化规律的一部分，大量未知的知识和规律仍然处于人们的习焉不察之中。所以，我们对于我们的研究和处理对象－－语音－－的认识，实际上还处于相当幼稚的阶段。尽管我们可能熟知语言的语音结构，也看到并描写了许多语音变化现象。可是，我们往往无法解释这些现象，因为我们对于人类语音产生和感知的内在机制还缺乏足够的认识。譬如说，自然语音既然如此多变，为什么人却总能把各种各样的变体感知为同一个音或同一类音？可以肯定，其中必定存在某种相对不变的关系。通常，人感知语音，是通过它在头脑中的心理印迹即音响印像跟它的语义概念进行匹配的过程。显然，人所依赖的不仅仅是语音的物质特性本身，而且还有一定的音响印像所代表的声音符号同一定的语义概念之间相对固定的连接关系，而且，这种连接关系必定为说话人和听话人约定俗成、共同认可的。所以，尽管实际的语音千变万化，而人的大脑却总能依赖这种关系而随机应变。我们的任务，就是要通过对语音的客观物质特性的观察分析，结合相关的语法和语义知识，去探索和揭示这种相对不变的关系。计算机进行语音处理，本质上就是模拟人的语音产生和感知机制。因此，所涉及的就不仅仅是对言语声音本身物质特性的认识，而且应该是对这种物质外壳与语义概念之间一定的连接关系的理解和认识。但是，由于这种连接关系存在各种语用的变体，人本身尚且不能对这种关系作出满意的解释，因而更不是计算机现有的逻辑推理功能所能胜任的。所以，无论从语音学基础理论的目前水准来看，还是从计算机技术现在的发展水平来看，计算机的语音处理暂时还只能限于语音的物质特性本身。当然，理论的探索决不能尽限于此。从目前的实际出发，语音学和语音信号处理的当前使命至少有如下两点：一，继续加强和深化基础理论的探索和基础应用研究，这是根本的根本；二，充分开发利用已经掌握的语音学基础知识以及理论研究的成果，这是切实可行的现实途径。

全文2.4千字，阅读预计需要9分钟

不想阅读，直接问律师，最快3分钟有答案

继续阅读

扩展阅读