语音处理

生活百科 2023-01-26 08:57生活百科www.aizhengw.cn

语音处理

语音处理(speech signal processing)用以研究语音发声过程、语音信号的统计特性、语音的自动识别、机器合成以及语音感知等各种处理技术的总称。由于现代的进音处理技术都以数字计算为基础,并藉助微处理器、信号处理器或通用计算机加以实现,也称数字语音信号处理。

基本介绍

  • 中文名语音处理
  • 外文名speech signal processing
  • 套用学科通信

定义

语音信号处理的研究起源于对发音器官的模拟。1939年美国H.杜德莱(H.Dudley)展出了一个简单的发音过程模拟系统,以后发展为声道的数字模型。利用该模型可以对语音信号进行各种频谱及参数的分析,进行通信编码或数据压缩的研究,也可根据分析获得的频谱特徵或参数变化规律,合成语音信号,实现机器的语音合成。利用语音分析技术,还可以实现对语音的自动识别,发音人的自动辨识,如果与人工智慧技术结合,还可以实现各种语句的自动识别以至语言的自动理解,从而实现人机语音互动应答系统,真正赋予计算机以听觉的功能。
语言信息主要包含在语音信号的参数之中,準确而迅速地提取语言信号的参数是进行语音信号处理的关键。常用的语音信号参数有共振峰幅度、频率与频宽、音调和噪音、噪音的判别等。后来又提出了线性预测係数、声道反射係数和倒谱参数等参数。这些参数仅仅反映了发音过程中的一些平均特性,而实际语言的发音变化相当迅速,需要用非平稳随机过程来描述,,20世纪80年代之后,研究语音信号非平稳参数分析方法迅速发展,人们提出了一整套快速的算法,还有利用最佳化规律实现以合成信号统计分析参数的新算法,取得了很好的效果。
当语音处理向实用化发展时,人们发现许多算法的抗环境干扰能力较差。,在噪声环境下保持语音信号处理能力成为了一个重要课题。这促进了语音增强的研究。一些具有抗干扰性的算法相继出现。当前,语音信号处理日益同智慧型计算技术和智慧型机器人的研究紧密结合,成为智慧型信息技术中的一个重要分支。
语音信号处理是一门多学科的综合技术。它以生理、心理、语言以及声学等基本实验为基础,以资讯理论、控制论、系统论的理论作指导,通过套用信号处理、统计分析、模式识别等现代技术手段,发展成为新的学科。1965年出版的《语音的分析、合成与感知(J.L.Flanagan着),1976年出版的《语音信号线性预测》(J.Q.Makoul与A.H.Gray着),以及1978年出版的《语音信号数字处理R.Rabiner和R.W.Shafer着)等教材比较全面地反映了这门学科的一些基本理论、 方法及成果。我国学者吴宗济、林茂灿主编的《实验语音学概要》,从语音产生的物理基础、生理基础、语音知觉的心理基础以及元音、辅音和声调特徵等方面,给出了较详细的实验研究方法和数据。80年代后期开始对听觉器官耳蜗的研究,为研究非线性语音处理方法提供了可供借鉴的依据。高速信号处理器的迅速发展,神经网路模拟晶片的研究成功,为实现实时语音处理系统创造了物质条件,使大批语音处理技术实际套用于生产、国防等许多部门。
语音信号处理在通信、国防等部门中有着广阔的套用领域。为了改善通信中语言信号的质量而研究的各种频响修正和补偿技术,为了提髙效率而研究的数据编码压缩技术,以及为了改善通信条件而研究的噪声抵消及干扰抑制技术,都与语音处理密切相关。在国防通信及指挥部门中,套用语音处理,可以实现在各种不同通信条件下的话带保密通信,计算机网路中的话音和数据综合通信,在强噪声环境(例如,髙性能战斗机,直升机环境和战场指挥所等)中使用的语音识别装置,克服强干扰影响语音降质的噪声消除装置,说话人识别与说话人证实,以及各种先进空中交通控制用的互动式语音识别/合成接口等等,都是现代指挥自动化的重要组成部分。在金融部门套用语音处理,开始利用说话人识别和语音识别实现根据用户语音自动存款、取款的业务。在仪器仪表和控制自动化生产中,利用语音合成读出测量数据和故障警告。随着语音处理技术的发展,可以预期它将在更多部门得到套用。
儘管语音处理的研究已经经历了将近50年的历史,取得了许多成果,还面临着一系列理论和方法上的实际问题。例如在编码技术方面,中速编码已经可以提供满意的通信音质,那幺低速编码是否也能突破低通信音质的局限,达到电话音质的要求?在识别方面,连续语音的分割,大词量语音的识别和识别任何人的语音等方面尚无可靠的办法。在语音理解方面,关于语义信息的定性描述和定量估计,都还没有统一的计算方法等,这些都是今后研究的重要方向。
图1 语音识别技术原理图

语音理解

语音理解(speech understanding) 利用知识表达和组织等人工智慧技术进行语句自动识别和语意理解。同语音识别的主要不同点是对语法和语义知识的充分利用程度。
语音理解起源于美国,1971年,美国远景研究计画局(ARPA)资助了一个庞大的研究项目,该项目要达到的目标叫做语音理解系统。由于人对语音有广泛的知识,可以对要说的话有一定的预见性,所以人对语音具有感知和分析能力。依靠人对语言和谈论的内容所具有的广泛知识,利用知识提高计算机理解语言的能力,就是语音理解研究的核心。
利用理解能力,可以使系统提高性能①能排除噪声和嘈杂声;②能理解上下文的意思并能用它来纠正错误,澄清不确定的语义;③能够处理不合语法或不完整的语句。,研究语音理解的目的,可以说是与其研究系统仔细地去识别每一个单词,倒不如去研究系统能抓住说话的要旨更为有效。
一个语音理解系统除了包括原语音识别所要求的 部分之外,还须添入知识处理部分。知识处理包括知识的自动收集、知识库的形成,知识的推理与检验等。还希望能有自动地作知识修正的能力。语音理解可以认为是信号处理与知识处理结合的产物。语音知识包括音位知识、音变知识、韵律知识、词法知识、句法知识,语义知识以及语用知识。这些知识涉及实验语音学、汉语语法、自然语言理解、以及知识搜寻等许多交叉学科。
初步研製成功的语音理解系统称为HEARSAY系统。它是利用一种公用“黑板"作为知识库,环绕此黑板的是一系列专家系统,分别提取及搜寻有关音位、音变……等各种知识。以后能进一步达到预计目标的系统是HARPY系统,该系统用语言的有限状态模型,通过唯一的一个统一的网路把彼此分离的各种知识源集中起来,这个统一的网路,称为知识编译器。不同理解系统在利用知识的策略或组织方面各有不同的特点。
完善的语音理解系统是人们梦寐以求的研究理想,但这并非短期内能够完全解决的研究课题。面向确定任务的语音理解系统,例如只涉及有限的辞彙量,有一般比较通用的说话句型的语音理解系统,以及可供一定範围的工作人员使用的语音理解系统,是可以实现的。,它对某些自动化套用领域已有实用价值,例如飞机票预售系统、银行业务、旅馆业务的登记及询问系统等。

语音识别

语音识别(speech recognition) 利用计算机自动对语音信号的音素、音节或词进行识别的技术总称。语音识别是实现语音自动控制的基础。
语音识别起源于20世纪50年代的“口授打字机”梦想,科学家在掌握了元音的共振峰变迁问题和辅音的声学特性之后,相信从语音到文字的过程是可以用机器实现的,即可以把普通的读音转换成书写的文字。语音识别的理论研究已经有40多年,转入实际套用却是在数位技术、积体电路技术发展之后,现在已经取得了许多实用的成果。
语音识别一般要经过以下几个步骤①语音预处理,,包括对语音的幅度标称化、频响校正、分帧、加窗和始末端点检测等内容。②语音声学参数分析,包括对语音共振峰频率、幅度等参数,以及对语音的线性预测参数、倒谱参数等的分析。③参数标称化,主要是时间轴上的标称化,常用的方法有动态时间规整(DTW),或动态规划方法(DP)。④模式匹配,可以採用距离準则或机率规则,也可以採用句法分类等。⑤识别判决,通过的判别函式给出识别的结果。
语音识别可按不同的识别内容进行分类有音素识别、音节识别、词或词组识别;也可以按辞彙量分类有小辞彙量(50个词以下)、中词量(50~500个词)、大词量(500个词以上)及超大词量(几十至几万个词)。按照发音特点分类可以分为孤立音、连线音及连续音的识别。按照对发音人的要求分类有认人识别,即只对特定的发话人识别,和不认人识别,即不分发话人是谁都能识别。显然,最困难的语音识别是大词量、连续音和不识人满足的语音识别。
上一篇:Dominic Fulford 下一篇:HAMANN

Copyright@2015-2025 www.aizhengw.cn 癌症网版板所有