语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的辞彙内容转换为计算机可读的输入,例如按键、二进制编码或者字元序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的辞彙内容。
基本介绍
- 中文名语音识别技术
- 外文名Automatic Speech Recognition(ASR)
- 例如按键二进制编码或者字元序列
- 目标转换为计算机可读的输入
简介
语音识别技术的套用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加複杂的套用,例如语音到语音的翻译。
语音识别技术所涉及的领域包括信号处理、模式识别、机率论和资讯理论、发声机理和听觉机理、人工智慧等等。
历史
早在计算机发明之前,自动语音识别的构想就已经被提上了议事日程,早期的声码器可被视作语音识别及合成的雏形。而1920年代生产的"Radio Rex"玩具狗可能是最早的语音识别器,当这只狗的名字被呼唤的时候,它能够从底座上弹出来。最早的基于电子计算机的语音识别系统是由AT&T贝尔实验室开发的Audrey语音识别系统,它能够识别10个英文数字。其识别方法是跟蹤语音中的共振峰。该系统得到了98%的正确率。到1950年代末,伦敦学院(College of London)的Denes已经将语法机率加入语音识别中。
1960年代,人工神经网路被引入了语音识别。这一时代的两大突破是线性预测编码Linear Predictive Coding (LPC), 及动态时间规整Dynamic Time Warp技术。
语音识别技术的最重大突破是隐马尔科夫模型Hidden Markov Model的套用。从Baum提出相关数学推理,经过Labiner等人的研究,卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的非特定人大辞彙量连续语音识别系统Sphinx。此后严格来说语音识别技术并没有脱离HMM框架。
儘管多年来研究人员一直尝试将“听写机”推广,语音识别技术在目前还无法支持无限领域,无限说话人的听写机套用。
模型
目前,主流的大辞彙量语音识别系统多採用统计模式识别技术。典型的基于统计模式识别方法的 语音识别系统由以下几个基本模组所构成
信号处理及特徵提取模组。该模组的主要任务是从输入信号中提取特徵,供声学模型处理。,它一般也包括了一些信号处理技术,以儘可能降低环境噪声、信道、说话人等因素对特徵造成的影响。 统计声学模型。典型系统多採用基于一阶隐马尔科夫模型进行建模。 发音词典。发音词典包含系统所能处理的辞彙集及其发音。发音词典实际提供了声学模型建模单元与语言模型建模单元间的映射。 语言模型。语言模型对系统所针对的语言进行建模。理论上,包括正则语言,上下文无关文法在内的各种语言模型都可以作为语言模型,但目前各种系统普遍採用的还是基于统计的N元文法及其变体。 解码器。解码器是语音识别系统的核心之一,其任务是对输入的信号,根据声学、语言模型及词典,寻找能够以最大机率输出该信号的词串。 从数学角度可以更加清楚的了解上述模组之间的关係。,统计语音识别的最基本问题是,给定输入信号或特徵序列,符号集(词典),求解符号串使得
W = argmaxP(W | O) 通过贝叶斯公式,上式可以改写为W=argmaxP(O|W)P(W)
由于对于确定的输入串O,P(O)是确定的,省略它并不会影响上式的最终结果,,语音识别所讨论的问题可以用下面的公式来表示,可以将它称为语音识别的基本公式。
从这个角度来看,信号处理模组提供了对输入信号的预处理,也就是说,提供了从採集的语音信号(记为S)到 特徵序列O的映射。而声学模型本身定义了一些更具推广性的声学建模单元,并且提供了在给定输入特徵下,估计P(O | uk)的方法。
为了将声学模型建模单元串映射到符号集,就需要发音词典发挥作用。它实际上定义了映射的映射。为了表示方便,也可以定义一个由到U的全集的笛卡尔积,而发音词典则是这个笛卡尔积的一个子集。并且有
,语言模型则提供了P(W)。这样,基本公式就可以更加具体的写成
对于解码器来说,就是要在由,,ui以及时间标度t张成的搜寻空间中,找到上式所指明的W。
语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的套用已经成为一个具有竞争性的新兴高技术产业。
与机器进行语音交流,让机器明白你说什幺,这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科。近二十年来,语音识别技术取得显着进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的套用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。
原理
语音识别系统提示客户在新的场合使用新的口令密码,这样使用者不需要记住固定的口令,系统也不会被录音欺骗。文本相关的声音识别方法可以分为动态时间伸缩或隐马尔可夫模型方法。文本无关声音识别已经被研究很长时间了,不一致环境造成的性能下降是套用中的一个很大的障碍。
其工作原理
动态时间伸缩方法使用瞬间的、变动倒频。1963年Bogert et al出版了《回声的时序倒频分析》。通过交换字母顺序,他们用一个含义广泛的辞彙定义了一个新的信号处理技术,倒频谱的计算通常使用快速傅立叶变换。
从1975年起,隐马尔可夫模型变得很流行。运用隐马尔可夫模型的方法,频谱特徵的统计变差得以测量。文本无关语音识别方法的例子有平均频谱法、矢量量化法和多变数自回归法。
平均频谱法使用有利的倒频距离,语音频谱中的音位影响被平均频谱去除。使用矢量量化法,语者的一套短期训练的特徵向量可以直接用来描绘语者的本质特徵。,当训练向量的数量很大时,这种直接的描绘是不切实际的,因为存储和计算的量变得离奇的大。所以尝试用矢量量化法去寻找有效的方法来压缩训练数据。Montacie et al在倒频向量的时序中套用多变数自回归模式来确定语者特徵,取得了很好的效果。
想骗过语音识别系统要有高质量的录音机,那不是很容易买到的。一般的录音机不能记录声音的完整频谱,录音系统的质量损失也必须是非常低的。对于大多数的语音识别系统,模仿的声音都不会成功。用语音识别来辨认身份是非常複杂的,所以语音识别系统会结合个人身份号码识别或晶片卡。
语音识别系统得益于廉价的硬体设备,大多数的计算机都有音效卡和麦克风,也很容易使用。但语音识别还是有一些缺点的。语音随时间而变化,所以必须使用生物识别模板。语音也会由于伤风、嗓音沙哑、情绪压力或是青春期而变化。语音识别系统比指纹识别系统有着较高的误识率,因为人们的声音不像指纹那样独特和唯一。对快速傅立叶变换计算来说,系统需要协同处理器和比指纹系统更多的效能。目前语音识别系统不适合移动套用或以电池为电源的系统。
发展历史
国外研究
语音识别的研究工作可以追溯到20世纪50年代AT&T贝尔实验室的Audrey系统,它是第一个可以识别十个英文数字的语音识别系统。
但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在60年代末70年代初。这是因为计算机技术的发展为语音识别的实现提供了硬体和软体的可能,更重要的是语音信号线性预测编码(LPC)技术和动态时间规整(DTW)技术的提出,有效的解决了语音信号的特徵提取和不等长匹配问题。这一时期的语音识别主要基于模板匹配原理,研究的领域局限在特定人,小辞彙表的孤立词识别,实现了基于线性预测倒谱和DTW技术的特定人孤立词语音识别系统;提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。
随着套用领域的扩大,小辞彙表、特定人、孤立词等这些对语音识别的约束条件需要放宽,与此也带来了许多新的问题第一,辞彙表的扩大使得模板的选取和建立发生困难;第二,连续语音中,各个音素、音节以及词之间没有明显的边界,各个发音单位存在受上下文强烈影响的协同发音(Co-articulation)现象;第三,非特定人识别时,不同的人说相同的话相应的声学特徵有很大的差异,即使相同的人在不同的时间、生理、心理状态下,说同样内容的话也会有很大的差异;第四,识别的语音中有背景噪声或其他干扰。原有的模板匹配方法已不再适用。
实验室语音识别研究的巨大突破产生于20世纪80年代末人们终于在实验室突破了大辞彙量、连续语音和非特定人这三大障碍,第一次把这三个特性都集成在一个系统中,比较典型的是卡耐基梅隆大学(CarnegieMellonUniversity)的Sphinx系统,它是第一个高性能的非特定人、大辞彙量连续语音识别系统。
这一时期,语音识别研究进一步走向深入,其显着特徵是HMM模型和人工神经元网路(ANN)在语音识别中的成功套用。HMM模型的广泛套用应归功于AT&TBell实验室Rabiner等科学家的努力,他们把原本艰涩的HMM纯数学模型工程化,从而为更多研究者了解和认识,从而使统计方法成为了语音识别技术的主流。
统计方法将研究者的视线从微观转向巨观,不再刻意追求语音特徵的细化,而是更多地从整体平均(统计)的角度来建立最佳的语音识别系统。在声学模型方面,以Markov链为基础的语音序列建模方法HMM(隐式Markov链)比较有效地解决了语音信号短时稳定、长时时变的特性,并且能根据一些基本建模单元构造成连续语音的句子模型,达到了比较高的建模精度和建模灵活性。在语言层面上,通过统计真实大规模语料的词之间同现机率即N元统计模型来区分识别带来的模糊音和同音词。,人工神经网路方法、基于文法规则的语言处理机制等也在语音识别中得到了套用。
20世纪90年代前期,许多着名的大公司如IBM、苹果、AT&T和NTT都对语音识别系统的实用化研究投以巨资。语音识别技术有一个很好的评估机制,那就是识别的準确率,而这项指标在20世纪90年代中后期实验室研究中得到了不断的提高。比较有代表性的系统有IBM公司推出的ViaVoice和DragonSystem公司的NaturallySpeaking,Nuance公司的NuanceVoicePlatform语音平台,Microsoft的Whisper,Sun的VoiceTone等。
其中IBM公司于1997年开发出汉语ViaVoice语音识别系统,次年又开发出可以识别上海话、广东话和四川话等地方口音的语音识别系统ViaVoice'98。它带有一个32,000词的基本辞彙表,可以扩展到65,000词,还包括办公常用词条,具有“纠错机制”,其平均识别率可以达到95%。该系统对新闻语音识别具有较高的精度,是目前具有代表性的汉语连续语音识别系统。
国内研究
我国语音识别研究工作起步于五十年代,但近年来发展很快。研究水平也从实验室逐步走向实用。从1987年开始执行国家863计画后,国家863智慧型计算机专家组为语音识别技术研究专门立项,每两年滚动一次。我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。中科院自动化所、声学所、清华大学、北京大学、哈尔滨工业大学、上海交通大学、中国科技大学、北京邮电大学、华中科技大学等科研机构都有实验室进行过语音识别方面的研究,其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。
清华大学电子工程系语音技术与专用晶片设计课题组,研发的非特定人汉语数码串连续语音识别系统的识别精度,达到94.8%(不定长数字串)和96.8%(定长数字串)。在有5%的拒识率情况下,系统识别率可以达到96.9%(不定长数字串)和98.7%(定长数字串),这是目前国际最好的识别结果之一,其性能已经接近实用水平。研发的5000词邮包校核非特定人连续语音识别系统的识别率达到98.73%,前三选识别率达99.96%;并且可以识别国语与四川话两种语言,达到实用要求。
中科院自动化所及其所属模式科技(Pattek)公司2002年发布了他们共同推出的面向不同计算平台和套用的“天语”中文语音系列产品——PattekASR,结束了中文语音识别产品自1998年以来一直由国外公司垄断的历史。
分类
语音识别系统可以根据对输入语音的限制加以分类。
从说话者与识别系统的相关性考虑
可以将识别系统分为3类(1)特定人语音识别系统仅考虑对于专人的话音进行识别;(2)非特定人语音系统识别的语音与人无关,通常要用大量不同人的语音资料库对识别系统进行学习;(3)多人的识别系统通常能识别一组人的语音,或者成为特定组语音识别系统,该系统仅要求对要识别的那组人的语音进行训练。
从说话的方式考虑
也可以将识别系统分为3类(1)孤立词语音识别系统孤立词识别系统要求输入每个词后要停顿;(2)连线词语音识别系统连线词输入系统要求对每个词都清楚发音,一些连音现象开始出现;(3)连续语音识别系统连续语音输入是自然流利的连续语音输入,大量连音和变音会出现。
从识别系统的辞彙量大小考虑
也可以将识别系统分为3类(1)小辞彙量语音识别系统。通常包括几十个词的语音识别系统。(2)中等辞彙量的语音识别系统。通常包括几百个词到上千个词的识别系统。(3)大辞彙量语音识别系统。通常包括几千到几万个词的语音识别系统。随着计算机与数位讯号处理器运算能力以及识别系统精度的提高,识别系统根据辞彙量大小进行分类也不断进行变化。目前是中等辞彙量的识别系统到将来可能就是小辞彙量的语音识别系统。这些不同的限制也确定了语音识别系统的困难度。
基本方法
,语音识别的方法有三种基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网路的方法。
基于语音学和声学的方法
该方法起步较早,在语音识别技术提出的开始,就有了这方面的研究,但由于其模型及语音知识过于複杂,现阶段没有达到实用的阶段。
通常认为常用语言中有有限个不同的语音基元,而且可以通过其语音信号的频域或时域特性来区分。这样该方法分为两步实现
第一步,分段和标号
把语音信号按时间分成离散的段,每段对应一个或几个语音基元的声学特性。然后根据相应声学特性对每个分段给出相近的语音标号
第二步,得到词序列
根据第一步所得语音标号序列得到一个语音基元格线,从词典得到有效的词序列,也可结合句子的文法和语义进行。
模板匹配的方法
模板匹配的方法发展比较成熟,目前已达到了实用阶段。在模板匹配方法中,要经过四个步骤特徵提取、模板训练、模板分类、判决。常用的技术有三种动态时间规整(DTW)、隐马尔可夫(HMM)理论、矢量量化(VQ)技术。
1、动态时间规整(DTW)
语音信号的端点检测是进行语音识别中的一个基本步骤,它是特徵训练和识别的基础。所谓端点检测就是在语音信号中的各种段落(如音素、音节、词素)的始点和终点的位置,从语音信号中排除无声段。在早期,进行端点检测的主要依据是能量、振幅和过零率。但效果往往不明显。60年代日本学者Itakura提出了动态时间规整算法(DTWDynamicTimeWarping)。算法的思想就是把未知量均匀的升长或缩短,直到与参考模式的长度一致。在这一过程中,未知单词的时间轴要不均匀地扭曲或弯折,以使其特徵与模型特徵对正。
2、隐马尔可夫法(HMM)
隐马尔可夫法(HMM)是70年代引入语音识别理论的,它的出现使得自然语音识别系统取得了实质性的突破。HMM方法现已成为语音识别的主流技术,目前大多数大辞彙量、连续语音的非特定人语音识别系统都是基于HMM模型的。HMM是对语音信号的时间序列结构建立统计模型,将之看作一个数学上的双重随机过程一个是用具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与Markov链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来,但前者的具体参数是不可测的。人的言语过程实际上就是一个双重随机过程,语音信号本身是一个可观测的时变序列,是由大脑根据语法知识和言语需要(不可观测的状态)发出的音素的参数流。可见HMM合理地模仿了这一过程,很好地描述了语音信号的整体非平稳性和局部平稳性,是较为理想的一种语音模型。
3、矢量量化(VQ)
矢量量化(VectorQuantization)是一种重要的信号压缩方法。与HMM相比,矢量量化主要适用于小辞彙量、孤立词的语音识别中。其过程是将语音信号波形的k个样点的每一帧,或有k个参数的每一参数帧,构成k维空间中的一个矢量,然后对矢量进行量化。量化时,将k维无限空间划分为M个区域边界,然后将输入矢量与这些边界进行比较,并被量化为“距离”最小的区域边界的中心矢量值。矢量量化器的设计就是从大量信号样本中训练出好的码书,从实际效果出发寻找到好的失真测度定义公式,设计出最佳的矢量量化系统,用最少的搜寻和计算失真的运算量,实现最大可能的平均信噪比。
核心思想可以这样理解如果一个码书是为某一特定的信源而最佳化设计的,那幺由这一信息源产生的信号与该码书的平均量化失真就应小于其他信息的信号与该码书的平均量化失真,也就是说编码器本身存在区分能力。
在实际的套用过程中,人们还研究了多种降低複杂度的方法,这些方法大致可以分为两类无记忆的矢量量化和有记忆的矢量量化。无记忆的矢量量化包括树形搜寻的矢量量化和多级矢量量化。
神经网路的方法
利用人工神经网路的方法是80年代末期提出的一种新的语音识别方法。人工神经网路(ANN)本质上是一个自适应非线性动力学系统,模拟了人类神经活动的原理,具有自适应性、并行性、鲁棒性、容错性和学习特性,其强的分类能力和输入-输出映射能力在语音识别中都很有吸引力。但由于存在训练、识别时间太长的缺点,目前仍处于实验探索阶段。
由于ANN不能很好的描述语音信号的时间动态特性,所以常把ANN与传统识别方法结合,分别利用各自优点来进行语音识别。
系统结构
一个完整的基于统计的语音识别系统可大致分为三部分
(1)语音信号预处理与特徵提取;
(2)声学模型与模式匹配;
(3)语言模型与语言处理。
语音信号预处理与特徵提取
选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研究任务决定。
单词(句)单元广泛套用于中小辞彙语音识别系统,但不适合大辞彙系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法複杂,难以满足实时性要求。
音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而英语是多音节,并且汉语虽然有大约1300个音节,但若不考虑声调,约有408个无调音节,数量相对较少。,对于中、大辞彙量汉语语音识别系统来说,以音节为识别单元基本是可行的。
音素单元以前多见于英语语音识别的研究中,但目前中、大辞彙量汉语语音识别系统也在越来越多地採用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成,且声韵母声学特性相差很大。实际套用中常把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节的区分能力。由于协同发音的影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研究。
语音识别一个根本的问题是合理的选用特徵。特徵参数提取的目的是对语音信号进行分析处理,去掉与语音识别无关的冗余信息,获得影响语音识别的重要信息,对语音信号进行压缩。在实际套用中,语音信号的压缩率介于10-100之间。语音信号包含了大量各种不同的信息,提取哪些信息,用哪种方式提取,需要综合考虑各方面的因素,如成本,性能,回响时间,计算量等。非特定人语音识别系统一般侧重提取反映语义的特徵参数,儘量去除说话人的个人信息;而特定人语音识别系统则希望在提取反映语义的特徵参数的,儘量也包含说话人的个人信息。
线性预测(LP)分析技术是目前套用广泛的特徵参数提取技术,许多成功的套用系统都採用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型,没有考虑人类听觉系统对语音的处理特点。
Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱,在一定程度上模拟了人耳对语音的处理特点,套用了人耳听觉感知方面的一些研究成果。实验证明,採用这种技术,语音识别系统的性能有一定提高。从目前使用的情况来看,梅尔刻度式倒频谱参数已逐渐取代原本常用的线性预测编码导出的倒频谱参数,原因是它考虑了人类发声与接收声音的特性,具有更好的鲁棒性(Robustness)。
也有研究者尝试把小波分析技术套用于特徵提取,但目前性能难以与上述技术相比,有待进一步研究。
声学模型与模式匹配
声学模型通常是将获取的语音特徵使用训练算法进行训练后产生。在识别时将输入的语音特徵同声学模型(模式)进行匹配与比较,得到最佳的识别结果。
声学模型是识别系统的底层模型,并且是语音识别系统中最关键的一部分。声学模型的目的是提供一种有效的方法计算语音的特徵矢量序列和每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元大小(字发音模型、半音节模型或音素模型)对语音训练数据量大小、系统识别率,以及灵活性有较大的影响。必须根据不同语言的特点、识别系统辞彙量的大小决定识别单元的大小。
以汉语为例
汉语按音素的发音特徵分类分为辅音、单元音、複元音、复鼻尾音四种,按音节结构分类为声母和韵母。并且由音素构成声母或韵母。有时,将含有声调的韵母称为调母。由单个调母或由声母与调母拼音成为音节。汉语的一个音节就是汉语一个字的音,即音节字。由音节字构成词,再由词构成句子。
汉语声母共有22个,其中包括零声母,韵母共有38个。按音素分类,汉语辅音共有22个,单元音13个,複元音13个,复鼻尾音16个。
目前常用的声学模型基元为声韵母、音节或词,根据实现目的不同来选取不同的基元。汉语加上语气词共有412个音节,包括轻音字,共有1282个有调音节字,所以当在小辞彙表孤立词语音识别时常选用词作为基元,在大辞彙表语音识别时常採用音节或声韵母建模,而在连续语音识别时,由于协同发音的影响,常採用声韵母建模。
基于统计的语音识别模型常用的就是HMM模型λ(N,M,π,A,B),涉及到HMM模型的相关理论包括模型的结构选取、模型的初始化、模型参数的重估以及相应的识别算法等。
语言模型与语言处理
语言模型包括由识别语音命令构成的语法网路或由统计方法构成的语言模型,语言处理可以进行语法、语义分析。
语言模型对中、大辞彙量的语音识别系统特别重要。当分类发生错误时可以根据语言学模型、语法结构、语义学进行判断纠正,特别是一些同音字则必须通过上下文结构才能确定词义。语言学理论包括语义结构、语法规则、语言的数学描述模型等有关方面。目前比较成功的语言模型通常是採用统计语法的语言模型与基于规则语法结构命令语言模型。语法结构可以限定不同词之间的相互连线关係,减少了识别系统的搜寻空间,这有利于提高系统的识别。
面临问题
就算法模型方面而言
需要有进一步的突破。目前能看出它的一些明显不足,尤其在中文语音识别方面,语言模型还有待完善,因为语言模型和声学模型正是听写识别的基础,这方面没有突破,语音识别的进展就只能是一句空话。目前使用的语言模型只是一种机率模型,还没有用到以语言学为基础的文法模型,而要使计算机确实理解人类的语言,就必须在这一点上取得进展,这是一个相当艰苦的工作。,随着硬体资源的不断发展,一些核心算法如特徵提取、搜寻算法或者自适应算法将有可能进一步改进。可以相信,半导体和软体技术的共同进步将为语音识别技术的基础性工作带来福音。
就自适应方面而言
语音识别技术也有待进一步改进。目前,象IBM的ViaVoice和Asiaworks的SPK都需要用户在使用前进行几百句话的训练,以让计算机适应你的声音特徵。这必然限制了语音识别技术的进一步套用,大量的训练不仅让用户感到厌烦,而且加大了系统的负担。并且,不能指望将来的消费电子套用产品也针对单个消费者进行训练。,必须在自适应方面有进一步的提高,做到不受特定人、口音或者方言的影响,这实际上也意味着对语言模型的进一步改进。现实世界的用户类型是多种多样的,就声音特徵来讲有男音、女音和童音的区别,,许多人的发音离标準发音差距甚远,这就涉及到对口音或方言的处理。如果语音识别能做到自动适应大多数人的声线特徵,那可能比提高一二个百分点识别率更重要。事实上,ViaVoice的套用前景也因为这一点打了折扣,只有国语说得很好的用户才可以在其中文版连续语音识别方面取得相对满意的成绩。
就强健性方面而言
语音识别技术需要能排除各种环境因素的影响。目前,对语音识别效果影响最大的就是环境杂音或嗓音,在公共场合,你几乎不可能指望计算机能听懂你的话,来自四面八方的声音让它茫不知所措。很显然这极大地限制了语音技术的套用範围,目前,要在嘈杂环境中使用语音识别技术必须有特殊的抗嗓(NoiseCancellation)麦克风才能进行,这对多数用户来说是不现实的。在公共场合中,个人能有意识地摒弃环境嗓音并从中获取自己所需要的特定声音,如何让语音识别技术也能达成这一点呢?这的确是一个艰巨的任务。
,频宽问题也可能影响语音的有效传送,在速率低于1000比特/秒的极低比特率下,语音编码的研究将大大有别于正常情况,比如要在某些频宽特别窄的信道上传输语音,以及水声通信、地下通信、战略及保密话音通信等,要在这些情况下实现有效的语音识别,就必须处理声音信号的特殊特徵,如因为频宽而延迟或减损等。语音识别技术要进一步套用,就必须在强健性方面有大的突破。
多语言混合识别以及无限辞彙识别方面
简单地说,目前使用的声学模型和语音模型太过于局限,以至用户只能使用特定语音进行特定辞彙的识别。如果突然从中文转为英文,或者法文、俄文,计算机就会不知如何反应,而给出一堆不知所云的句子;或者用户偶尔使用了某个专门领域的专业术语,如“信噪比"等,可能也会得到奇怪的反应。这一方面是由于模型的局限,另一方面也受限于硬体资源。随着两方面的技术的进步,将来的语音和声学模型可能会做到将多种语言混合纳入,用户就可以不必在语种之间来回切换。,对于声学模型的进一步改进,以及以语义学为基础的语言模型的改进,也能帮助用户儘可能少或不受辞彙的影响,从而可实行无限辞彙识别。
多语种交流系统的套用
最终,语音识别是要进一步拓展我们的交流空间,让我们能更加自由地面对这个世界。可以想见,如果语音识别技术在上述几个方面确实取得了突破性进展,那幺多语种交流系统的出现就是顺理成章的事情,这将是语音识技术、机器翻译技术以及语音合成技术的完美结合,而如果硬体技术的发展能将这些算法进而固化到更为细小的晶片,比如手持移动设备上,那幺个人就可以带着这种设备週游世界而无需担心任何交流的困难,你说出你想表达的意思,手持设备识别并将它翻译成对方的语言,然后合成并传送出去;接听对方的语言,识别并翻译成已方的语言,合成后朗读给你听,所有这一切几乎都是进行的,只是机器充当着主角。
任何技术的进步都是为了更进一步拓展我们人类的生存和交流空间,以使我们获得更大的自由,就服务于人类而言,这一点显然也是语音识别技术的发展方向,而为了达成这一点,它还需要在上述几个方面取得突破性进展,最终,多语种自由交流系统将带给我们全新的生活空间。
前景套用
在电话与通信系统中,智慧型语音接口正在把电话机从一个单纯的服务工具变成为一个服务的“提供者”和生活“伙伴”;使用电话与通信网路,人们可以通过语音命令方便地从远端的资料库系统中查询与提取有关的信息;随着计算机的小型化,键盘已经成为移动平台的一个很大障碍,想像一下如果手机仅仅只有一个手錶那幺大,再用键盘进行拨号操作已经是不可能的。语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的套用已经成为一个具有竞争性的新兴高技术产业。
语音识别技术发展到今天,特别是中小辞彙量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常套用的要求。由于大规模积体电路技术的发展,这些複杂的语音识别系统也已经完全可以製成专用晶片,大量生产。在西方经济已开发国家,大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智慧型玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网路用语音识别口语对话系统查询有关的机票、旅游、银行信息,并且取得很好的结果。调查统计表明多达85%以上的人对语音识别的信息查询服务系统的性能表示满意。
可以预测在近五到十年内,语音识别系统的套用将更加广泛。各种各样的语音识别系统产品将出现在市场上。人们也将调整自己的说话方式以适应各种各样的识别系统。在短期内还不可能造出具有和人相比拟的语音识别系统,要建成这样一个系统仍然是人类面临的一个大的挑战,我们只能一步步朝着改进语音识别系统的方向一步步地前进。至于什幺时候可以建立一个像人一样完善的语音识别系统则是很难预测的。就像在60年代,谁又能预测今天超大规模积体电路技术会对我们的社会产生这幺大的影响。
相关信息
语音识别的研究工作大约开始于上世纪50年代,当时AT&T的Bell实验室实现了第一个可识别十个英文数字的语音识别系统——Audrey系统。
20世纪60年代,计算机的套用推动了语音识别的发展。这一时期的重要成果是提出了动态规划(DP)和线性预测分析技术(LP),其中后者较好地解决了语音信号产生模型的问题,对语音识别的发展产生了深远影响。
20世纪70年代,语音识别领域取得了突破。在理论上,LP技术得到进一步发展,动态时间归正技术(DTW)基本成熟,特别是提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。在实践上,实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。
20世纪80年代,语音识别研究进一步走向深入,其显着特徵是HMM模型和人工神经元网路(ANN)在语音识别中的成功套用。HMM模型的广泛套用应归功于AT&T的Bell实验室Rabiner等科学家的努力,他们把原本艰涩的HMM纯数学模型工程化,从而为更多研究者了解和认识。採用ANN和HMM模型建立的语音识别系统,性能相当。
进入20世纪90年代,随着多媒体时代的来临,迫切要求语音识别系统从实验室走向实用。许多已开发国家如美国、日本、韩国以及IBM、Apple、AT&T、NTT等着名公司都为语音识别系统的实用化开发研究投以巨资。
我国语音识别研究工作一直紧跟国际水平,国家也给予了高度重视。鑒于中国未来庞大的市场,国外也非常重视汉语语音识别的研究。美国、新加坡等地聚集了一批来自大陆、台湾、香港等地的学者,研究成果已达到相当高水平。,国内除了要加强理论研究外,更要加快从实验室演示系统到商品的转化。
语音识别系统可有不同的分类方式。
(1)根据对说话人说话方式的要求,可以分为孤立字(词)语音识别系统,连线字语音识别系统以及连续语音识别系统。
(2)根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统。
(3)根据辞彙量大小,可以分为小辞彙量、中等辞彙量、大辞彙量以及无限辞彙量语音识别系统。
不同的语音识别系统,虽然具体实现细节有所不同,但所採用的基本技术相似。
语音识别技术主要包括特徵提取技术、模式匹配準则及模型训练技术三个方面。,还涉及到语音识别单元的选取等问题。