语音分析

生活百科 2023-01-26 17:48生活百科www.aizhengw.cn

语音分析

语音分析(SpeechAnalytics)技术,是指通过语音识别等核心技术将非结构化的语音信息转换为结构化的索引,实现对海量录音档案、音频档案的的知识挖掘和快速检索。

基本介绍

  • 中文名语音分析
  • 外文名SpeechAnalytics
  • 核心功能语义解析
  • 套用价值讯飞语言
  • 套用学科通信

定义

语音分析(SpeechAnalytics)技术,是指通过语音识别等核心技术将非结构化的语音信息转换为结构化的索引,实现对海量录音档案、音频档案的的知识挖掘和快速检索。
呼叫中心保存着大量的客服录音数据,这些语音中包含着客户需求、投诉、满意度、建议、竞争性情报等大量的有价值的信息,由于数量巨大,检索不便,目前普遍只能用于质检。
科大讯飞VoiceInsight语音分析系统,通过领先的语音分析核心技术,针对客服中心的实际业务需要,可有效的对录音数据进行自动分析,提取出有效的信息,让用户驾驭海量客服录音数据,辅助客服质检,进而针对性的改善客服质量,提高客户满意度;也可以通过系统挖掘到用户行为数据,进而及时进行準确的市场决策。
语音分析常用的特有参数有共振峰幅度与频率,它是语音短时功率谱中能量集中的几个区域,区域中心频率称为共振峰频率,一般语音有三至五个共振峰。这些共振峰频率成分的幅度称为共振峰幅度。有时把共振峰幅度从中心到下降3dB处的频宽称为共振峰频宽。共振峰的参数完全确定了发音中元音的属性。
用时域方法,採用线性预测计算方法获得的语音参数,称为线性预测参数。线性预测参数是语音的时域分析参数,它能準确地获得声道的传输特性,由时域与频域参数之间的确定关係,由线性预测参数可转换求得共振峰参数。利用线性预测参数可以求得另一组参数称为反射係数,反射係数比线性预测参数具有更好的数值稳定性。由线性预测参数还可以求得一套係数,称为线谱对参数,它们既保留时域计算的特点,又具有反映共振峰频率特性的内涵。
利用同态信号分析方法,对语音信号进行分析可以得到一组倒谱参数。倒谱参数被认为是更适用于语音识别的一组参数。
语音分析技术常被用于语音编码压缩,形成各种中速、低速编码的新方案。例如子带编码、交换编码、自适应预测编码、多脉冲激励线性预测编码、码激励线性预测编码等。语音识别也是基于语音分析的结果,进行参数的分类与识别,运用不同的参数,可以导致不同的识别结果。利用语音分析技术还可以设计製造用于发音的各种矫正仪器,可供发音器官疾病的治疗或聋哑人发音训练等使用。
语音分析的常用仪器有语图仪,用于语音动态频谱的分析及记录。实时数字语图仪是一种新的语图仪。语音分析更常用的方法是利用通用微机加入语音处理设定,通过专用软体计算获得。
图1 语音识别技术原理图

语音理解

语音理解(speech understanding) 利用知识表达和组织等人工智慧技术进行语句自动识别和语意理解。同语音识别的主要不同点是对语法和语义知识的充分利用程度。
语音理解起源于美国,1971年,美国远景研究计画局(ARPA)资助了一个庞大的研究项目,该项目要达到的目标叫做语音理解系统。由于人对语音有广泛的知识,可以对要说的话有一定的预见性,所以人对语音具有感知和分析能力。依靠人对语言和谈论的内容所具有的广泛知识,利用知识提高计算机理解语言的能力,就是语音理解研究的核心。
利用理解能力,可以使系统提高性能①能排除噪声和嘈杂声;②能理解上下文的意思并能用它来纠正错误,澄清不确定的语义;③能够处理不合语法或不完整的语句。,研究语音理解的目的,可以说是与其研究系统仔细地去识别每一个单词,倒不如去研究系统能抓住说话的要旨更为有效。
一个语音理解系统除了包括原语音识别所要求的 部分之外,还须添入知识处理部分。知识处理包括知识的自动收集、知识库的形成,知识的推理与检验等。还希望能有自动地作知识修正的能力。语音理解可以认为是信号处理与知识处理结合的产物。语音知识包括音位知识、音变知识、韵律知识、词法知识、句法知识,语义知识以及语用知识。这些知识涉及实验语音学、汉语语法、自然语言理解、以及知识搜寻等许多交叉学科。
初步研製成功的语音理解系统称为HEARSAY系统。它是利用一种公用“黑板"作为知识库,环绕此黑板的是一系列专家系统,分别提取及搜寻有关音位、音变……等各种知识。以后能进一步达到预计目标的系统是HARPY系统,该系统用语言的有限状态模型,通过唯一的一个统一的网路把彼此分离的各种知识源集中起来,这个统一的网路,称为知识编译器。不同理解系统在利用知识的策略或组织方面各有不同的特点。
完善的语音理解系统是人们梦寐以求的研究理想,但这并非短期内能够完全解决的研究课题。面向确定任务的语音理解系统,例如只涉及有限的辞彙量,有一般比较通用的说话句型的语音理解系统,以及可供一定範围的工作人员使用的语音理解系统,是可以实现的。,它对某些自动化套用领域已有实用价值,例如飞机票预售系统、银行业务、旅馆业务的登记及询问系统等。

语音识别

语音识别(speech recognition) 利用计算机自动对语音信号的音素、音节或词进行识别的技术总称。语音识别是实现语音自动控制的基础。
语音识别起源于20世纪50年代的“口授打字机”梦想,科学家在掌握了元音的共振峰变迁问题和辅音的声学特性之后,相信从语音到文字的过程是可以用机器实现的,即可以把普通的读音转换成书写的文字。语音识别的理论研究已经有40多年,转入实际套用却是在数位技术、积体电路技术发展之后,现在已经取得了许多实用的成果。
语音识别一般要经过以下几个步骤①语音预处理,,包括对语音的幅度标称化、频响校正、分帧、加窗和始末端点检测等内容。②语音声学参数分析,包括对语音共振峰频率、幅度等参数,以及对语音的线性预测参数、倒谱参数等的分析。③参数标称化,主要是时间轴上的标称化,常用的方法有动态时间规整(DTW),或动态规划方法(DP)。④模式匹配,可以採用距离準则或机率规则,也可以採用句法分类等。⑤识别判决,通过的判别函式给出识别的结果。
语音识别可按不同的识别内容进行分类有音素识别、音节识别、词或词组识别;也可以按辞彙量分类有小辞彙量(50个词以下)、中词量(50~500个词)、大词量(500个词以上)及超大词量(几十至几万个词)。按照发音特点分类可以分为孤立音、连线音及连续音的识别。按照对发音人的要求分类有认人识别,即只对特定的发话人识别,和不认人识别,即不分发话人是谁都能识别。显然,最困难的语音识别是大词量、连续音和不识人满足的语音识别。

核心功能

语音分析系统核心功能
1、语义解析
讯飞语义解析技术能够对用户的自然语言进行自动化挖掘、分析、归类和展现,为运营分析与决策提供支撑。
2、场景分割
场景分割技术可自动将一个通话录音中的用户语音和坐席语音分离出来,从而方便进行不同侧重、更有针对性的检察、分析,是实现高效语音分析套用的重要支撑技术。讯飞场景分割技术在业界具有最高的準确度,便于用户针对不同的角色进行统计和分析设计。
3、情绪侦测
讯飞语音分析系统可对通话中用户或坐席的情绪进行自动侦测与判断,一旦发现异常,可及时记录或预警。讯飞情绪侦测技术结合讯飞在语音及语言技术上的优势成果,可提供更高的準确率和及时性。
4、语速检测
系统可自动对分离后的坐席或坐席语音进行语速检测,如语速过快则可能用户很难听清楚,影响服务质量,而语速过慢则可能坐席技能是不够熟练、或者工作状态不佳。
5、抢插话检测
系统可自动检测通话中是否存在抢插话等问题,进行判断和统计。
6、静音检测
系统可自动检测录音档案中长时静音(冷场、用户与坐席均没有说话)的状态,静音时长可在系统中灵活设定与修改。

套用价值

讯飞收集众多重点行业的语音分析套用需求,并根据此专门设计了语音分析套用系统,可帮助用户加速套用投产进程,更快获得收益。,讯飞拥有一支经验丰富的项目组,针对客户的个性化需求进行定製开发,完善套用系统的功能、报表等,使系统持续适应客户业务发展的需要。

Copyright@2015-2025 www.aizhengw.cn 癌症网版板所有