欢迎来到优发表网,发表咨询:400-888-9411 订阅咨询:400-888-1571股权代码(211862)

购物车(0)

期刊大全 杂志订阅 SCI期刊 期刊投稿 出版社 公文范文 精品范文

语音识别技术(合集7篇)

时间:2023-03-17 18:05:50
语音识别技术

语音识别技术第1篇

【关键词】语音识别技术;发展趋势

语音识别是一门交叉学科。语音识别研究经历了50多年的研究历程,经过50多年的积累研究,获得了巨大的进展。特别是近20年来,语音识别技术取得了显着的进步,并逐步的走向市场。在未来的日子里,语音识别技术将应用更为广泛。

一、语音识别技术概述

语音识别是解决机器“听懂”人类语言的一项技术。作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。如今,随着语音识别技术研究的突破,其对计算机发展和社会生活的重要性日益凸现出来。以语音识别技术开发出的产品应用领域非常广泛,如声控电话交换、信息网络查询、家庭服务、宾馆服务、医疗服务、银行服务、工业控制、语音通信系统等,几乎深入到社会的每个行业和每个方面。

广泛意义上的语音识别按照任务的不同可以分为4个方向:说话人识别、关键词检出、语言辨识和语音识别。说话人识别技术是以话音对说话人进行区别,从而进行身份鉴别和认证的技术。关键词检出技术应用于一些具有特定要求的场合,只关注那些包含特定词的句子,例如对一些特殊人名、地名的电话监听等。语言辨识技术是通过分析处理一个语音片断以判别其所属语言种类的技术,本质上也是语音识别技术的一个方面。语音识别就是通常人们所说的以说话的内容作为识别对象的技术,它是4个方面中最重要和研究最广泛的一个方向,也是本文讨论的主要内容。

二、语音识别的研究历史

语音识别的研究工作始于20世纪50年代,1952年Bell实验室开发的Audry系统是第一个可以识别10个英文数字的语音识别系统。

1959年,Rorgie和Forge采用数字计算机识别英文元音和孤立词,从此开始了计算机语音识别。

60年代,苏联的Matin等提出了语音结束点的端点检测,使语音识别水平明显上升;Vintsyuk提出了动态编程,这一提法在以后的识别中不可或缺。60年代末、70年代初的重要成果是提出了信号线性预测编码(LPC)技术和动态时间规整(DTW)技术,有效地解决了语音信号的特征提取和不等长语音匹配问题;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。

80年代语音识别研究进一步走向深入:HMM模型和人工神经网络(ANN)在语音识别中成功应用。1988年,FULEE Kai等用VQ/I-IMM方法实现了997个词汇的非特定人连续语音识别系统SPHINX。这是世界上第1个高性能的非特定人、大词汇量、连续语音识别系统。

进入90年代后,语音识别技术进一步成熟,并开始向市场提品。许多发达国家如美国、日本、韩国以及IBM、Apple、AT&;T、Microsoft等公司都为语音识别系统的实用化开发研究投以巨资。同时汉语语音识别也越来越受到重视。IBM开发的ViaVoice和Microsoft开发的中文识别引擎都具有了相当高的汉语语音识别水平。

进入21世纪,随着消费类电子产品的普及,嵌入式语音处理技术发展迅速[2]。基于语音识别芯片的嵌入式产品也越来越多,如Sensory公司的RSC系列语音识别芯片、Infineon公司的Unispeech和Unilite语音芯片等,这些芯片在嵌入式硬件开发中得到了广泛的应用。在软件上,目前比较成功的语音识别软件有:Nuance、IBM的Viavoice和Microsoft的SAPI以及开源软件HTK,这些软件都是面向非特定人、大词汇量的连续语音识别系统。

三、语音识别技术的发展现状

语音识别技术通过全球科学家的共同努力,经历半个多世纪的研究,目前已经发展到了接近实用的阶段。在实验室环境下,大词汇量的朗读式连续说话的宽带语音信号的平均识别率可以达到90%以上。正式有了如此高的识别率之后,语音识别技术慢慢地从实验室演示系统逐步走向实用化商品。以IBM Via Voice和Dragon Dictation为代表的两个听写机系统的出现,使“语音识别”逐步进入大众视线,引起了广泛的社会关注。

由于校对和更正识别的错误很麻烦和浪费时间,这样便降低语音识别的优势。同时,由于使用的环境或讲话口音习惯等因素的影响,语音识别的内容大大降低,识别的内容不能达到100%的正确,所以很多人认为目前的语音识别系统还无法满足实用要求。

目前,AT&T和MIT等将语音识别技术应用在一些有限词汇的特定任务上,如电话自动转接、电话查询、数字串识别的任务中,当讲话的内容是系统所存储的内容存在的,且使用环境的声学特性与训练数据的声学特性相差不太大时,语音识别的正确识别率可以接近100%。但是,在实际使用中如果这些条件被破坏,则会对识别系统造成一定的影响。

我国的语音识别研究一直紧跟国际水平,国家也很重视。国内中科院的自动化所、声学所以及清华大学等科研机构和高校都在从事语音识别领域的研究和开发。国家863智能计算机专家组为语音识别技术研究专门立项,并取得了高水平的科研成果。我国中科院自动化所研制的非特定人、连续语音听写系统和汉语语音人机对话系统,其准确率和系统响应率均可达90%以上。

四、语音识别技术发展趋势

语音作为当前通信系统中最自然的通信媒介,语音识别技术是非常重要的人机交互技术。随着计算机和语音处理技术的发展,语音识别系统的实用性将进一步提高。应用语音的自动理解和翻译,可消除人类相互交往的语言障碍。国外已有多种基于语音识别产品的应用,如声控拨号电话、语音记事本等,基于特定任务和环境的听写机也已经进入应用阶段。这预示着语音识别技术有着非常广泛的应用领域和市场前景。随着语音技术的进步和通信技术的飞速发展,语音识别技术将为网上会议、商业管理、医药卫生、教育培训等各个领域带来极大的便利,其应用和经济、社会效益前景非常良好.

虽然语音识别在过去的20年里有了很大的发展,但是,仍然存在很多的不足,有待于进一步的探索,具体可分为以下几个方面:

1.提高可靠性。语音识别技术需要能排除各种声学环境因素的影响。在比较嘈杂的公共环境中,人的意识会有意识的排除非需要的声学环境因素,这对语音识别系统而言,是很难做到的。另外,在日常生活中,人类的语言常常具有较大的不确定性,比较随意,并带有明显的言语习惯。这同样会给语音识别系统很大的识别麻烦。目前,在提高语音系统在不同环境中的可靠性,同时要应用现代技术让语音识别系统更加智能化,掌握人们语言随意性的部分规律,以达到最佳的识别效果。

2.增加词汇量。系统可以识别的词汇的数量是系统能够做什么事情的一个重要度量。一个语音识别系统使用的声学模型和语音模型如果太过于局限,当用户所讲的词汇超出系统已知的范围时,则语音识别系统不能准确的识别出相应的内容,比如,当突然从中文转为英文、法文、俄文时,计算机就会常常输出混乱奇怪的结果。但是,随着系统建模方法的不断改进、搜索算法效率的提高以及硬件资源的发展,未来的语音识别系统可能会做到词汇量无限制和多种语言混合,这样用户在使用的时候可以不必在语种之间来回切换,这样就能大大减少词汇量的对语音识别系统的限制。

3.应用拓展。语音识别技术可以用于把费脑、费力、费时的机器操作变成一件很容易很有趣味性的事,比如,当人们出现手忙、手不能及以及分身无术的场景时,通过语音识别系统的模型构造,则能够在象驾驶室、危险的工业场合、远距离信息获取、家电控制等各个方面,语音识别技术可能带动一系列崭新或更便捷功能的设备出现,更加方便人的工作和生活。其应用的范围和前景非常广泛。不仅能够应用于日常生活,更重要的会带来生产方式的革命,是下一代智能化控制的基础。

语音识别技术第2篇

关键词:语音识别;特征提取;模式匹配;模型训练

中图分类号:TP312 文献标识码:A文章编号:1007-9599 (2010) 05-0000-01

Summarization on Speech-Identification Technology

Liu Yu1,2,Ma Yanli1,Dong Beibei1

(1.Hebei North University,Information Science and Engineering College,Zhangjiakou075000,China;2.Tianjin University,Electronics and Information Engineering College,Tianjin300072,China)

Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to face.Then,the developing prospect ion and application of the speech-identification technology are discussed in the last part.

Keywords:Speech identification;Character Pick-up;Mode matching;Model training

一、语音识别技术的理论基础

语音识别技术:是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行自然语言通信。

不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外,还涉及到语音识别单元的选取。

(一) 语音识别单元的选取

选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研究任务决定。

单词(句)单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。

音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而英语是多音节,并且汉语虽然有大约1300个音节,但若不考虑声调,约有408个无调音节,数量相对较少。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。

音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成,且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节的区分能力。由于协同发音的影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研究。

(二) 特征参数提取技术

语音信号中含有丰富的信息,但如何从中提取出对语音识别有用的信息呢?特征提取就是完成这项工作,它对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。对于非特定人语音识别来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的个人信息(对特定人语音识别来讲,则相反)。从信息论角度讲,这是信息压缩的过程。

线性预测(LP)分析技术是目前应用广泛的特征参数提取技术,许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型,没有考虑人类听觉系统对语音的处理特点。

Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果。实验证明,采用这种技术,语音识别系统的性能有一定提高。

也有研究者尝试把小波分析技术应用于特征提取,但目前性能难以与上述技术相比,有待进一步研究。

(三)模式匹配及模型训练技术

模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。

语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW)、隐马尔可夫模型(HMM)和人工神经元网络(ANN)。

DTW是较早的一种模式匹配和模型训练技术,它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前已被HMM模型和ANN替代。

HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markor链,另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样,语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述,而信号随时间的变化由隐蔽Markor链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点,HMM模型可分为离散隐马尔可夫模型(采用离散概率密度函数,简称DHMM)和连续隐马尔可夫模型(采用连续概率密度函数,简称CHMM)以及半连续隐马尔可夫模型(SCHMM,集DHMM和CHMM特点)。一般来讲,在训练数据足够的,CHMM优于DHMM和SCHMM。HMM模型的训练和识别都已研究出有效的算法,并不断被完善,以增强HMM模型的鲁棒性。

人工神经元网络在语音识别中的应用是现在研究的又一热点。ANN本质上是一个自适应非线性动力学系统,模拟了人类神经元活动的原理,具有自学、联想、对比、推理和概括能力。这些能力是HMM模型不具备的,但ANN又不个有HMM模型的动态时间归正性能。因此,现在已有人研究如何把二者的优点有机结合起来,从而提高整个模型的鲁棒性。

二、语音识别的困难与对策

目前,语音识别方面的困难主要表现在:

(一)语音识别系统的适应性差,主要体现在对环境依赖性强,即在某种环境下采集到的语音训练系统只能在这种环境下应用,否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应,使用不方便。

(二)高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等,这就是所谓Lombard效应,必须寻找新的信号分析处理方法。

(三)语言学、生理学、心理学方面的研究成果已有不少,但如何把这些知识量化、建模并用于语音识别,还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。

(四)我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚;其次,把这方面的现有成果用于语音识别,还有一个艰难的过程。

(五)语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决,识别速度、拒识问题以及关键词(句)检测技术等等技术细节要解决。

三、语音识别技术的前景和应用

语音识别技术发展到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。在西方经济发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息,并且取得很好的结果。

语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

参考文献:

[1]科大讯飞语音识别技术专栏. 语音识别产业的新发展.企业专栏.通讯世界,2007.2:(总l12期)

[2]任天平,门茂深.语音识别技术应用的进展.科技广场.河南科技,2005.2:19-20

[3]俞铁城.科大讯飞语音识别技术专栏.语音识别的发展现状.企业专栏.通讯世界,2006.2 (总122期)

[4]陈尚勤等.近代语音识别.西安:电子科技大学出版社,1991

语音识别技术第3篇

摘要:本文简要介绍了语音识别技术理论基础及分类方式,所采用的关键技术以及所面临的困难与挑战,最后讨论了语音识别技术的发展前景和应用。

关键词:语音识别;特征提取;模式匹配;模型训练

Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to face.Then,the developing prospect ion and application of the speech-identification technology are discussed in the last part.

Keywords:Speech identification;Character Pick-up;Mode matching;Model training

一、语音识别技术的理论基础

语音识别技术:是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行自然语言通信。

不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外,还涉及到语音识别单元的选取。

(一) 语音识别单元的选取

选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研究任务决定。

单词(句)单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。

音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而英语是多音节,并且汉语虽然有大约1300个音节,但若不考虑声调,约有408个无调音节,数量相对较少。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。

音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成,且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节的区分能力。由于协同发音的影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研究。

(二) 特征参数提取技术

语音信号中含有丰富的信息,但如何从中提取出对语音识别有用的信息呢?特征提取就是完成这项工作,它对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。对于非特定人语音识别来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的个人信息(对特定人语音识别来讲,则相反)。从信息论角度讲,这是信息压缩的过程。

线性预测(LP)分析技术是目前应用广泛的特征参数提取技术,许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型,没有考虑人类听觉系统对语音的处理特点。

Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果。实验证明,采用这种技术,语音识别系统的性能有一定提高。

也有研究者尝试把小波分析技术应用于特征提取,但目前性能难以与上述技术相比,有待进一步研究。

(三)模式匹配及模型训练技术

模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。

语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW)、隐马尔可夫模型(HMM)和人工神经元网络(ANN)。

DTW是较早的一种模式匹配和模型训练技术,它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前已被HMM模型和ANN替代。

HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markor链,另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样,语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述,而信号随时间的变化由隐蔽Markor链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点,HMM模型可分为离散隐马尔可夫模型(采用离散概率密度函数,简称DHMM)和连续隐马尔可夫模型(采用连续概率密度函数,简称CHMM)以及半连续隐马尔可夫模型(SCHMM,集DHMM和CHMM特点)。一般来讲,在训练数据足够的,CHMM优于DHMM和SCHMM。HMM模型的训练和识别都已研究出有效的算法,并不断被完善,以增强HMM模型的鲁棒性。

人工神经元网络在语音识别中的应用是现在研究的又一热点。ANN本质上是一个自适应非线性动力学系统,模拟了人类神经元活动的原理,具有自学、联想、对比、推理和概括能力。这些能力是HMM模型不具备的,但ANN又不个有HMM模型的动态时间归正性能。因此,现在已有人研究如何把二者的优点有机结合起来,从而提高整个模型的鲁棒性。 二、语音识别的困难与对策

目前,语音识别方面的困难主要表现在:

(一)语音识别系统的适应性差,主要体现在对环境依赖性强,即在某种环境下采集到的语音训练系统只能在这种环境下应用,否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应,使用不方便。

(二)高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等,这就是所谓Lombard效应,必须寻找新的信号分析处理方法。

(三)语言学、生理学、心理学方面的研究成果已有不少,但如何把这些知识量化、建模并用于语音识别,还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。

(四)我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚;其次,把这方面的现有成果用于语音识别,还有一个艰难的过程。

(五)语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决,识别速度、拒识问题以及关键词(句)检测技术等等技术细节要解决。

三、语音识别技术的前景和应用

语音识别技术发展到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。在西方经济发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息,并且取得很好的结果。

语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

参考文献

[1]科大讯飞语音识别技术专栏. 语音识别产业的新发展.企业专栏.通讯世界,2007.2:(总l12期)

[2]任天平,门茂深.语音识别技术应用的进展.科技广场.河南科技,2005.2:19-20

[3]俞铁城.科大讯飞语音识别技术专栏.语音识别的发展现状.企业专栏.通讯世界,2006.2 (总122期)

[4]陈尚勤等.近代语音识别.西安:电子科技大学出版社,1991

语音识别技术第4篇

摘要:本文简要介绍了语音识别技术理论基础及分类方式,所采用的关键技术以及所面临的困难与挑战,最后讨论了语音识别技术的 发展 前景和应用。

关键词:语音识别;特征提取;模式匹配;模型训练

abstract:this text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to face.then,the developing prospect ion and application of the speech-identification technology are discussed in the last part.

keywords:speech identification;character pick-up;mode matching;model training

一、语音识别技术的理论基础

语音识别技术:是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生 理学 、心理学、语言学、 计算 机 科学 以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行 自然 语言通信。

不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外,还涉及到语音识别单元的选取。

(一) 语音识别单元的选取

选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研究任务决定。

单词(句)单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。

音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而 英语 是多音节,并且汉语虽然有大约1300个音节,但若不考虑声调,约有408个无调音节,数量相对较少。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。

音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成,且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节的区分能力。由于协同发音的影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研究。

(二) 特征参数提取技术

语音信号中含有丰富的信息,但如何从中提取出对语音识别有用的信息呢?特征提取就是完成这项工作,它对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。对于非特定人语音识别来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的个人信息(对特定人语音识别来讲,则相反)。从信息论角度讲,这是信息压缩的过程。

线性预测(lp)分析技术是目前应用广泛的特征参数提取技术,许多成功的应用系统都采用基于lp技术提取的倒谱参数。但线性预测模型是纯数学模型,没有考虑人类听觉系统对语音的处理特点。

mel参数和基于感知线性预测(plp)分析提取的感知线性预测倒谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果。实验证明,采用这种技术,语音识别系统的性能有一定提高。

也有研究者尝试把小波分析技术应用于特征提取,但目前性能难以与上述技术相比,有待进一步研究。

(三)模式匹配及模型训练技术

模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。

语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(dtw)、隐马尔可夫模型(hmm)和人工神经元 网络 (ann)。

dtw是较早的一种模式匹配和模型训练技术,它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前已被hmm模型和ann替代。

hmm模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的markor链,另一个是与markor链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽markor链的特征要靠可观测到的信号特征揭示。这样,语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述,而信号随时间的变化由隐蔽markor链的转移概率描述。模型参数包括hmm拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点,hmm模型可分为离散隐马尔可夫模型(采用离散概率密度函数,简称dhmm)和连续隐马尔可夫模型(采用连续概率密度函数,简称chmm)以及半连续隐马尔可夫模型(schmm,集dhmm和chmm特点)。一般来讲,在训练数据足够的,chmm优于dhmm和schmm。hmm模型的训练和识别都已研究出有效的算法,并不断被完善,以增强hmm模型的鲁棒性。

人工神经元 网络 在语音识别中的应用是现在研究的又一热点。ann本质上是一个自适应非线性动力学系统,模拟了人类神经元活动的原理,具有自学、联想、对比、推理和概括能力。这些能力是hmm模型不具备的,但ann又不个有hmm模型的动态时间归正性能。因此,现在已有人研究如何把二者的优点有机结合起来,从而提高整个模型的鲁棒性。 二、语音识别的困难与对策

目前,语音识别方面的困难主要表现在:

(一)语音识别系统的适应性差,主要体现在对环境依赖性强,即在某种环境下采集到的语音训练系统只能在这种环境下应用,否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应,使用不方便。

(二)高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等,这就是所谓lombard效应,必须寻找新的信号分析处理方法。

(三)语言学、生 理学 、心理学方面的研究成果已有不少,但如何把这些知识量化、建模并用于语音识别,还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。

(四)我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚;其次,把这方面的现有成果用于语音识别,还有一个艰难的过程。

(五)语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决,识别速度、拒识问题以及关键词(句)检测技术等等技术细节要解决。

三、语音识别技术的前景和应用

语音识别技术 发展 到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。在西方 经济 发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、 旅游 、银行信息,并且取得很好的结果。

语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

参考 文献 :

[1]科大讯飞语音识别技术专栏. 语音识别产业的新发展. 企业 专栏.通讯世界,2007.2:(总l12期)

[2]任天平,门茂深.语音识别技术应用的进展.科技广场.河南科技,2005.2:19-20

[3]俞铁城.科大讯飞语音识别技术专栏.语音识别的发展现状.企业专栏.通讯世界,2006.2 (总122期)

[4]陈尚勤等.近代语音识别.西安: 电子 科技大学出版社,1991

语音识别技术第5篇

【关键词】语音识别 语言模型 声学模型 人工智能

使用智能手机的朋友们都会对语音助手产生极大的兴趣,不管是微软的Cortana,还是苹果的Siri,都是将语音识别融入现代技术的典范。Z音识别是解决机器“听懂”人类语言的一项技术,也是人工智能重要部分。

语音识别技术(speech recognition),也被称为自动语音识别 (ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而前者的目标是语音中所包含的词汇内容。

探究语音识别技术的框架、应用与发展有利于全面了解语音识别。本文将从语音识别简介、主流语言识别框架以及语言识别近年来的发展三个方面探究语音识别。

1 语音识别简介

1.1 传统语言识别技术发展

对语音识别技术的研究可以追述到上世纪五十年代,1952年贝尔研究所Davis等人研究成功了世界上第一个能识别10个英文数字发音的实验系统,开创了语音识别的先河。上世纪六十年代,人工神经网络被引入了语音识别。上世纪七十年代以后,大规模的语音识别在小词汇量、孤立词的识别方面取得了实质性的进展。传统语音识别技术最大突破是隐式马尔可夫模型的应用,这一模型极大提高了语音识别的准确率[1]。

1.2 语言识别的应用

作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别一直受到各国科学界的广泛关注。如今,随着语音识别技术的研究的突破,其对计算机发展和社会生活的重要性日益凸现出来。在现实生活中,语音识别技术的应用相当广泛,它改变了人与计算机交互的方式,使计算机更加智能。和键盘输入相比,语音识别更符合人的日常习惯;使用语言控制系统,相比手动控制,语音识别更加方便快捷,可以用在工业控制、智能家电等设备;通过智能对话查询系统,企业可以根据用户的语音进行操作,为用户提供自然、友好的数据检索服务。

2 语音识别框架

目前主流的语音识别框架可以分为以下几个模块:信号处理,特征提取,声学模型,语言模型,解码器。

2.1 信号处理

信号处理模块是对语音文件进行预处理。声音是一种纵波,在识别语音时,输入为WMV,MP3等格式的文件会被转换成非压缩的纯波文件wav格式。然后在进行语音识别前,需要检测该文件中的语音信号,该技术被称之为语音活性检测[2]。使用语言活性检测技术可以有效降低噪音,去除非语音片段,提高语音识别的准确率。经典的语音活性检测算法由如下步骤组成:

(1)使用spectral subtraction等方法对语言序列进行降噪。(2)将输入信号的分成区块并提取特征。(3)设计分类器判断该区块是否为语音信号。

2.2 特征提取

特征提取目的是提取出语音文件的特征,以一定的数学方式表达,从而可以参与到后续模块处理中。在这一模块,首先要将连续的声音分成离散的帧。每一帧的时间既要足够长,使得我们能够判断它属于哪个声韵母的信息,若过短则包含信息过少;每一帧时间也要尽量短,语音信号需要足够平稳,能够通过短时傅里叶分析进行特征提取,过长则会使信号不够平稳。分帧时使用如下改进技术可以有效提高识别准确率:相邻的两帧有所重叠减少分割误差,将与临近帧之间的差分作为额外特征,将多个语音帧堆叠起来。通过分帧处理,连续的语音被分为离散的小段,但还缺乏数学上的描述能力,因此需要对波形作特征提取。常见的方法是根据人耳的生理特征,把每一帧波形变换成一个多维向量。因此,这些向量包含了这些语音的内容信息。该过程被称为声学特征提取,常见的声学特征有MFCC、CPE、LPC等。

MFCC是目前最常用、最基本的声学特征,提取MFCC特征可以分为如下四个步骤:首先对每一帧进行傅里叶变换,取得每一帧的频谱。再把频谱与图1中每个三角形相乘并积分,求出频谱在每一个三角形下的能量,这样处理可以减少数据量,并模仿人耳在低频处分辨率高的特性。然后取上一步得到结果的对数,这可以放大低能量处的能量差异。最后对得到的对数进行离散余弦变换,并保留前12~20个点进一步压缩数据。通过特征提取,声音序列就被转换为有特征向量组成的矩阵。

2.3 声学模型

声学模型是语音识别中最重要的组成部分之一,其用于语音到音节概率的计算。目前主流的方法多数采用隐马尔科夫模型,隐马尔可夫模型的概念是一个离散时域有限状态自动机。

隐马尔可夫模型HMM如图2所示,是指这一马尔可夫模型的内部状态x1,x2,x3外界不可见,外界只能看到各个时刻的输出值y1,y2,y3。对语音识别系统,输出值通常就是从各个帧计算而得的声学特征,输入是由特征提取模块提取的特征。用HMM刻画语音信号需作出两个假设,一是内部状态的转移只与上一状态有关,另一是输出值Y只与当前状态X(或当前的状态转移)有关,这两个假设大大降低了模型的复杂度。HMM的打分、解码和训练相应的算法是前向算法、维特比算法和前向后向算法。

早期的声学模型使用矢量量化(Vector Quantification)的方法,使其性能受到VQ算法的极大影响。对于连续取值的特征应当采用连续的概率分布如高斯混合模型或混合拉普拉斯模型等。为了解决模型参数过多的问题,可以使用某些聚类方法来减小模型中的参数数量,提高模型的可训练性。聚类可以在模型层次,状态层次乃至混合高斯模型中每个混合的层次进行。

2.4 语言模型

语言模型音节到字概率的计算。 语言模型主要分为规则模型和统计模型两种。相比于统计模型,规则模型鲁棒性较差,对非本质错误过于严苛,泛化能力较差,研究强度更大。因此主流语音识别技术多采用统计模型。统计模型采用概率统计的方法来揭示语言单位内在的统计规律,其中N-Gram简单有效,被广泛使用。

N-Gram基于如下假设:第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率即为各个词出现概率的乘积。词与词之间的概率可以直接从语料中统计N个词同时出现的次数得到。考虑计算量和效果之间的平衡,N取值一般较小,常用的是二元的Bi-Gram和三元的Tri-Gram。

2.5 解码器

解码器是语音识别系统的核心之一,其任务是对输入信号,根据声学、语言模型及词典,寻找能够以最大概率输出该信号的词串。在实践中较多采用维特比算法[3]搜索根据声学、语言模型得出的最优词串。

基于动态规划的维特比算法在每个时间点上的各个状态,计算解码状态序列对观察序列的后验概率,保留概率最大的路径,并在每个节点记录下相应的状态信息以便最后反向获取词解码序列。维特比算法在不丧失最优解的条件下,同时解决了连续语音识别中HMM模型状态序列与声学观察序列的非线性时间对准、词边界检测和词的识别,从而使这一算法成为语音识别搜索的基本策略。

维特比(Viterbi)算法的时齐特性使得同一时刻的各条路径对应于同样的观察序列,因而具有可比性,Beam搜索在每一时刻只保留概率最大的前若干条路径,大幅度的剪枝提高了搜索的效率。Viterbi-Beam算法是当前语音识别搜索中最有效的算法。

3 语音识别技术的发展

近几年来,特别是2009年以来,借助机器学习领域深度学习研究的发展,以及大数据语料的积累,语音识别技术得到突飞猛进的发展。

在模型方面,传统语音识别模型逐步被神经网络替代,使用神经网络可以更好地提取特征,拟合曲线。使用人工神经网络来提高语音识别性能的概念最早在80年代就提出了,但当时高斯混合模型在大词汇语音识别上表现得更好,因此人工神经网络并没有进行商业应用。随着相关技术的进一步发展,微软研究院利用深度神经网络建立了数千个音素的模型,比传统方法减少了16%的相对误差。其在建立起有超过660万神经联系的网络后,将总的语音识别错误率降低了30%,实现了语音识别巨大的突破[4]。

同时目前多数主流语言识别解码器采用了基于有限状态机的解码网络,该网络将语音模型、词典、声学共享音字集统一为大的解码网络,大幅度提高了解码速度。

在数据量上,由于移动互联网的急速发展,从多个渠道获取的海量语言原料为声学模型和语言模型的训练提供了丰富的资源,不断提升语音识别的准确率。

4 结语

语音是人们工作生活中最自然的交流媒介,所以语音识别技术在人机交互中成为非常重要的方式,语音识别技术具有非常广泛的应用领域和非常广阔的市场前景。而随着深度神经网络发展,硬件计算能力的提高,以及海量数据积累,语音识别系统的准确率和实用性将得到持续提高。

参考文献:

[1]S基百科编者.语音识别[G/OL].维基百科,2016(20160829)[2016-08-29].

[2]维基百科编者.语音活性检测[G/OL].维基百科,2016(20160629)[2016-06-29].

[3]维基百科编者.维特比算法[G/OL].维基百科,2016(20160920)[2016-09-20].

[4] Dahl G E, Yu D, Deng L, et al. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(1):30-42.

语音识别技术第6篇

1.概况

语音识别技术成为21世纪“数字时代”的重要开发领域,在计算机的多媒体技术应用和工业自动化控制应用等方面,成果令人属目。语音识别技术是指用电子装置来识别某些人的某些特征语音,语音识别的手段一般分为二大类,一类利用在计算机上开发语音识别系统,通过编程软件达到对语音的识别,另一类采用专门的语音识别芯片来进行简单的语音识别。利用专门的语音识别芯片应用在地铁车辆上,具有结构简单、使用方便,并且语音识别器有较高的可靠性、稳定性的特点,是简单语音识别在自动控制应用上的一种优先方案。

目前上海地铁

一、

二、

三、

五、

六、八号线在车辆信息显示系统的设计上缺少实用性和操作性,对乘客来讲缺少在实时报站时的人性化。如:地铁车厢内的乘客信息显示系统和车厢外侧的列车信息显示系统。如果在每个车门的上方安装车站站名动态显示地图,实时显示与车厢广播同步的信息,以及在每节车厢外侧显示列车的终点站,良好的工业设计不仅能给广大的乘客带来非常大的帮助,而且能够提升上海地铁服务的形象。由于在设计以上地铁列车时,受科技发展的限制。现在上海地铁4号线在车辆信息显示系统的设计上满足了广大的乘客的需求,

增加了车站站名动态显示地图。

如何在现有的地铁车辆上增加地铁车厢内的乘客信息显示系统和车厢外侧的列车信息显示系统,如图1、2,首先考虑其实用性和性价比,同时安装、操作要方便,在不影响列车的性能的前提下,完成本乘客信息显示系统的应用,设计方案的选择极其重要,目前的乘客信息显示系统比较复杂,例如:对于应用在某条线路上的声音识别系统,不仅要修改原语音文件,而且声音识别器不容易操纵,

对使用者来讲仍然存在比较多的问题。对于应用在某条线路上数字传输显示系统,其操作方法不仅给司机带来了任务,每站需要手动操作二次,同时显示的相关内容没有实时性,总之乘客信息显示系统比较落后。

设计一种符合现代化要求的乘客信息显示系统是非常必要。

2.设计

地铁车辆乘客信息显示系统的设计,采用CMOS语音识别大规模集成电路,识别响应时间小于300ms。HM2007芯片采用单片结构,如图3。将语音识别需要的全部电路:CPU、A/D、ROM、语音的AMP放大器、压缩器、滤波器、震荡器和接口界面等集中在一片芯片内,这样电路就非常少,外接64K非易失性SRAM,最多能识别40个车站站名语音(字长0.9秒),或(字长1.92秒)但识别仅20个车站站名语音。按正常人的讲话速度,0.9秒一般每秒吐字1到3个为宜。

针对目前上海地铁列车在车厢内外无LED动态站名显示而设计,通过将列车车厢广播的模拟信号转换成数字信号,自动控制LED发光二极管,在列车在车厢内使得广播的内容(每个车站站名)与发光二极管显示面板声光同步,将显示面板放置地铁车辆的每扇车门上方,并且显示面板以地铁运营线路为背景,达到列车进站和出站时能分别指示。在列车车厢外让乘客非常直观地、一目了然地了解车辆的终点站方向,从而方便乘客的上下车,提高了地铁服务水平。在国外的地铁列车上应用已相当普遍。

语音识别显示器①的输入端与车载广播功放器相连接,实现广播模拟信号发出的语音进行车站名的自动识别。不需要编程技术和修改文件等方法,全部采用硬件方法设计。整个系统分为5部分:(1)输入控制部分;(2)噪音滤波部分;(3)语言识别部分;(4)执行显示部分;(5)录音功能部分。

(1)输入控制部分:

通过麦克风或(结合器)连接,如图4所示,要求模拟语音输入点的电压必须控制在大约20mv左右,以确保后期语音识别的正确性。在输入电路中增加了声音控制部分的电路,即将模拟信号转变成数字方波信号,对语音输入进行开关量的控制,确保在T<0.9秒内的正确输入语音字长。

(2)语音识别部分:

利用语音识别芯片HM2007和外接6264SRAM存储器组成为主要部分,(HM2007中ROM已经固化了语音语法技术)对语音的存储及语音语法算法进行控制。HM2007的详细内容见产品说明书。

(3)噪音滤波部分:

滤波功能是自动识别(阻挡)我们在设计阶段设计好的各个工况的语音情况,例如:司机的讲话及车辆杂音等(在麦克风的工况下),以确保输入语音的可靠性、稳定性,特采用UM3758串行编译码一体化进行滤波电路。如图5。

(4)执行显示部分:

将车厢广播喇叭的模拟信息通过语音识别器转变成数字信息,最终经过译码电路、4/16多路数据选择器及RS485接口,去控制车厢内车门上十个LED显示面板,如图6。

(5)录音功能部分:

在进行广播内容更改时,本项目最大的特点是:不需要任何手段的手工软件编程的修改,而是通过远程音频电路控制技术进行按动相关按钮,选择地址然后自动录入内容,如图6。

3.结论

语音识别器及LED显示面板的设计,能应用到以前没有LED显示面功能的地铁车辆上,与其他所设计的方式相比较,语音识别控制简单、可靠性好、安装方便、相对投资最小和不改动车厢内任何电器为特点,仅提供110VDC电源和音频输入接口。

本项目的开发具有一定社会效益,得到国内外乘客和残疾人员的欢迎,提高了地铁服务质量。

参考文献:

1.HUALONMICRELECTRONICSCORPORATIONTIWANPRODUCTNUMBER:HM2007

2.555集成电路实用大全上海科技普及出版社

3.①获得“2003年上海市优秀发明选拔赛三等奖”

4.①编入《中国科技发展精典文库》第四辑

语音识别技术第7篇

【关键词】 语音识别 通话 大数据 互联网

该文主要致力于解决通话中的语音识别技术,长期可推广至QQ语音聊天等即时聊天软件中,相较于目前大多数语音识别软件需要手动打开更为主动,让用户感觉不到软件的存在,将该技术深度整合到系统或QQ服务中在通话结束后针对通话中涉及的电话号码、地点、时间等关键信息进行信息的推送,大大提高了效率,并对听力有障碍的人士有更为重要的意义。

一、语音识别基本原理

语音识别系统本质上是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单元,未知语音经过话筒变换成电信号后加在识别系统的输入端,首先经过预处理,再根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需的模板,然后根据此模板的定义,通过查表就可以给出计算机的识别结果。 [1]

二、通话中语音识别技术

2.1技术原理:

1、基本架构:Smartalk通话系统基于“云之讯”开放平台提供的语音视频通话服务和“科大讯飞”开放平台提供的语音识别服务,并加以对手机GPS位置、通讯录、社交软件信息的分析,在“云”的辅助下对之进行处理和交换。Smartalk架构分为4个部分:客户端、语音视频服务、语音识别服务、云数据处理分析。利用“云之讯”开放平台提供的语音视频通话服务和“科大讯飞”开放平台提供的语音识别服务可将用户在通话中涉及的地点、人名、电话号码等关键词提取出来并加以分析对行程和下一步操作提供帮助。

2、基本平台:本系统基于APIcloud开发,兼容云端和第三方SDK,可跨平台(Android、IOS、Windows等)使用,采用标准的c++语言实现。

2.2功能实现:

1、基于“云之讯”开放平台的通话系统:云之讯融合通讯开放平台为企业及个人开发者提供各种通讯服务,包括在线语音服务、短信服务、视频服务、会议服务等,开发者通过嵌入云通讯API在应用中轻松实现各种通讯功能。

2、基于“科大讯飞”开放平台的语音识别系统:。讯飞开放平台使用户可通过互联网、移动互联网,使用任何设备方便的介入讯飞开放平台提供的“听、说、读、写”等全方位的人工智能服务。目前开放平台向开发者提供语音合成、语音识别、语音唤醒、语义理解、移动应用分析等多项服务。

3、语音识别与云端大数据结合分析:。利用基于“云之讯”通话系统和“科大讯飞”语音识别系统实现了实时的语音识别,加以云端大数据的结合,和实时的分析用户当前的需求和问题,及时的跟用户产生交流反馈,并根据用户长期的使用时间分析智能提前推送相关信息。

2.3未来展望:

基于大数据和互联网+技术的日益发展与完善,并随着通信传输速度的逐渐提高,可在实时的条件下分析与推送更多丰富的内容,加以与即时聊天软件的结合,将该技术深度整合到系统或QQ服务中在通话结束后针对通话中涉及的电话号码、地点、时间等关键信息进行信息的推送,并对听力有障碍的人士有更为重要的意义,未来的市场前景广阔。

三、语音识别技术应用

3.1 语音指令控制在汽车上的应用:

语音控制人员只需要用嘴说出命令控制字,就可以实现对系统的控制。在汽车上,可用于汽车导航、控制车载设备。如车灯、音响、天窗、座椅、雨刮器等。

3.2语音识别技术在医疗系统中的应用:

医疗语音识别技术,已有厂商开发了基于云平台的语音识别系统,可直接内嵌到医院电子病历系统中,让医生通过语音输入病人信息,填写医疗记录,下达医嘱信息。

四、相关市场调研

1、国内外市场分析:2015年全球智能语音产业规模达到61.2亿美元,较2014年增长34.2%。其中,中国智能语音产业规模达到40.3亿元,较2014年增长增长41.0%,远高于全球语音产业增长速度预计到2016年,中国语音产业规模预计达到59亿元。[2]

2、相关应用发展:拉斯维加斯消费电子展(CES)上展示的MindMeld。在通话中,如果参与者点击应用的一个按钮,那么MindMeld将利用Nuance的语音识别技术,分析此前15至30秒对话。随后,MindMeld将确定对话中的关键词,以及其他多个信息来源,查找具有相关性的信息,并在屏幕上向用户提供图片和链接地址。[3]

参 考 文 献

[1] 吴坚.基于web的salt语音识别技术应用研究[D].湖北工业大学, 2006