欢迎来到优发表网,发表咨询:400-888-9411 订阅咨询:400-888-1571股权代码(211862)

购物车(0)

期刊大全 杂志订阅 SCI期刊 期刊投稿 出版社 公文范文 精品范文

语音识别系统(合集7篇)

时间:2022-09-09 00:00:09
语音识别系统

语音识别系统第1篇

【关键词】语音识别 模式识别 过程 统功能

1、语音识别技术原理简介

1.1语音识别技术的概念

语音识别技术(Auto Speech Recognize,简称ASR)所要解决的问题是让计算机能够“听懂”人类的语音,将语音中包含的文字信息“提取”出来。ASR技术在“能听会说”的智能计算机系统中扮演着重要角色,相当于给计算机系统安装上“耳朵”,使其具备“能听”的功能,进而实现信息时代利用“语音”这一最自然、最便捷的手段进行人机通信和交互。

1.2语音识别的系统组成

语音识别系统构建过程整体上包括两大部分:训练和识别。

1.2.1训练

训练通常是离线完成的,对预先收集好的海量语音、语言数据库进行信号处理和知识挖掘,获取语音识别系统所需要的“声学模型”和“语言模型”。

1.2.2识别

识别过程通常是在线完成的,对用户实时的语音进行自动识别,可以分为“前端”和“后端”两大模块:“前端”模块主要的作用是进行端点检测(去除多余的静音和非说话声)、降噪、特征提取等;“后端”模块的作用是利用训练好的“声学模型”和“语言模型”对用户说话的特征向量进行统计模式识别(又称“解码”),得到其包含的文字信息,此外,后端模块还存在一个“自适应”的反馈模块,可以对用户的语音进行自学习,从而对“声学模型”和“语音模型”进行必要的“校正”,进一步提高识别的准确率。

语音识别技术所面临的问题是非常艰巨和困难的。尽管早在二十世纪五十年代,世界各国就开始了对这项技术孜孜不倦的研究,特别是最近二十年,国内外非常多的研究机构和企业都加入到语音识别技术的研究领域,投入了极大的努力,也取得了丰硕的成果,但是直到今天,距离该技术得到完美解决还存在着巨大的差距,不过这并不妨碍不断进步的语音识别系统在许多相对受限的场合下获得成功的应用。

如今,语音识别技术已经发展成为涉及声学、语言学、数字信号处理、统计模式识别等多学科技术的一项综合性技术。基于语音识别技术研发的现代语音识别系统在很多场景下获得了成功的应用,不同任务条件下所采用的技术又会有所不同。

2、语音识别系统技术实现

语音识别系统选择识别基元的要求是:有准确的定义,能得到足够数据进行训练,具有一般性。系统所需的训练数据大小与模型复杂度有关,模型设计得过于复杂以至于超出了所提供的训练数据的能力,会造成系统性能的急剧下降。

2.1听写机

2.1.1概念

大词汇量、非特定人、连续语音识别系统通常称为听写机。

2.1.2基本架构

听写机是建立在前述声学模型和语言模型基础上的HMM拓扑结构,训练时对每个基元用前向后向算法获得模型参数,识别时将基元串接成词,词间加上静音模型并引入语言模型作为词间转移概率,形成循环结构,用Viterbi算法进行解码。针对汉语易于分割的特点,先进行分割再对每一段进行解码,是用以提高效率的一个简化方法。

2.1.3对话系统

用于实现人机口语对话的系统称为对话系统。目前,受技术所限,对话系统往往是面向一个狭窄领域、词汇量有限的系统,其题材有旅游查询、订票、数据库检索等等。它的前端是一个语音识别器,识别产生的N-best候选或词候选网格,由语法分析器进行分析获取语义信息,再由对话管理器确定应答信息,由语音合成器输出。基于目前的系统往往词汇量有限的情况,也可以用提取关键词的方法来获取语义信息。

3、语音识别系统特性

语音识别系统的性能受许多因素的影响,包括不同的说话人、说话方式、环境噪音、传输信道等等。具有自适应性与鲁棒性。解决办法可大致分为两类:针对语音特征的方法(以下称特征方法)和模型调整的方法(以下称模型方法)。前者需要寻找更好的、高鲁棒性的特征参数,或是在现有的特征参数基础上,加入一些特定的处理方法。后者是利用少量的自适应语料来修正或变换原有的说话人无关(SI)模型,从而使其成为说话人自适应(SA)模型。

4、语音识别的应用

语音识别专用芯片的应用领域,主要包括以下几个方面:

4.1电话通信的语音拨号。特别是在中、高档移动电话上,现已普遍的具有语音拨号的功能。随着语音识别芯片的价格降低,普通电话上也将具备语音拨号的功能。

4.2汽车的语音控制。由于在汽车的行驶过程中,驾驶员的手必须放在方向盘上,因此在汽车上拨打电话,需要使用具有语音拨号功能的免提电话通信方式。此外,对汽车的卫星导航定位系统(GPS)的操作,汽车空调、照明以及音响等设备的操作,同样也可以由语音来方便的控制。

4.3工业控制及医疗领域。当操作人员的眼或手已经被占用的情况下,在增加控制操作时,最好的办法就是增加人与机器的语音交互界面。由语音对机器发出命令,机器用语音做出应答。

4.4个人数字助理(Personal Digital Assistant,PDA)的语音交互界面。PDA的体积很小,人机界面一直是其应用和技术的瓶颈之一。由于在PDA上使用键盘非常不便,因此,现多采用手写体识别的方法输入和查询信息。但是,这种方法仍然让用户感到很不方便。现在业界一致认为,PDA的最佳人机交互界面是以语音作为传输介质的交互方法,并且已有少量应用。随着语音识别技术的提高,可以预见,在不久的将来,语音将成为PDA主要的人机交互界面。

4.5智能玩具。通过语音识别技术,我们可以与智能娃娃对话,可以用语音对玩具发出命令,让其完成一些简单的任务,甚至可以制造具有语音锁功能的电子看门狗。智能玩具有很大的市场潜力,而其关键在于降低语音芯片的价格。

4.6家电遥控。用语音可以控制电视机、VCD、空调、电扇、窗帘的操作,而且一个遥控器就可以把家中的电器皆用语音控起来,这样,可以让令人头疼的各种电器的操作变得简单易行。

参考文献:

语音识别系统第2篇

1语音识别系统设计的技术依据

近年来国内教育信息化趋势更加明显,英语教学活动建立信息化平台是师生所需,改变了早期英语课堂模式的不足之处。语音识别是计算机翻译软件不可缺少的一部分,如图1,主要针对不同语言进行识别处理,帮助学生快速地理解英语知识内涵。语音识别技术主要包括:特征提取技术、模式匹配技术、模型训练技术等三大技术,也是系统设计需考虑的重点。

1)特征提取技术。一般来说,语音识别系统辅助功能涉及到收录、处理、传递等三个环节,这也是语音识别系统设计的关键所在。计算机语言与自然语言之间存在极大的差异性,如何准确识别两种语言的差异性,这是翻译软件识别时必须解决的问题。特征提取技术是语音识别系统的基本构成,主要负责对英语语言特征进行提取,向翻译器及时提供准确的语言信号,提高计算机翻译工作的准确系数。

2)模式匹配技术。语音识别系统要匹配对应的功能模块,以辅助师生在短时间内翻译出语言含义,避免人工翻译语言失误带来的不便。模式匹配技术采用智能识别器,由翻译器录入语音之后自主化识别、分析,减小了人工翻译语句的难度。例如,计算机软件建立匹配模型,按照英语字、词、句等结构形式,自动选择相配套的翻译模式,执行程序命令即可获得最终的语言结果,给予学生语音识别方面的帮助。

3)模型训练技术。设计语音识别系统是为了实现教育信息化,帮助教师解决英语课堂教学中遇到的翻译难题,加深学生们对英语知识的理解能力。语音识别结束之后,翻译器会自动执行模拟训练操作,为学生创建虚拟化的语音训练平台,这也是软件识别系统比较实用的功能。模拟训练技术采用人机一体化设计思想,把翻译器、语音识别器等组合起来执行训练方式,快速地识别、判断英语发声水平,指导学生调整语音方式。

2英语翻译器语音识别系统设计及应用

英语翻译器是现代化教学必备的操作工具,教师与学生借助翻译器功能可准确地理解英语含义,这对语音识别系统设计提出了更多要求。笔者认为,设计语音识别系统要考虑翻译器具体的工作流程,事先编排一套符合翻译软件工作的方案,如图2,从而提高人机语言转换速率。语音识别系统设计及应用情况:

1)识别模块。语音识别方法主要是模式匹配法,根据不同翻译要求进行匹配处理,实现英语翻译的精准性。一是在训练阶段,用户将词汇表中的每一词依次说一遍,并且将其特征矢量作为模板存入模板库;二是在识别阶段,将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。

2)前端模块。前端处理是指在特征提取之前,先对原始语音进行处理,这是预处理操作的主要作用。语音识别系统常受到外界干扰而降低了翻译的准确性,设计前段处理模块可消除部分噪声和不同说话人带来的影响,使处理后的信号更能反映语音的本质特征。例如,比较常用的前端处理有端点检测和语音增强。

3)声学模块。语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。声学特征的提取与选择是语音识别的一个重要环节,这一步骤直接关系到翻译器的工作效能,对英语语音识别与学习有很大的影响。因此,声学模块要注重人性化设计,语音设定尽可能符合自然语言特点。

4)搜索模块。英语语音识别中的搜索,就是寻找一个词模型序列以描述输入语音信号,从而得到词解码序列。本次所设计的搜索模块中,其前端是一个语音识别器,识别产生的N-best候选或词候选网格,由语法分析器进行分析获取语义信息,再由对话管理器确定应答信息,由语音合成器输出。由于目前的系统往往词汇量有限,也可以用提取关键词的方法来获取语义信息。

5)执行模块。实际应用中,语言识别系统凭借执行模块完成操作,对英语语言识别方式进行优化择取,以最佳状态完成英语翻译工作。目前,就英语教学中使用情况,听写及、对话系统等是语音识别执行的两种方式,充分展现了翻译器在语言转换方面的应用功能。(1)听写机。大词汇量、非特定人、连续语音识别系统通常称为听写机。其架构就是建立在前述声学模型和语言模型基础上的HMM拓扑结构。训练时对每个基元用前向后向算法获得模型参数,识别时,将基元串接成词,词间加上静音模型并引入语言模型作为词间转移概率,形成循环结构,用Viterbi算法进行解码。(2)对话系统。用于实现人机口语对话的系统称为对话系统,英语翻译器中完成了人机对话、语言转换等工作,全面提升了翻译器操控的性能系数。受目前技术所限,对话系统往往是面向一个狭窄领域、词汇量有限的系统,其题材有旅游查询、订票、数据库检索等,随着语音数据库资源的优化配置,对话系统功能将全面升级。

3翻译器使用注意事项

语音识别系统就是让机器通过识别和理解过程,把语音信号转变为相应的文本或命令的高科技。随着高校教学信息化建设时期到来,计算机软件辅助教学活动是一种先进的模式,彻底改变了传统人工教学模式的不足。翻译软件采用数字化元器件为硬件平台,配合远程互联网建立多元化传输路径,满足了英语翻译数据处理与传输的应用要求。但是,未来英语教学内容越来越复杂,翻译器语音识别系统承载的数据范围更广,学校必须实施更新翻译软件产品,才能进一步提升英语智能化翻译水平。

4结论

语音识别系统第3篇

【关键词】语音识别信号处理DTW

一、引言

根据语音识别系统所使用的环境和平台不同,语音识别技术朝着两个方向发展:一个方向是大词汇量的连续语音识别,该方向所处理的语音较为复杂;另一个方向就是向着中小词汇量的孤立词汇语音识别,该方向所处理的语音相对较为简单,应用范围也有一定的限制,如玩具、语音导航等。虽然简单语音识别系统对于能识别的词汇量没有太高的要求,但是目前的一些简单语音识别系统的识别速度慢、识别率较低,导致用户体验较差。

二、语音识别系统原理

语音识别在本质上属于模式识别的范畴,其系统结构与模式识别具有相似之处:根据相关的识别算法对语音信号进行特征参数的提取,然后先进行学习后再对语音信号进行识别。在学习阶段,通过给出的训练数据建立起参考模板库;在识别阶段,将待识别语音信号的特征参数与参考模板库中的参数进行对比,得到与待识别语音信号最接近的模板,输出该模板作为语音识别的结果。

三、简单语音识别系统的改进与实现

DTW在简单语音识别中已经可以达到较高的识别率,因此本文选择DTW作为语音识别的模式匹配算法,并对端点检测进行一定的改进来实现语音识别系统的设计。

3.1端点检测的改进

在进行端点检测前,为短时平均能量和短时过零率设定两个门限值。在静音段,当短时平均能量或短时过零率大于低门限值,则开始准备标记语音起点,由此进入过渡段。但是在过渡段中并不能确定是否真正进入语音段,当短时平均能量和短时过零率都小于低门限值时认为是噪音,并不记录语音起点,恢复为静音段;当短时平均能量或短时过零率大于高门限值,则认为是真正的语音片段,将状态进入语音段。进入语音段后还要记录语音段持续时间,若该段时间较短则认为是噪声,继续检测后面的语音,如果满足一定的时间长度则标记语音起点并将其记录为一段语音。

3.2DTW的改进

DTW的核心思想是进行动态规划,从而解决了语音识别中的发音长度不一致的匹配问题。在进行DTW时,通过动态匹配找到一个最佳路径,把语音信号的特征参数通过这条最佳路径映射到参考模板库中,这条最佳路径要求语音信号和参考模板之间的累积距离最小。

经典的DTW算法规定待识别语音信号和模板中信号的首尾必须完全一致,但是端点检测确定的首尾与实际存在一定的误差,造成识别率有所下降。为此,可以对DTW的端点的限制适当放宽。即允许起点在(0,0)、(0,m)或者(n,0)上,终点在(N,M)、(N,J)或者(I,M)上。端点要求放宽后对端点检测精度的要求就降低了,提高了识别的速度和精度。

虽然语音的速度不同,但是语序是确定不变的,因此路径中每一点的斜率必然大于0。而为了防止过度搜素浪费资源,可以对搜索路径的斜率加以限制,由于语音信号的扩压是有限的,因此可以舍去那些向X轴或者Y轴过度倾斜的路径。具体做法是:将搜索路径中每个点的最大斜率设为2,最小斜率设为0.5,这样就可以大大降低搜索范围,减少了计算量,提高了识别速度。

另外,还可以在进行相似度匹配时设定一个合理的阈值,如果计算出的某一部分的相似度与该阈值相差太远,则立即认为待识别语音与当前模板不匹配,转而进入与下一个模板的相似度计算,这样就可以减少大量的计算量,从而提高简单语音识别的速度。

3.3实验及数据

在实验室较安静的环境下对男女声识别进行了测试。发音内容为0~9的数字,采样率为24KHz,帧长20ms,帧移10ms,识别正确率达到了95%以上,原DTW算法的孤立字识别时间是6~7s,而采用本文改进算法的识别时间减少到2~5s。因此,本文方法可以实现快速准确的简单语音识别。

四、结束语

采用本文方法可以有效提高端点检测的精度、语音识别的正确率和识别速度,该方法完全满足简单语音识别系统的应用。

参考文献

[1]张振锋.基于小词汇量孤立词语音识别系统的研究与设计[D].长安大学,2007.

语音识别系统第4篇

关键词:SAPI;C#;.NET;语音识别

1 引言

语音识别是信息处理领域的一个重要方向,语音识别通常又可以分为两种工作方式:一种是连续语音听写,这种方式需要语音识别引擎对语音听写过程中上下文以及相同相似发音的词语进行分析、做出判断,实现难度较大。另一种是命令与控制方式(command and control),在此种方式下,语音识别引擎可以通过对简短的命令语音进行识别,以便执行相应操作。

语音识别技术基础是非常复杂的。正是如此,它获得了世界上著名的公司与研究机构的青睐,语音识别技术正经历着日新月异的改变,其中一些产品已经取得较好的效果,用户可以在上述产品基础之上进行二次开发。

2开发图片语音识别系统的条件

语音识别技术的发展涉及人机交互,自然语言处理,人工智能。这使开发人员难以从底层进行应用开发,欣慰的是一些公司与研究机构已经推出他们的研究成果,并且提供了供开发人员使用的开发平台与接口。其中影响比较大的有微软的SAPI、剑桥大学的HTK,IBM的via voice开发平台。本文采用微软的Speech SDK5.1开发包,它不仅是一个免费的开发包,同时提供对中文的支持。

2.1微软SAPI简介

微软的 Speech SDK是基于 C O M 的视窗操作系统开发工具包。这个 SDK中含有语音应用程序接口( SAPI )、微软连续语音识别引擎(MCSR)以及串联语音合成(又称文本到语音)引擎(TTS)等等。SAPI 中还包括对于低层控制和高度适应性的直接语音管理、训练向导、事件、 语法、 编译、资源、语音识别管理以及文本到语音管理,其结构如图 l 所示。

图1 SAPI结构

SAPI API在应用程序和语音引擎之间提供一个高级别的接口。SAPI实现了所有必需的对各种语音引擎的实时的控制和管理等低级别的细节。

SAPI引擎的两个基本类型是文本语音转换系统(TTS)和语音识别系统。TTS系统使用合成语音合成文本字符串和文件到声音音频流。语音识别技术转换人类的声音语音流到可读的文本字符串或者文件。

2.2 在.net应用程序中使用SAPI的准备

安装SAPI 5.1语音开发包。

由于SAPI基于Windows平台,通过COM接口供.net平台调用,所以具体调用方法为:新建工程,在此工程的解决方案中单击右键,在添加/引用中选择 Microsoft Speech Object Library,并在程序中添加对SAPI命名空间的引用:using SpeechLib。

3 系统模型设计及实现

3.1 创立系统界面

 

图2 系统界面一览

3.2  使用SAPI语音识别核心类

ISpRecognizer类是支持语音识别的核心类,主要用于访问MCSR实现语音识别。在进行语音识别时,微软Speech SDK 5.1 支持两种模式的语音识别引擎:共享(Share)和独享(InProc)。在本系统中,我们使用共享型语音识别引擎,CLSID_SpSharedRecognizer。

SpSharedRecoContext类是语音识别上下文接口,它可以发送与接收消息通知,通过CreateGrammar方法创建语法规则。通过对它的两个事件:_ISpeechRecoContextEvents_RecognitionEventHandler(ssrc_Recognition) ,_ISpeechRecoContextEvents_HypothesisEventHandler(Hypo_Event)的重写,我们可以很轻松的得到当前语音识别结果。第一个事件对应的就是识别结果显示:1、第二个事件对应的就是识别结果显示;2、ISpeechRecoGrammar类是语法规则接口,定义语音识别引擎需要是别的语音类容。起语法规则可以分为听写型与命令控制型。听写型可以识别大词汇量语音,但是别效率与识别准确率较低。命令控制型有针对性的对特定语音进行识别,在效率与准确率上都非常高。

当然一个ISpRecognizer不管是共享还是独享,都可以有多个RecoContext与其关联,而一个RecoContext也可以与多个ISpeechReco  Grammar关联,每个ISpeechRecoGramma  r识别各自规定的内容。

 

图3 语音识别类对应关系

3.3  编写系统核心代码

通过读入外部Grammar配置语音识别引擎,外部Grammar文件以xml文件格式存储。具体形式如下:

ManegePic.xml

玫瑰

大象

狮子

老虎

仙人掌

珠穆朗玛峰

布达拉宫

貂蝉

十字军

世界杯

阿里巴巴

乒乓球

五星红旗

……

采用命令控制型Grammar是为了使语音识别结果准确有效,定义外部Grammar是为了保持以后系统的可扩展性。对于新输入的图片,只要将图片名字加入到 图片名字

中即可。

开始语音输入事件:

private void btnStart_Click(object sender, EventArgs e)

{

ssrc = new SpSharedRecoContext();

srg = ssrc.CreateGrammar(1);

srg.CmdLoadFromFile(""ManegePic.xml"", SpeechLoadOption.SLODynamic);

//读入规则

ssrc.Recognition += new _Ispeec hRecoC ontextEvents_RecognitionventHandler(ssrc_Recognition);

//添加识别最终事件 

ssrc.Hypothesis += new _IspeechRecoCon textEvents_HypothesisEventHandler(Hypo_Event);

//添加识别怀疑事件

srg.CmdSetRuleState(srg.Rules.Item(0).Name, SpeechRuleState.SGDSActive);

//激活规则 

}

其中识别最终事件是系统在完整处理输入音频之后得到的最后识别结果,怀疑事件则是因为系统在处理过程中的最相似识别结果。这两个事件在一些环境之下得到的识别结果不同。

识别怀疑事件:

private void Hypo_Event(int StreamNumber, object StreamPosition, ISpeechRecoResult Result)

{

  textBox2.Text = Result.PhraseInfo.GetText(0, -1, true);

}

将系统在处理过程中的最相似结果显示在textBox控件之中。

识别最终事件:

void ssrc_Recognition(int StreamNumber, object StreamPosition, SpeechRecognitionT ype RecognitionType, ISpeechRecoResult Result)

{

textBox1.Text = Result.PhraseInfo.GetT ext(0, -1, true);

// 将系统最终结果显示在textBox控件之中。

try

{

Picturebox1.image = Result.PhraseInf o.GetText(0, -1, true).tostring()+”.jpg”;

//显示识别结果的图片

}

Catch (Exception e)

{}

}

由于篇幅有限,这里仅仅给出了构建语音识别引擎与图片显示部分的代码。完 整的系统可以在Windows XP + vs2008环境中调试通过,实现基于.net和SAPI的图片语音识别系统。

4 结语

通过制作图片语音识别系统,对利用SAPI进行语音识别有了初步的研究和实践,该系统具有一定的扩展性,也可以作为子系统嵌入到其他系统之中。该系统的功能可以扩展到语音控制文件操作,比如打开/关闭文件,添加文件,可以制作一个不需要键盘鼠标只利用语音就可进行操作的软件系统。

参考文献:

[1] Microsoft Speech 5.1 SDK Help .Microsoft Corporation

语音识别系统第5篇

[关键词]语音识别系统;差异性;指标需求

一、引言

语音作为语言的声学体现,也是人类进行信息交流最自然、和谐的手段。与机械设各进行语音的沟通,让机器可以明白人类在说什么,并理解这是人类长期的梦想。语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

二、语音信号分析与特征提取

1.基于发音模型的语音特征。(1)发音系统及其模型表征。其发声过程就是由肺部进行收缩,并进行压缩气流由支气管通过声道和声门引起的音频振荡所发生的。气流通过声门时使得声带的张力刚好使声带发生比较低的频率的振荡,从而形成准周期性的空气脉冲,空气脉冲激励声道便会产生一些浊音;声道的某处面积比较小,气流冲过时便会产生湍流,会得到一种相似噪声的激励,对应的则是摩擦音;声道完全闭合并建立起相应的气压,突然进行释放就是爆破音。(2)语音信号线性预测倒谱系数。被广泛应用的特征参数提取技术的就是线性预测分析技术,很多成功的应用系统都是选用基于线性预测技术进而提取的LPC倒谱系数作为应用系统的特征。LPC倒谱就是复倒谱。复倒谱就是信号通过z进行变换以后再取其对数,求反z变换所得到的谱。线性预测分析方法其实就是一种谱的估计方法,所以其声道模型系统函数H(z)反映的就是声道频率激励和信号的谱包络,对IHg(z)作反z变换就可以得出其复倒谱系数。改复倒谱系数是依据线性预测模型直接获得的,而又被称为LPC倒谱系数(LPCC)。

2.基于听觉模型的语音特征。(1)听觉系统模型。一是人类的听觉系统对于声音频率高低和声波实际的频率高低不是线性的关系,它对不同声音频率信号的敏感度是不一样的,也可看成是对数关系。二是关于掩蔽效应指的就是声音A感知的闭值因为另外的身影的出现出现增大的现象。其生理依据主要是频率群,对频率群进行划分会出现许多的很小的部分,每一个部分都会对应一个频率群,掩蔽效应就发生在这些部分过程中。所以在进行相应的声学测量时,频率刻度一般取非线性刻度。语音识别方面,主要的非线性频率刻度有Mel刻度、对数刻度和Kon~nig刻度。其中Mel刻度被广泛的应用,其是最合理的频率刻度。(2)语音信号Mcl频率倒谱系数。Mel频率倒谱系数利用人们耳朵的听觉特性,在频域将频率轴变换为Mcl频率刻度,再变换到倒谱域得到倒谱系数。MFCC参数的计算过程:

一是对语音信号进行相应的预加重,从而确定了每一帧的语音采样的长度,语音信号通过离散FFT变换得到其频谱。二是求频谱幅度的平方,得到能量谱,并选用一组三角滤波器在频谱域对能量进行带通滤波。带通滤波器中心频率一般是按照Mcl频率刻度排列的(间隔为150Mel,带宽为300Mel),其每个三角形滤波器的两个底点频率和相邻的两个滤波器的中心频率相等,频率响应之和为l。滤波器的个数一般和临界带数比较相近,设滤波器数是M,滤波后得到的输出为:X(k),k=1,2,…,M。

语音识别系统第6篇

自上世纪中期以来,语音教学在语言教学中逐步受到重视,教育部《高等学校英语专业英语教学大纲》对学生的语音能力提出明确的要求,即要求发音正确,语调比较自然,以此目标指导语音教学。语音教学随同外语教学理论、模式的演变也在经历着一系列的变革,教学重点从初期的音素和单词发音,发展到目前着重超切分音,如中信、节奏和语调等(罗立胜,2002)。而语言教学方式也由机械的模仿、重复、跟读、单音纠正发展到今天交际性的练习和自主练习。但是在对新生的语音情况调查中发现,往往这种交际性练习和自主练习存在以下几方面问题:学生水平参差不齐,受母语影响程度不一,大部分中学学习过英语语音但不系统,也不够重视。中学教师因受应试教育的影响,少有时间教授语音发音,经调查,80%的学生称中学学习过程中惟一的语音输入来自英语教师。仅有30%的学生称听过磁带、看过英文电影。语音学习双层面的脱节性和去语境化学习97%学生因高考需要背记过国际音标及其在英语单词中的读音,但80%的学生表示没有进行过系统的语音训练,缺乏语境化教学。自主语音学习效果欠佳,孤立的语音练习很难在实际语言交流中应用。目前,语音课上教师主要帮助学生一对一,对比模仿练习发音,缩小学生在语音认知上母语和目标语之间的差异。课后学生仅能通过模仿有声资料提高语音。标准程度往往由学生自行判断,由于学生听说能力的差异,自行判断发音是否准确是不确定的。本文试图以现代的语音教学技术Reading Assistant语音识别系统的引入探讨语音教学模式的改革。

二、对Reading Assistant语音识别系统有效手段的分析

Reading Assistant语言学习系统由美国科学学习公司研发的,以语言学习理论和过程为基础,旨在通过朗读提高语音、词汇、语法等语言综合技能即“以读促学”,笔者所在西安外国语大学英文学院于2008年9月开始使用该系统,拥有600个账号,仅供一年级新生使用。目前主要用于配合语音课程,辅助完善语音自主学习。根据上述语音教学中存在的问题和应该坚持的教学原则,和以下Reading Assistant的教学特点作一对照,就不难理解该语音识别系统对英语语音学习及语言学习的可行性了。

1.根据Reading Assistant(语音识别)系统的(以下简称语音识别)的设计。实行学生每人拥有一个使用账号,便于展开个性化的、有针对性的指导。满足不同层次学生的要求,在语音教学中众多语言教师发现模仿是提高语音的最有效方法之一,但是模仿什么语音材料,模仿哪种语音,怎样模仿和自主学习能否模仿后是否准确仍有很大的困难,在使用语音识别系统时,学生首先要根据其设定的不同级别,和原有的测试级别自行测试,从精选的不同层次的150篇文章中选择适合自己水平和类别的进行朗读。

每次朗读后根据语音发音有成绩记录,每篇文章可以朗读10次。语音识别系统是建立在建构主意语音教学模式的理论智商,学生是学习的主体,不是被动地接受知识,而是主动地在原有的知识体系中,通过不断地积极实践,构建自己的新的知识和经验。因此在这种长期的语音练习过程中,学生可以根据自己的学习需要“建构”语音学习材料,提高自主学习能力。

2.导入语音练习的语境化,模仿对象的本土化。在实际交往活动中,听、说、读、写不是以孤立的因素和单词为单位进行思想交流的,取而代之的是以综合的句子和更高层次的话语单位进行的,孤立的因素和单词的发音在综合运用中会产生很大的变异,如连读、失去爆破、弱读等影响,因此,语音识别系统通过不同类别的文章(包括科技、生活、文艺、人物传记)等等构建不同的语境,除了传统意义对话中包含的语境外,文章中还涉及各个年龄段,男声、女声等读音。录音及文章内容的选择全部出自母语国家。确保模仿对象发音的准确性。

3.判读过程的准确性和可调节性。根据语音识别系统读音匹配程度的设计,学生在阅读过程中分别会出现完全正确发音、误读、不会读、不准确等情况,并以不同颜色标注。每次阅读完成后,学生可以查看有哪些单词不准确。开始阅读后,每读一个单词就会有不同颜色显示。而在本身阅读中如果出现严重的错读,该识别系统会停止前进,并随机开始正确读音,要求练习者跟读。教师也可以根据自己的界面监控学生朗读过程,随时抽听不同学生的朗读情况。过度的纠错会挫伤部分水平较低学生的学习积极性,因此在开始学习阶段教师可以根据学生各个层次的学习调整不同的匹配度以提高学生学习兴趣。

三、学生对语音识别使用情况及存在的问题

经过对英文学院2008级540名学生一学年使用情况的调查,86%的学生表示自己经常去RA实验室,80%的学生认为RA有助于阅读水平的提高,95%的学生认为RA对语音语调有帮助,90%的学生认为RA对听力有帮助,85%的学生认为RA对整体学习有提高。对于语音识别系统进一步的学习和开发,学生表示除英语专业学生初期应用在语音教学以外,还应考虑继续辅助阅读、写作等课程。而语音识别系统中文章内容选择可以适当考虑本土化,多针对中国学生发音中存在的问题进一步涉及文章和练习。

综上所述,外语语音教学目标不再是僵硬的单音、音素教学,而是融合更多语言交际任务的综合教学,而随着计算机、数字化和语音识别技术的发展,充分利用现代教育技术不仅可以丰富教学内容,更重要的是注意到学生的情感因素,培养学生自主学习能力,让语音教学改变以往依赖性、单一性、枯燥性,使其更具创造性,让以读促学全方位体现在英语学习中。

参考文献

[1]罗立胜等.英语语音教学的回顾及对目前英语语音教学的几点意见.外语与外语教学,2002(10).

[2]顾佩娅等.基于构建主义的计算机辅助项目教学实践.外语与外语教学,2003(7).

[3]陈爱勤,石春熙.英语专业新生语音教学的语境论研究.长春师范学院学报(人文社会科学版),2008(1).

语音识别系统第7篇

【关键词】隐马尔可夫;语音识别;单片机

在这个高科技的信息时代,计算机占着极为重要的地位,人机通信是人与机器之间进行信息通讯,使机器按照人的意愿工作,传统的人机通信是通过键盘、按钮以及显示器等机器设备实现的,在许多场合都不是很方便,其最理想的通信方式就是通过语音进行识别。实现人与机器通过自然语音的方式进行信息通讯,不仅可以简化日常工作,更可以提高工作效率,带给人们极大的方便。而实现这个理想最关键的部分就是语音识别技术。

1语音识别概述

1.1语音信号的产生

物体的振动产生声音,正在发声的物体叫做声源,声音在介质中以声波的形式传播。语音是指人的发声器官振动所发出的负载一定语言意义的声音,发音器官主要有肺部、气管、喉部、咽、鼻腔、口腔和上下唇,每个人的声道各不相同,从而各自发出的声音也不相同。

语音信号主要有模拟信号和数字信号两种表现形式。模拟信号是人直接通过耳朵听到的信号,是时间和幅值均连续的物理量,由于其数据量过大、有较多的随机因素等原因不能直接被作为计算机的识别信号。数字信号是时间和数值均离散的二进制数字量化的模拟信号,是计算机语音识别技术的基础。数字信号相比模拟信号有以下优点:可以实现很多复杂的信号处理工作;具有可靠性高、价格低廉、反应迅速等特点;有利于区分出干扰信号等。所以要想使计算机按照人类的自然语言要求工作,关键的就是将模拟信号转换为数字信号。

1.2语音信号的处理

根据讨论,若要对语音信号进行处理必须先对此信号进行预处理,即将模拟信号转换为数字信号,再整理、分析、理解转换后的数字信号,并过滤掉多余的信息。主要包括数字化、预加重和加窗分帧三部分。

数字化就是把语音模拟信号转换为数字信号的采样与量化过程,采样是在相同间隔的时间内抽取信号而得到离散的序列,并将其转换为数字。量化则是在有限的区域内分布采样后的信号。预加重是通过一个高通滤波器使频谱变得平坦,防止衰减作用,不受有限字长效应的影响。以“帧”为单位对语音信号进行截取,使信号有短时平稳的特征,加窗则可以让截取的信号波形更加平滑。

1.3语音信号的模块处理

在语音识别中,常使用的基本算法有:动态时间规整技术(DTW)、隐马尔可夫模型(HMM)和人工神经元网络(ANN)。

1)隐马尔可夫模型

隐马尔可夫模型(HMM)在当前语音识别系统中占据主流地位。它是一种随机概率模型,其使用大大降低了模型的复杂度。早在20世纪六七十年代就开始研究的统计信号模型。HMM是在Markov链的基础上发展起来的,但实际问题要更为复杂,所观察到的事件与一组概率分布相关。它是一个双重随机过程,一个是Markov链,这是基本随机过程,它描述状态的转移;一个是随机过程描述状态和观测值之间的统计对应关系,观察者不能直接看到状态,而是由感觉感知到的,因此称之为“隐”Markov模型,即HMM。

2)人工神经网络法

ANN现在已经成为了另一个热点,是非线性系统,具有DTW和HMM没有的对比、概括、推理能力。

3)动态时间规整技术

DTW是模板训练和模式匹配中出现最早的技术,使用动态规划技术在孤立词语音识别中具有良好的成果,但是其计算量较大,很难被使用到现实中的语音识别。目前已经被其他的算法所替代。

2语音识别系统设计思路

语音识别技术正在不断的发展中,在硬件平台上实现语音识别以取代繁琐的工作成为其发展的必然趋势。本文就是对基于单片机的语音识别系统的研究。由于单片机本身存在着处理速度慢、存储能力不强大的缺陷,所以此次设计是基于孤立词的语音识别系统。

语音识别系统的模型库训练工作原理是:特定人的语音信号进入系统,系统对进入的语音信号滤波,目的是为了消除需要的语音频率之外的其他杂音,进而数模转换,将输入的语音模拟信号数字化,有利于计算机进行识别。数字化后的语音信号再通过预处理、加窗分帧。对于剩下的语音信号送入HMM模板与模板库进行训练和匹配,再将最佳的结果传输给用户。

3系统模块设计及系统测试

此次设计是基于单片机的语音识别系统研究,有以下几点要求:该系统必须使完整的语音识别系统,有简单的显示功能,提高系统的识别性能,体积尽量减小。

工作原理首先采集语音信号,输入完成后通过滤波采集需要的语音信号,再通过数模转换器进入控制器,再与标准语音库中的语音信号进行对比,找出最接近该段信号的语音,再将识别出的语音通过LCD显示模块显示给用户。

系统检测首先确认是否有按键按下,当检测到有按键按下时,表示系统开始运行,如果没有按下,则表示系统处于非工作状态,只有当有按键时,才可以工作。进而开始接收语音信号,首先对语音信号进行滤波消除杂音,然后通过数模转换电路,将模拟信号转换为数字信号,预处理、端点检测后,与事先存储好的信号进行比对,得到最后的识别结果,将识别出来的结果,送往LCD液晶显示器上显示出来,展现给用户。

此次设计通过MATLAB软件实现对语音信号的调试。在接收语音信号时,有可能产生外界的干扰噪声,这就需要我们通过一系列复杂的公式计算,对该信号进行处理,进而在送由单片机进行下一步的工作。

4结束语

语音识别技术是实现人与计算机进行直接对话,让计算机自动对人所说的话进行识别、理解并执行的技术手段。语音识别技术的应用已经成为一个被受关注的新型技术产业,它的实现能够简化人们在以往工作中的繁琐,未来语音识别还要向低成本、高性能方向不断发展。

【参考文献】