时间:2022-09-09 00:00:09
序论:在您撰写语音识别系统时,参考他人的优秀作品可以开阔视野,小编为您整理的7篇范文,希望这些建议能够激发您的创作热情,引导您走向新的创作高度。
【关键词】语音识别 模式识别 过程 统功能
1、语音识别技术原理简介
1.1语音识别技术的概念
语音识别技术(Auto Speech Recognize,简称ASR)所要解决的问题是让计算机能够“听懂”人类的语音,将语音中包含的文字信息“提取”出来。ASR技术在“能听会说”的智能计算机系统中扮演着重要角色,相当于给计算机系统安装上“耳朵”,使其具备“能听”的功能,进而实现信息时代利用“语音”这一最自然、最便捷的手段进行人机通信和交互。
1.2语音识别的系统组成
语音识别系统构建过程整体上包括两大部分:训练和识别。
1.2.1训练
训练通常是离线完成的,对预先收集好的海量语音、语言数据库进行信号处理和知识挖掘,获取语音识别系统所需要的“声学模型”和“语言模型”。
1.2.2识别
识别过程通常是在线完成的,对用户实时的语音进行自动识别,可以分为“前端”和“后端”两大模块:“前端”模块主要的作用是进行端点检测(去除多余的静音和非说话声)、降噪、特征提取等;“后端”模块的作用是利用训练好的“声学模型”和“语言模型”对用户说话的特征向量进行统计模式识别(又称“解码”),得到其包含的文字信息,此外,后端模块还存在一个“自适应”的反馈模块,可以对用户的语音进行自学习,从而对“声学模型”和“语音模型”进行必要的“校正”,进一步提高识别的准确率。
语音识别技术所面临的问题是非常艰巨和困难的。尽管早在二十世纪五十年代,世界各国就开始了对这项技术孜孜不倦的研究,特别是最近二十年,国内外非常多的研究机构和企业都加入到语音识别技术的研究领域,投入了极大的努力,也取得了丰硕的成果,但是直到今天,距离该技术得到完美解决还存在着巨大的差距,不过这并不妨碍不断进步的语音识别系统在许多相对受限的场合下获得成功的应用。
如今,语音识别技术已经发展成为涉及声学、语言学、数字信号处理、统计模式识别等多学科技术的一项综合性技术。基于语音识别技术研发的现代语音识别系统在很多场景下获得了成功的应用,不同任务条件下所采用的技术又会有所不同。
2、语音识别系统技术实现
语音识别系统选择识别基元的要求是:有准确的定义,能得到足够数据进行训练,具有一般性。系统所需的训练数据大小与模型复杂度有关,模型设计得过于复杂以至于超出了所提供的训练数据的能力,会造成系统性能的急剧下降。
2.1听写机
2.1.1概念
大词汇量、非特定人、连续语音识别系统通常称为听写机。
2.1.2基本架构
听写机是建立在前述声学模型和语言模型基础上的HMM拓扑结构,训练时对每个基元用前向后向算法获得模型参数,识别时将基元串接成词,词间加上静音模型并引入语言模型作为词间转移概率,形成循环结构,用Viterbi算法进行解码。针对汉语易于分割的特点,先进行分割再对每一段进行解码,是用以提高效率的一个简化方法。
2.1.3对话系统
用于实现人机口语对话的系统称为对话系统。目前,受技术所限,对话系统往往是面向一个狭窄领域、词汇量有限的系统,其题材有旅游查询、订票、数据库检索等等。它的前端是一个语音识别器,识别产生的N-best候选或词候选网格,由语法分析器进行分析获取语义信息,再由对话管理器确定应答信息,由语音合成器输出。基于目前的系统往往词汇量有限的情况,也可以用提取关键词的方法来获取语义信息。
3、语音识别系统特性
语音识别系统的性能受许多因素的影响,包括不同的说话人、说话方式、环境噪音、传输信道等等。具有自适应性与鲁棒性。解决办法可大致分为两类:针对语音特征的方法(以下称特征方法)和模型调整的方法(以下称模型方法)。前者需要寻找更好的、高鲁棒性的特征参数,或是在现有的特征参数基础上,加入一些特定的处理方法。后者是利用少量的自适应语料来修正或变换原有的说话人无关(SI)模型,从而使其成为说话人自适应(SA)模型。
4、语音识别的应用
语音识别专用芯片的应用领域,主要包括以下几个方面:
4.1电话通信的语音拨号。特别是在中、高档移动电话上,现已普遍的具有语音拨号的功能。随着语音识别芯片的价格降低,普通电话上也将具备语音拨号的功能。
4.2汽车的语音控制。由于在汽车的行驶过程中,驾驶员的手必须放在方向盘上,因此在汽车上拨打电话,需要使用具有语音拨号功能的免提电话通信方式。此外,对汽车的卫星导航定位系统(GPS)的操作,汽车空调、照明以及音响等设备的操作,同样也可以由语音来方便的控制。
4.3工业控制及医疗领域。当操作人员的眼或手已经被占用的情况下,在增加控制操作时,最好的办法就是增加人与机器的语音交互界面。由语音对机器发出命令,机器用语音做出应答。
4.4个人数字助理(Personal Digital Assistant,PDA)的语音交互界面。PDA的体积很小,人机界面一直是其应用和技术的瓶颈之一。由于在PDA上使用键盘非常不便,因此,现多采用手写体识别的方法输入和查询信息。但是,这种方法仍然让用户感到很不方便。现在业界一致认为,PDA的最佳人机交互界面是以语音作为传输介质的交互方法,并且已有少量应用。随着语音识别技术的提高,可以预见,在不久的将来,语音将成为PDA主要的人机交互界面。
4.5智能玩具。通过语音识别技术,我们可以与智能娃娃对话,可以用语音对玩具发出命令,让其完成一些简单的任务,甚至可以制造具有语音锁功能的电子看门狗。智能玩具有很大的市场潜力,而其关键在于降低语音芯片的价格。
4.6家电遥控。用语音可以控制电视机、VCD、空调、电扇、窗帘的操作,而且一个遥控器就可以把家中的电器皆用语音控起来,这样,可以让令人头疼的各种电器的操作变得简单易行。
参考文献:
1语音识别系统设计的技术依据
近年来国内教育信息化趋势更加明显,英语教学活动建立信息化平台是师生所需,改变了早期英语课堂模式的不足之处。语音识别是计算机翻译软件不可缺少的一部分,如图1,主要针对不同语言进行识别处理,帮助学生快速地理解英语知识内涵。语音识别技术主要包括:特征提取技术、模式匹配技术、模型训练技术等三大技术,也是系统设计需考虑的重点。
1)特征提取技术。一般来说,语音识别系统辅助功能涉及到收录、处理、传递等三个环节,这也是语音识别系统设计的关键所在。计算机语言与自然语言之间存在极大的差异性,如何准确识别两种语言的差异性,这是翻译软件识别时必须解决的问题。特征提取技术是语音识别系统的基本构成,主要负责对英语语言特征进行提取,向翻译器及时提供准确的语言信号,提高计算机翻译工作的准确系数。
2)模式匹配技术。语音识别系统要匹配对应的功能模块,以辅助师生在短时间内翻译出语言含义,避免人工翻译语言失误带来的不便。模式匹配技术采用智能识别器,由翻译器录入语音之后自主化识别、分析,减小了人工翻译语句的难度。例如,计算机软件建立匹配模型,按照英语字、词、句等结构形式,自动选择相配套的翻译模式,执行程序命令即可获得最终的语言结果,给予学生语音识别方面的帮助。
3)模型训练技术。设计语音识别系统是为了实现教育信息化,帮助教师解决英语课堂教学中遇到的翻译难题,加深学生们对英语知识的理解能力。语音识别结束之后,翻译器会自动执行模拟训练操作,为学生创建虚拟化的语音训练平台,这也是软件识别系统比较实用的功能。模拟训练技术采用人机一体化设计思想,把翻译器、语音识别器等组合起来执行训练方式,快速地识别、判断英语发声水平,指导学生调整语音方式。
2英语翻译器语音识别系统设计及应用
英语翻译器是现代化教学必备的操作工具,教师与学生借助翻译器功能可准确地理解英语含义,这对语音识别系统设计提出了更多要求。笔者认为,设计语音识别系统要考虑翻译器具体的工作流程,事先编排一套符合翻译软件工作的方案,如图2,从而提高人机语言转换速率。语音识别系统设计及应用情况:
1)识别模块。语音识别方法主要是模式匹配法,根据不同翻译要求进行匹配处理,实现英语翻译的精准性。一是在训练阶段,用户将词汇表中的每一词依次说一遍,并且将其特征矢量作为模板存入模板库;二是在识别阶段,将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。
2)前端模块。前端处理是指在特征提取之前,先对原始语音进行处理,这是预处理操作的主要作用。语音识别系统常受到外界干扰而降低了翻译的准确性,设计前段处理模块可消除部分噪声和不同说话人带来的影响,使处理后的信号更能反映语音的本质特征。例如,比较常用的前端处理有端点检测和语音增强。
3)声学模块。语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。声学特征的提取与选择是语音识别的一个重要环节,这一步骤直接关系到翻译器的工作效能,对英语语音识别与学习有很大的影响。因此,声学模块要注重人性化设计,语音设定尽可能符合自然语言特点。
4)搜索模块。英语语音识别中的搜索,就是寻找一个词模型序列以描述输入语音信号,从而得到词解码序列。本次所设计的搜索模块中,其前端是一个语音识别器,识别产生的N-best候选或词候选网格,由语法分析器进行分析获取语义信息,再由对话管理器确定应答信息,由语音合成器输出。由于目前的系统往往词汇量有限,也可以用提取关键词的方法来获取语义信息。
5)执行模块。实际应用中,语言识别系统凭借执行模块完成操作,对英语语言识别方式进行优化择取,以最佳状态完成英语翻译工作。目前,就英语教学中使用情况,听写及、对话系统等是语音识别执行的两种方式,充分展现了翻译器在语言转换方面的应用功能。(1)听写机。大词汇量、非特定人、连续语音识别系统通常称为听写机。其架构就是建立在前述声学模型和语言模型基础上的HMM拓扑结构。训练时对每个基元用前向后向算法获得模型参数,识别时,将基元串接成词,词间加上静音模型并引入语言模型作为词间转移概率,形成循环结构,用Viterbi算法进行解码。(2)对话系统。用于实现人机口语对话的系统称为对话系统,英语翻译器中完成了人机对话、语言转换等工作,全面提升了翻译器操控的性能系数。受目前技术所限,对话系统往往是面向一个狭窄领域、词汇量有限的系统,其题材有旅游查询、订票、数据库检索等,随着语音数据库资源的优化配置,对话系统功能将全面升级。
3翻译器使用注意事项
语音识别系统就是让机器通过识别和理解过程,把语音信号转变为相应的文本或命令的高科技。随着高校教学信息化建设时期到来,计算机软件辅助教学活动是一种先进的模式,彻底改变了传统人工教学模式的不足。翻译软件采用数字化元器件为硬件平台,配合远程互联网建立多元化传输路径,满足了英语翻译数据处理与传输的应用要求。但是,未来英语教学内容越来越复杂,翻译器语音识别系统承载的数据范围更广,学校必须实施更新翻译软件产品,才能进一步提升英语智能化翻译水平。
4结论
【关键词】语音识别信号处理DTW
一、引言
根据语音识别系统所使用的环境和平台不同,语音识别技术朝着两个方向发展:一个方向是大词汇量的连续语音识别,该方向所处理的语音较为复杂;另一个方向就是向着中小词汇量的孤立词汇语音识别,该方向所处理的语音相对较为简单,应用范围也有一定的限制,如玩具、语音导航等。虽然简单语音识别系统对于能识别的词汇量没有太高的要求,但是目前的一些简单语音识别系统的识别速度慢、识别率较低,导致用户体验较差。
二、语音识别系统原理
语音识别在本质上属于模式识别的范畴,其系统结构与模式识别具有相似之处:根据相关的识别算法对语音信号进行特征参数的提取,然后先进行学习后再对语音信号进行识别。在学习阶段,通过给出的训练数据建立起参考模板库;在识别阶段,将待识别语音信号的特征参数与参考模板库中的参数进行对比,得到与待识别语音信号最接近的模板,输出该模板作为语音识别的结果。
三、简单语音识别系统的改进与实现
DTW在简单语音识别中已经可以达到较高的识别率,因此本文选择DTW作为语音识别的模式匹配算法,并对端点检测进行一定的改进来实现语音识别系统的设计。
3.1端点检测的改进
在进行端点检测前,为短时平均能量和短时过零率设定两个门限值。在静音段,当短时平均能量或短时过零率大于低门限值,则开始准备标记语音起点,由此进入过渡段。但是在过渡段中并不能确定是否真正进入语音段,当短时平均能量和短时过零率都小于低门限值时认为是噪音,并不记录语音起点,恢复为静音段;当短时平均能量或短时过零率大于高门限值,则认为是真正的语音片段,将状态进入语音段。进入语音段后还要记录语音段持续时间,若该段时间较短则认为是噪声,继续检测后面的语音,如果满足一定的时间长度则标记语音起点并将其记录为一段语音。
3.2DTW的改进
DTW的核心思想是进行动态规划,从而解决了语音识别中的发音长度不一致的匹配问题。在进行DTW时,通过动态匹配找到一个最佳路径,把语音信号的特征参数通过这条最佳路径映射到参考模板库中,这条最佳路径要求语音信号和参考模板之间的累积距离最小。
经典的DTW算法规定待识别语音信号和模板中信号的首尾必须完全一致,但是端点检测确定的首尾与实际存在一定的误差,造成识别率有所下降。为此,可以对DTW的端点的限制适当放宽。即允许起点在(0,0)、(0,m)或者(n,0)上,终点在(N,M)、(N,J)或者(I,M)上。端点要求放宽后对端点检测精度的要求就降低了,提高了识别的速度和精度。
虽然语音的速度不同,但是语序是确定不变的,因此路径中每一点的斜率必然大于0。而为了防止过度搜素浪费资源,可以对搜索路径的斜率加以限制,由于语音信号的扩压是有限的,因此可以舍去那些向X轴或者Y轴过度倾斜的路径。具体做法是:将搜索路径中每个点的最大斜率设为2,最小斜率设为0.5,这样就可以大大降低搜索范围,减少了计算量,提高了识别速度。
另外,还可以在进行相似度匹配时设定一个合理的阈值,如果计算出的某一部分的相似度与该阈值相差太远,则立即认为待识别语音与当前模板不匹配,转而进入与下一个模板的相似度计算,这样就可以减少大量的计算量,从而提高简单语音识别的速度。
3.3实验及数据
在实验室较安静的环境下对男女声识别进行了测试。发音内容为0~9的数字,采样率为24KHz,帧长20ms,帧移10ms,识别正确率达到了95%以上,原DTW算法的孤立字识别时间是6~7s,而采用本文改进算法的识别时间减少到2~5s。因此,本文方法可以实现快速准确的简单语音识别。
四、结束语
采用本文方法可以有效提高端点检测的精度、语音识别的正确率和识别速度,该方法完全满足简单语音识别系统的应用。
参考文献
[1]张振锋.基于小词汇量孤立词语音识别系统的研究与设计[D].长安大学,2007.
【关键词】隐马尔可夫;语音识别;单片机
在这个高科技的信息时代,计算机占着极为重要的地位,人机通信是人与机器之间进行信息通讯,使机器按照人的意愿工作,传统的人机通信是通过键盘、按钮以及显示器等机器设备实现的,在许多场合都不是很方便,其最理想的通信方式就是通过语音进行识别。实现人与机器通过自然语音的方式进行信息通讯,不仅可以简化日常工作,更可以提高工作效率,带给人们极大的方便。而实现这个理想最关键的部分就是语音识别技术。
1语音识别概述
1.1语音信号的产生
物体的振动产生声音,正在发声的物体叫做声源,声音在介质中以声波的形式传播。语音是指人的发声器官振动所发出的负载一定语言意义的声音,发音器官主要有肺部、气管、喉部、咽、鼻腔、口腔和上下唇,每个人的声道各不相同,从而各自发出的声音也不相同。
语音信号主要有模拟信号和数字信号两种表现形式。模拟信号是人直接通过耳朵听到的信号,是时间和幅值均连续的物理量,由于其数据量过大、有较多的随机因素等原因不能直接被作为计算机的识别信号。数字信号是时间和数值均离散的二进制数字量化的模拟信号,是计算机语音识别技术的基础。数字信号相比模拟信号有以下优点:可以实现很多复杂的信号处理工作;具有可靠性高、价格低廉、反应迅速等特点;有利于区分出干扰信号等。所以要想使计算机按照人类的自然语言要求工作,关键的就是将模拟信号转换为数字信号。
1.2语音信号的处理
根据讨论,若要对语音信号进行处理必须先对此信号进行预处理,即将模拟信号转换为数字信号,再整理、分析、理解转换后的数字信号,并过滤掉多余的信息。主要包括数字化、预加重和加窗分帧三部分。
数字化就是把语音模拟信号转换为数字信号的采样与量化过程,采样是在相同间隔的时间内抽取信号而得到离散的序列,并将其转换为数字。量化则是在有限的区域内分布采样后的信号。预加重是通过一个高通滤波器使频谱变得平坦,防止衰减作用,不受有限字长效应的影响。以“帧”为单位对语音信号进行截取,使信号有短时平稳的特征,加窗则可以让截取的信号波形更加平滑。
1.3语音信号的模块处理
在语音识别中,常使用的基本算法有:动态时间规整技术(DTW)、隐马尔可夫模型(HMM)和人工神经元网络(ANN)。
1)隐马尔可夫模型
隐马尔可夫模型(HMM)在当前语音识别系统中占据主流地位。它是一种随机概率模型,其使用大大降低了模型的复杂度。早在20世纪六七十年代就开始研究的统计信号模型。HMM是在Markov链的基础上发展起来的,但实际问题要更为复杂,所观察到的事件与一组概率分布相关。它是一个双重随机过程,一个是Markov链,这是基本随机过程,它描述状态的转移;一个是随机过程描述状态和观测值之间的统计对应关系,观察者不能直接看到状态,而是由感觉感知到的,因此称之为“隐”Markov模型,即HMM。
2)人工神经网络法
ANN现在已经成为了另一个热点,是非线性系统,具有DTW和HMM没有的对比、概括、推理能力。
3)动态时间规整技术
DTW是模板训练和模式匹配中出现最早的技术,使用动态规划技术在孤立词语音识别中具有良好的成果,但是其计算量较大,很难被使用到现实中的语音识别。目前已经被其他的算法所替代。
2语音识别系统设计思路
语音识别技术正在不断的发展中,在硬件平台上实现语音识别以取代繁琐的工作成为其发展的必然趋势。本文就是对基于单片机的语音识别系统的研究。由于单片机本身存在着处理速度慢、存储能力不强大的缺陷,所以此次设计是基于孤立词的语音识别系统。
语音识别系统的模型库训练工作原理是:特定人的语音信号进入系统,系统对进入的语音信号滤波,目的是为了消除需要的语音频率之外的其他杂音,进而数模转换,将输入的语音模拟信号数字化,有利于计算机进行识别。数字化后的语音信号再通过预处理、加窗分帧。对于剩下的语音信号送入HMM模板与模板库进行训练和匹配,再将最佳的结果传输给用户。
3系统模块设计及系统测试
此次设计是基于单片机的语音识别系统研究,有以下几点要求:该系统必须使完整的语音识别系统,有简单的显示功能,提高系统的识别性能,体积尽量减小。
工作原理首先采集语音信号,输入完成后通过滤波采集需要的语音信号,再通过数模转换器进入控制器,再与标准语音库中的语音信号进行对比,找出最接近该段信号的语音,再将识别出的语音通过LCD显示模块显示给用户。
系统检测首先确认是否有按键按下,当检测到有按键按下时,表示系统开始运行,如果没有按下,则表示系统处于非工作状态,只有当有按键时,才可以工作。进而开始接收语音信号,首先对语音信号进行滤波消除杂音,然后通过数模转换电路,将模拟信号转换为数字信号,预处理、端点检测后,与事先存储好的信号进行比对,得到最后的识别结果,将识别出来的结果,送往LCD液晶显示器上显示出来,展现给用户。
此次设计通过MATLAB软件实现对语音信号的调试。在接收语音信号时,有可能产生外界的干扰噪声,这就需要我们通过一系列复杂的公式计算,对该信号进行处理,进而在送由单片机进行下一步的工作。
4结束语
语音识别技术是实现人与计算机进行直接对话,让计算机自动对人所说的话进行识别、理解并执行的技术手段。语音识别技术的应用已经成为一个被受关注的新型技术产业,它的实现能够简化人们在以往工作中的繁琐,未来语音识别还要向低成本、高性能方向不断发展。
【参考文献】
[关键词]语音识别系统;差异性;指标需求
一、引言
语音作为语言的声学体现,也是人类进行信息交流最自然、和谐的手段。与机械设各进行语音的沟通,让机器可以明白人类在说什么,并理解这是人类长期的梦想。语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
二、语音信号分析与特征提取
1.基于发音模型的语音特征。(1)发音系统及其模型表征。其发声过程就是由肺部进行收缩,并进行压缩气流由支气管通过声道和声门引起的音频振荡所发生的。气流通过声门时使得声带的张力刚好使声带发生比较低的频率的振荡,从而形成准周期性的空气脉冲,空气脉冲激励声道便会产生一些浊音;声道的某处面积比较小,气流冲过时便会产生湍流,会得到一种相似噪声的激励,对应的则是摩擦音;声道完全闭合并建立起相应的气压,突然进行释放就是爆破音。(2)语音信号线性预测倒谱系数。被广泛应用的特征参数提取技术的就是线性预测分析技术,很多成功的应用系统都是选用基于线性预测技术进而提取的LPC倒谱系数作为应用系统的特征。LPC倒谱就是复倒谱。复倒谱就是信号通过z进行变换以后再取其对数,求反z变换所得到的谱。线性预测分析方法其实就是一种谱的估计方法,所以其声道模型系统函数H(z)反映的就是声道频率激励和信号的谱包络,对IHg(z)作反z变换就可以得出其复倒谱系数。改复倒谱系数是依据线性预测模型直接获得的,而又被称为LPC倒谱系数(LPCC)。
2.基于听觉模型的语音特征。(1)听觉系统模型。一是人类的听觉系统对于声音频率高低和声波实际的频率高低不是线性的关系,它对不同声音频率信号的敏感度是不一样的,也可看成是对数关系。二是关于掩蔽效应指的就是声音A感知的闭值因为另外的身影的出现出现增大的现象。其生理依据主要是频率群,对频率群进行划分会出现许多的很小的部分,每一个部分都会对应一个频率群,掩蔽效应就发生在这些部分过程中。所以在进行相应的声学测量时,频率刻度一般取非线性刻度。语音识别方面,主要的非线性频率刻度有Mel刻度、对数刻度和Kon~nig刻度。其中Mel刻度被广泛的应用,其是最合理的频率刻度。(2)语音信号Mcl频率倒谱系数。Mel频率倒谱系数利用人们耳朵的听觉特性,在频域将频率轴变换为Mcl频率刻度,再变换到倒谱域得到倒谱系数。MFCC参数的计算过程:
一是对语音信号进行相应的预加重,从而确定了每一帧的语音采样的长度,语音信号通过离散FFT变换得到其频谱。二是求频谱幅度的平方,得到能量谱,并选用一组三角滤波器在频谱域对能量进行带通滤波。带通滤波器中心频率一般是按照Mcl频率刻度排列的(间隔为150Mel,带宽为300Mel),其每个三角形滤波器的两个底点频率和相邻的两个滤波器的中心频率相等,频率响应之和为l。滤波器的个数一般和临界带数比较相近,设滤波器数是M,滤波后得到的输出为:X(k),k=1,2,…,M。
关键词:语音识别;动态时间规整(DTW);数字信号处理器(DSP)
1 引言
语音识别按不同的角度有以下几种分类方法:从所要识别的单位,有孤立词识别、音素识别、音节识别、孤立句识别、连续语音识别和理解。目前已进入识别的语音识别系统是单词识别。以几百个单词为限定识别对象。从识别的词汇量来分。有小词汇(10-50个)、中词汇(50-200个)、大词汇(200以上)等。从讲话人的范围来分。有单个特定讲话人、多讲话人和与讲话者者无关。特定讲话人比较简单,能够得到较高的识别率。后两者难度较大,不容易得到高的识别率。 从识别的方法分。有模块匹配法、随机模型法和概率语法分析法。这三种都属于统计模式识别方法。
2 系统硬件及组成
2.1 系统概述
语音识别系统的典型实现方案如图1所示。输入的模拟语音信号首先要进行预处理,语音信号经过预处理后,接下来重要的一环就是特征参数提取,其目的是从语音波形中提取出随时间变化的语音特征序列。然后建立声学模型,在识别的时候将输入的语音特征同声学模型进行比较,得到最佳的识别结果。
2.2 硬件构成
本文采用DSP芯片为核心(图2所示),系统包括直接双访问快速SRAM、一路ADC/一路DAC及相应的模拟信号放大器和抗混叠滤波器。外部只需扩展FLASH存储器、电源模块等少量电路即可构成完整系统应用。
2.3 系统主要功能模块构成
语音处理模块采用TI TMS320VC5402, TMS320VC5402含4 KB的片内ROM和16 KB的双存取RAM,一个HPI(HostPortInterface)接口,二个多通道缓冲单口MCBSP(Multi-Channel Buffered SerialPort),单周期指令执行时间10 ns,带有符合IEEE1149.1标准的JTAG边界扫描仿真逻辑。语音输入、输出的模拟前端采用TI公司的TLC320ADSOC,它是一款集成ADC和DAC于一体的模拟接口电路,并且与DSP接口简单,性能高、功耗低,已成为当前语音处理的主流产品。16位数据结构,音频采样频率为2~22.05 kHz,内含抗混叠滤波器和重构滤波器的模拟接口芯片,还有一个能与许多DSP芯片相连的同步串行通信接口。TLC320AD50C片内还包括一个定时器(调整采样率和帧同步延时)和控制器(调整编程放大增益、锁相环PLL、主从模式)。TLC320AD50C与TMS320VC5402的硬件连接,如图3所示。
3 结论
本文以TMS320VC5402芯片为核心的系统硬件设计迸行了研究,通过TLC320AD50C对语音信号进行A/D转换,通过TMS320VC5402对语音信号“0”、“1”、“2”进行训练和识别,并由对于灯LED0、LED1、LED2亮来显示结果是否正确;该系统核心识别算法采用动态时间规整(DTW)算法,主要流程包括预处理、端点检测、提取特征值、模式匹配和模板训练,取得了很好的识别效果。
参考文献
[1] 朱铭锆, 赵勇, 甘泉. DSP应用系统设计 [M].北京:电子工业出版社,2002.
[2] 郭华. 自适应滤波算法及应用研究[D].兰州:西北师范大学,2007.
[3] 张雄伟..DSP芯片的原理与开发应用[M].北京:电子工业出版社,2009.
[4] 张德丰. 数字图象处理(MATLAB版)[M].北京:人民邮电出版社,2009.
作者简介
王宇,邵阳学院魏源国际学院电子科学与技术专业学生。
关键词: 语音识别;DHMM;Viterbi;嵌入式系统;ARM
中图分类号:TP399 文献标识码:A文章编号:1006-4311(2012)04-0126-020引言
随着计算机技术的飞速发展,各种各样的应用层出不穷,其中使用语音与计算机程序进行交互成为了最近热门的研究方向。语音作为人类与计算机之间无形的连接方式,可以使人们方便、快捷地控制和使用计算机。语音识别技术是能够让原来非智能的计算设备理解人类思想的高科技技术,融合了信号处理、人工智能以及自动化等多学科、多领域的研究成果,是目前实现人工智慧的主要途径之一。
根据不同的分类标准,语音识别可分为不同的种类,例如依据识别对象的不同,可分为特定人语音识别及非特定人语音识别;又根据人类的讲话方式可分为孤立词识别、连接词识别以及连续语音识别。不同的识别系统虽然在语音识别过程中步骤相似,但根据不同系统的需求及特点其实现方式及具体细节是不同的[1]。
嵌入式技术的迅猛进步,使得语音识别技术的应用更加广泛,不再局限于实验室以及大型场合;其已经被嵌入各种移动设备,为人们对移动设备的操作方式提供了一种崭新途径和使用体验。本文就针对移动设备的特点,设计了一种面向非特定人的孤立词语音识别系统。
1语音识别的工作原理
原始的自然语音信号中不仅含有人体自身的声音信号,同样也包含了大量的杂音、噪声等混杂在一起的随机干扰信号,尤其作为移动、嵌入式设备被使用者随身携带使用,会有更多的环境噪声信号。针对大量噪声的数据计算以及嵌入式设备有限的计算资源,为保证系统的对自然语言的正确识别率,并且有效减少处理原始语音信号的大量数据密集计算,有必要研究语音信号的预处理技术,以期高效提取语音特征参数,并选取合适的压缩算法进行语音数据压缩,之后再进行语音的模式匹配[2]。
如图1所示,人本身的语音信号从语音录入设备进入后,将进行预处理、端点检测、特征提取,转换为可以对比的信号参数,然后将特征参数通过选取的特征匹配方法与参考样例库中的模板样例进行语言匹配,选择符合度最大的语言样例进行相应处理,得出识别结果。
2系统硬件设计
系统的硬件结构示意图如图2所示。
系统的处理核心采用了韩国三星公司的一款基于ARM 920T内核的S3C2440微处理器;此款处理器中的CMOS宏单元和存储单元采用了0.18um电子工艺,内部总线采用Advanced Microcontroller Bus Architecture(AMBA)新型总线结构,具备出色的全静态设计,利用了多项低功耗技术,系统架构精简,特别为价格和功耗敏感的应用而精心打造。除此之外,它特别为各种外设准备了丰富的中断处理资源,包括总计共有60个中断源(其中包括5个定时器硬中断,9个串口中断,24个外部中断,1个看门狗定时器,4个DMA,2个ADC,1个LCD,1个电池故障,1个IIC,2个SPI,1个SDI,2个USB,1个NAND FLASH口,2个视频口和1个AC97音频口),这些中断既可以使用电平/边沿触发模式进行外部中断的触发,也可以使用软件编程的方式改变边沿/电平触发极性,能够为紧急中断请求提供快速中断(FIQ)服务[3]。
系统工作时,人的语音信号经过MIC输入,并通过滤波、去噪等操作后,在S3C2440上执行语音特征提取、语音模式匹配算法,最终输出结果;系统中的USB接口可以方便系统外扩各种标准USB外设,以便使用语音识别结果进行各种设备控制。
3系统软件设计
3.1 Linux内核移植移植Linux内核一般分为几个固定的步骤,目前较为流行快速开发方法通常先在内核的处理器架构目录下,选择与目标开发板硬件结构最接近的并且各种配置较为完善的开发板目录作为移植模板。接着针对本开发板与目标开发板的硬件具体差别,进行对应的修改或使用前人的移植补丁进行升级。针对本开发板,我们使用了稳定的Linux-2.6.15内核进行移植,考虑到本系统的具体硬件配置,最后选择了SMDK2440开发板模板作为移植的目标开发板模板。在编译和配置内核前,建议使用menuconfig或其它配置工具对内核进行适当的裁剪,还可以进一步编写配置脚本。嵌入式Linux内核的裁减类似于PC上Linux内核的裁减,主要的工作是根据硬件和系统需求增添需要支持的模块,并除去无用的功能模块,以使Linux内核与目标硬件系统紧密相依,但要注意嵌入式Linux内核的特征是小、精、有效。内核的编译则通常是通过修改根目录以及其它子目录下的Makefile,以及在预编译前设置编译参数值时进行选定,或是使用编译工具[4]。
最后,使用make工具生成U-boot可以识别的uImage引导程序镜像文件。uImage镜像文件通过U-Boot引导程序从FLASH中取出并解压缩,装入内存后,Linux内核便取得系统控制权。
Linux内核移植的整个过程如图3所示。
3.2 系统软件设计整个系统软件结构如图4所示。面向终端用户的软件形势分为两种:web插件和普通的软件界面;web插件可以使用在浏览器中,方面用户控制网页浏览。下面是命令解析层Command layer,负责解释两种界面发送的命令,调用相应的程序接口并返回执行后的结果。功能模块Function modules主要封装软件API,负责提供各种常用的功能服务。控制模块Control modules负责管理和控制语音识别引擎,建立语音样例库以及调整语音设备引擎的内部参数,将来还可以加入新的语音模式匹配算法。再下面一层是统一APIs层,主要对核心语音识别引擎进行简单的API封装,同时预留了将来要扩展的功能接口,以便后续的功能升级和代码维护;最下面的就是核心语音识别引擎,主要提供模式匹配算法以及对底层系统级的控制功能。
3.3 语音识别算法本语音识别系统的识别任务主要为针对设备持有者的小词汇量孤立词的语音识别,功能较为简单,需要使用者进行一定量的训练后,系统对应建立语音样例库,然后针对每次的声音进行模式匹配即可,所以算法的重点在于模式匹配算法。综合计算性能需要、存储资源消耗以及价格成本考虑,目前流行的DHMM语言识别模型对本系统较为合适。DHMM模型是一种随机统计过程,通过大量的模板训练过程提取语音特征,可满足语音实时变化且识别实时性要求较高的应用场合。
本系统采用了当前性价比较高的Viterbi算法实现DHMM模型。Viterbi算法可以由如下公式描述[5]:
?啄t(i)=■p(s1,s2,…,st=si,O1,O2,…,Ot|?姿)
其中,?啄t(i)为被识别语音序列t时刻的最大概率密度;其中t时刻前经过的语音状态序列为s1,s2,...st,且t时刻状态为si,对应输出观察符序列为O1,O2,...Ot。
4结束语
人类与计算机之间的交流的方式经过了按键输入、键盘输入、手写输入以及触摸输入的阶段,但这已经不能满足人们对于便捷、快速输入的更高需求,而语音识别技术的发展和应用,使得人们看到了计算机输入的未来趋势。相信随着电子技术和信号处理技术的进一步提高,语音输入将会广泛应用于各种计算机以及嵌入式设备中。
参考文献:
[1]马莉,党幼云.特定人孤立词语音识别系统的仿真与分析[J].西安工程科技学院学报,2007,(03).
[2]邢铭生,朱浩,王宏斌.语音识别技术综述[J].科协论坛(下半月),2010,(03).
[3]涂刚,阳富民等.嵌入式操作系统综述[J].计算机应用研究,2000,17(11):4-6.