单位文秘网 2022-02-13 08:18:17 点击: 次
摘要:给出一段语音,对这段语音的清浊音进行了研究。为了区分该语音的清音段与浊音段,提出一种短时幅度和短时过零率相结合的方法。分析比较了短时幅度和短时过零率分别出现的不同结果。短时幅度值Mn大的对应于浊音段,而Mn值小的对应于清音段。高平均过零率对应于清音,低平均过零率对应于浊音,分析结果表明将短时幅度和短时过零率结合起来的方法可以大体上区分清音段和濁音段。
关键词:语音;短时幅度;短时过零率;分析;清音段和浊音段
中图分类号:TN912文献标识码:A文章编号:1009-3044(2009)33-9314-02
Analysis and Application of Short-time Magnitude and Short-time Zero-crossing Rate in Speech
WU Yan-hua
(Department of Physics, Qinghai Normal University, Xi"ning 810008, China)
Abstract: Giving a period of speech,and to research on the Unvoiced and Voiced sound of the speech.In order to distinguish the segment of,a method of combing Short-time Magnitude and Short-time Zero-crossing Rate is proposed in this paper.By analyzing the different results based on Short-time Magnitude and Short-time Zero-crossing Rate.The one whose Short-time Magnitude is bigger corresponds the segment of Voiced sound,otherwise corresponds the segment of Unvoiced sound.The high Short-time Average Rate corresponds Unvoiced sound,and the low one corresponds Voiced sound.The analysis results show that the method of combing Short-time Magnitude and Short-time Zero-crossing Rate can distinguish the segment of Unvoiced and voiced sound roughly.
Key words: speech; short-time magnitude; short-time zero-crossing rate; analysis; the segment of unvoiced and voiced sound
语音是语言的声学表现,是人类交流信息的最自然、最有效、最方便的手段。语音信号处理是一门以语言学和数字信号处理为基础的综合性学科,包括了语音识别、语音合成、语音编码和说话人识别等四大分支。而语音基音检测是语音信号处理中的一项重要技术之一,与许多语音信号处理技术相关。因此,语音基音检测的准确度和检测效率一直受到科技工作者的重视。其中,有效地区分清音段和浊音段对其起着关键作用随着社会的快速发展,机器参与了人类的生产活动和社会活动。人们发现,人-机之间最好的通信方式是语言通信,而语音是语言的声学表现,是人类交流信息的最自然、最有效、最方便的手段。作为语音信号处理研究的领域,语音识别技术的最终目的是实现人-机自由对话,也就是赋予机器以听觉,使机器能听懂人的语言,辨明话音的内容或说话人,将人的语音正确转化为书面语言或有意义的符号或进一步使机器能够按照人的意志进行操作把人类从繁重或危险的劳动中解脱出来。在语音信号处理中,清浊音判决是语音信号预处理的一个重要环节。能否准确地对语音信号进行清浊音判决,决定着后续的工作能否顺利进行。基音周期的检测、语音的合成效果很大程度上都取决于清浊音的判断正确与否。语音信号检测在语音信号处理和通信等领域,有着十分重要的意义。一般来说,语音信号检测算法主要依据语音在噪声的不同特性进行判决,由于清音的特性与噪声非常相似,而浊音的特性和噪声区别明显,所以常采用浊音检测的方法。目前常用于语音检测的方法有短时能量法、短时平均幅度(Average Magnitude,AM)法、短时过零率法、相关性检测法、短时平均幅度差(Average Magnitude Difference Function,AMDF)法等。到目前为止,已经提出了许多种清浊音判决方法。本文主要介绍是的语音短时幅度和短时过零率相结合的方法,可以大体上区分清音段和浊音段,为以后更好地进行清浊音判决创造了条件。
1 数据来源
本文所用的数据源都是从WAVE文件中得到的。
WAVE文件作为多媒体中使用的声波文件格式之一,它是以RIFF格式为标准的。RIFF是英文Resource Interchange File Format的缩写,每个WAVE文件的头四个字节便是“RIFF”。WAVE文件由文件头和数据体两大部分组成。其中文件头又分为RIFF/WAV文件标识段和声音数据格式说明段两部分。常见的声音文件主要有两种,分别对应于单声道(11.025KHz采样率、8Bit的采样值)和双声道(44.1Hz采样率、16Bit的采样值)。
录制一段语音,王之涣的《登鹳雀楼》中的诗句 “白日依山尽,黄河入海流。欲穷千里目,更上一层楼。”(女声),然后保存其.WAVE文件,取名为“dgql.wav”。则语音dgql.wav显示的部分波形图(取该语音的前5000个样本)如图1所示。
2 对短时幅度和短时过零率的分析
2.1 用短时平均幅度Mn进行清浊音判断
2.1.1 短时平均幅度定义
语音信号x(n)的短时平均幅度的定义为
其实现框图如图1所示。这里用计算加权了的信号绝对值之和代替平方和。这种短时处理的方法比较简单,因为它不必作平方运算。Mn也是一帧语音信号能量大小的表征,与En的区别在于其计算时小取样值和大取样值不会因取平方而造成较大差异。
2.1.2 窗口的形状和长度的选择
本算法中窗口选择海明窗,其定义为:
其中,N为窗口的长度。
选择海明窗的理由是窗函数的选取原则为窗函数截取后的x(n)尽量是中间大两头小的光滑函数,冲激响应对应的滤波器具有低通特性。海明窗虽然主瓣最高(带宽大),但旁瓣最低(通带外的衰减大),可以有效地克服泄露现象,具有低通特性。故选择海明窗更能反映出语音信号的幅度变化。
选择海明窗后,就应选择窗口的长度N了。如果N很大,它等效于带宽很窄的低通滤波器,此时Mn随时间的变化很小,不能反映语音信号的幅度变化,波形的变化细节就看不出来;反之,N太小时,滤波器的通带变宽,短时幅度随时间有急剧的变化,不能得到平滑的能量函数,。不论什么样的窗口,窗长对于能否反映语音信号的幅度变化,起决定作用。窗长太大或太小都不行,故窗长选择应合适。本方法中选择的窗长为240,窗移为80,共有60帧。
2.2 用短时平均过零率对清浊音频谱的进行粗略估计
2.2.1 短时平均过零率定义
短时平均过零率是语音信号时域分析中最简单的一种特征。顾名思义,它是指每帧内信号通过零值的次数。对于连续语音信号,短时平均过零率可以考察其时域波形通过时间轴的情况。对于离散信号,短时平均过零率实际上就是信号采样点符号变化的次数。短时平均过零率仍然可以在一定程度上反映其频谱性质,可以通过短时平均过零率获得谱特性的一种粗略估计。
语音信号x(n)的短时平均过零率的定义为
式中,sgn[·]是符号函数,即
2.2.2 窗口的形状和长度的选择
窗函数w(n)为矩形窗,即
本方法中选择的窗长为240,窗移为80,共有60帧。
根据前面语音信号x(n)的短时平均过零率的定义式Zn,可得实现过零的框图,如图2所示。由图可见,首先对语音信号序列x(n)进行成对地查对采样以确定是否发生过零,若发生符号文化,则表示有一次过零;而后进行一阶差分计算,再求绝对值,最后进行滤波。
3 短时幅度和短时过零率的应用
3.1 短时平均幅度主要用途
Mn也是一帧语音信号能量大小的表征,由于平均幅度函数没有平方运算,因此其动态范围(最大值和最小值之比)要比短时能量小,接近于标准能量计算的动态范围的平方要,窗长N对平均幅度函数的影响与短时能量的分析结论是完全一致的,且浊音时Mn值比清音时大得多。所以,短时平均幅度也可以用来区分清音段和浊音段。
如在图四中,短时幅度Mn值大的对应于浊音段,而Mn值小的对应于清音段。由图上的Mn值的变化,可大致判定浊音变为清音或清音变为浊音的时刻。
语音dgql.wav显示的部分短时平均幅度的连续图(取该语音的前5000个样本)如图4所示。
3.2 短时平均过零率主要用途
短时平均过零率可应用于语音信号分析中。由于它粗略地描述了信号的频谱特性,因而可以區分清浊音。发浊音时,其语音能量约集中于3kHz以下。而发清音时,其多数能量出现在较高频率上。既然高频意味着高的平均过零率,低频率意味着平均过零率,那么可以认为浊音时具有较低的平均过零数,而清音时具有较高的平均过零率。但这种高低仅是相对而言,没有精确的数值关系。
在这首诗中,这四句话的平均过零率变化都很大,如在图5中,可以看出,高平均过零率对应于清音,低平均过零率对应于浊音;但是清音和浊音的变化非常明显。因而,短时平均过零率可以用于清音和浊音的大分类上。
语音dgql.wav显示的部分短时平均过零率的连续图(取该语音的前5000个样本)如图5所示。
4 结束语
通过短时平均过零率和短时幅度结合起来的方法,可以大体上区分清音段和浊音段。此方法,对于清音,短时过零率比较高,短时幅度比较低;对于浊音,其短时过零率比较低,但是短时幅度比较高。在背景噪声较小的情况下,短时幅度比较准确,但当背景噪声较大时,短时平均过零率可以获得较好的判断结果。但将两者结合起来,就可以达到较好的效果,特别是在清浊音的大分类上,效果更佳。该文提出的方法局限性很大,它只是能够大概区分清音段与浊音段,但是很难区分清音还是浊音。这个区域所含的信息量是很大的。近年来,有用子波分析提取基音的,也有用语音的分形特征作盒维数统计分析的。这种方法还有待于进一步改进。
参考文献:
[1] 马祥杰,孟相如,张百生.一种自相关基音检测方法[J].通信技术,2003(5).
[2] 武光利,戴玉刚,马宁.基于短时平均幅度和短时过零率的藏语语音端点检测研究[J].福建电脑,2007,(3):166-167.
[3] 吴恬盈.一种新的清浊音在线辨识法[J].计算机仿真,2007,(04).
[4] 张仁志,崔慧娟.基于短时能量的语音端点检测算法研究[J].电声技术,2005,(07).
[5] 熊琦,杜旭,朱晓亮.一种基于短时平均幅度差的语音检测算法[J].电声技术,2006,(09):50-51.
[6] 李昱,林志谋,黄云鹰,等.基于短时能量和短时过零率的VAD算法及其FPGA实现[J].电子技术应用,2006,(9).
[7] 廖逢钗,卢昌荆,王红雨.基于短时平均幅度的语音端点检测的改进[J].三明学院学报,2006,23(2).
[8] 冯康,时慧琨.一种参考短时平均能量和平均幅度差函数的基音检测方法[J].淮南师范学院学报,2003,5(5).
[9] 周家新,王长松,汪建新,等.基于短时幅度-过零率函数识别抽油井液面回波[J].化工自动化及仪表,2007,34(2):59-62.
[10] 胡航.语音信号处理[M].哈尔滨:哈尔滨工业大学出版社,2005.30-33.
(责任编辑:单位文秘网) )地址:https://www.kgf8887.com/show-181-98535-1.html
上一篇:计算机通信网络可靠性设计技术研究
版权声明:
本站由单位文秘网原创策划制作,欢迎订阅或转载,但请注明出处。违者必究。单位文秘网独家运营 版权所有 未经许可不得转载使用