RICT在语音技术领域的研究

2008-01-21 22:39 来源: 作者:尹辉 网友评论 0 条 浏览次数 5060

 

语音主观测听实验室工作间

 

    通信技术研究所的语音技术研究主要集中在语音编码和语音识别两大方面,研究方向包括:

  • GSM系统的语音编译码器的评估与改进;

    ---评估语音编译码器的性能的方法主要有两种:主观评价方法和客观评价方法。语音质量的主观评测方法,是指基于一个或一组评听者对原始语音和失真语音(一般指经过语音传输系统的语音)进行对比测听的基础,根据某种预先约定的尺度对失真语音质量划分等级。但是主观评价是一种十分消耗时间、人力、物力的评测方法。而且具有不可重复性。语音质量的客观评测方法,是指借助于某种算法和模型,由机器来自动判别语音质量,并给出对应的MOS分值。相比于主观评测方法,客观评测方法由于直接采用机器计算,很明显的具有省时省力、方便快捷的优点。而且意义明确,可以及时准确的提供语音系统的参数修改信息。目前语音编码器的客观评价方法是一个研究热点。

  • 自适应多速率(AMR)编码器的主观评测;

 

  • 自适应多速率(AMR)声码器及话音激活检测(VAD)技术;

   ---VAD(Voice Activity Detector)技术的目的是用来检测语音通信时是否有话音存在,它是变速率语音编码中的关键。作为速率选择的重要依据,判断的正确与否会直接影响语音质量和编码效率,VAD决策的最终结果用于实现变速率传输。

  • 建立符合ITU标准的语音实验室与数据库;

   ---RICT专门建立了语音主观评测的两个测听实验室,其中文评测资质已经得到IUT组织和3GPP组织的一致认可

  • 汉语语音识别技术;

   ---语音是人类交流和交换信息中最便捷的工具和最重要的媒体,因此,语音识别在多媒体技术中有着及其重要的位置。语音识别技术是集声学、语音学、语言学、计算机、信息处理和人工智能等诸领域的一项综合技术,应用需求十分广阔,在近半个多世纪以来一直是人们研究的热点,其研究成果已广泛应用于人类社会的各个领域。与图像识别技术相比,语音识别有着许多独特的优势:携带信息量大、处理响应快、无需专门训练、周边设备简单、应用领域广阔、经济效益可观等等。也正因为如此,汉语作为全世界近1/4人口的母语,多年来一直受到国内外的广泛关注,我国汉语语音识别技术的研究也一直在紧跟国际语音识别技术研究的步伐稳步发展。

  • 支持音乐的语音编码技术;

 

  • 基于音素、音节的语音识别技术;

   ---音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而英语是多音节,并且汉语虽然有大约1300个音节,但若不考虑声调,约有408个无调音节,数量相对较少。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22)和韵母(共有28)构成,且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节的区分能力。由于协同发音的影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研究。

  • 语音识别鲁棒前端技术;

   ---无线传输和网络小组致力于数字无线通信技术的研究,包括编码和信息论技术、通信信号处理技术、通信网络和服务。随着无线手持设备和无线网络的迅速普及, 人们将可以实现在任何时候、任何地方、跟任何人、以任何方式传递任何信息。有很多信息服务领域, 急切需要实现信息咨询的自动化。这对语音识别技术产生了巨大的需求。经过几十年的努力, 语音识别技术己经取得了巨大的进步。然而, 一旦这些技术使用在实际环境中, 因为信道影响、加性噪声、口音、Lombard效应、语音的复杂多样和说话人自身声音的变化而使识别率大幅度下降,语音识别前端鲁棒性技术就是在系统的前端解决这种环境影响的技术,目前主要方法包括四类:鲁棒性的特征提取、语音增强、模型匹配和麦克风阵列。

  • 分布式语音识别技术;

    ---随着移动通信和无线网络的迅速发展,语音识别技术变得越来越重要。然而,由于语音识别需要复杂的计算和大量的存储空间,移动设备(如手机等)体积小、计算能力和存储空间有限,实现起来就极为困难。为此, 就需要采用分布式语音识别系统(Distributed Speech Recognition,简称DSR),即移动终端只需进行语音采集、特征提取,有关信息则通过无线数据信道送往网络中的远程服务器,由服务器中的识别单元完成语音识别功能。无线移动信道数据传输速率较低,且存在多径效应及其它干扰,为保证DSR系统的远程识别性能,就必须采用适当的数据压缩和差错控制编码技术。为了加速DSR系统的推广应用, 欧洲电信标准委员会(ETSI)正在制定有关标准,目前已推出ETSI ES 201 108V1.1.2标准,该标准包括了产生Mel倒谱系数的前端特征提取算法、提供低数据传输速率的特征压缩算法,以及差错控制编译码技术等内容。

  • 宽带编码技术AMR-WB+声码器改进技术;

    ---1999年,3GPP提出了TS 26.090标准,即自适应多速率编码器AMR。AMR的语音编码方式是让容错度随无线信道和传输环境的改变而改变,选择最佳信道和编码模式使话音质量和系统容量达到最佳的结合。但是AMR语音编解码系统只是基于电话宽带的窄带话音。而宽带语音编码技术更能提高语音的自然度和理解性,同时3G以后,人们对通信的消费需求不局限于传统的话音业务 ,音乐,图像以及视频等其他多媒体信息的介入使得移动通信的任务从单一的话音服务转向更多元化,更丰富的信息媒体流服务 。因此2004年, 3GPP将宽带技术添加进AMR-WB,扩展得到了AMR-WB+,最终的标准编码器即TS 26.290。AMR-WB+针对语音和音乐混合编码,能同时对speech和audio进行良好的编解码,是未来数字蜂窝和微蜂窝网的首选方案。AMR-WB+有两种基本编码方式,即ACELP与TCX,组合后共有可用的模式48种,对于单声道输入信号而言,速率变化范围从6.6~24kbps,立体声输入信号的速率范围则从12.4~32kbps,用户可以根据自己的质量,时延,速率条件在这些模式之间任意选择。

  • VOIP技术;

 

    目前,通信技术研究所在语音和音频方面开展了更广更深入的研究,包括音乐情感识别,视觉语音,人脸(唇型)动画,音乐视频评测等研究领域。(by 尹辉、魏耀都)

 

 

 

 

相关主题:

网友评论

北京理工大学通信技术研究所( 京ICP备06046856号 )
地址:北京理工大学4#教学楼4层,信息楼2017 /2018房间
电话:86-10-68912615,68915838