您的位置: 网界网 > 周报全文 > 正文

[周报全文]语音合成露峥嵘

2001年07月02日 00:00:00 | 作者:佚名 | 来源:$page.getBroMedia() | 查看本文手机版

摘要:语音合成露峥嵘

标签
语音合成露峥嵘
□ 本报记者  何进伟

记得在1998年,IBM推出语音输入系统ViaVoice,语音输入一时成为大家津津乐道的话题。而近日记者从清华大学获悉,语音输入的“姊妹技术”——语音合成技术已基本成熟,我国拥有自主知识产权的语音合成产品并已在公共话音服务、有声E-mail等领域大显身手。
成立于1979年的清华大学计算机系人机语音对话研究组与中国科技大学、中科院声学所等是中国研究语音合成技术的个中翘楚。记者近日采访了清华大学计算机系人机语音对话研究组的蔡莲红教授与陶建华博士。蔡教授从1979年即从事语音合成的研究,陶博士则是现在的该学术研究带头人。
据两位老师介绍,语音输入与语音合成同属语音技术领域,并且相互分工合作。我国的语音合成技术研究起步于8O年代初,进展很迅速,现在我国在这一领域与国外处于同一水平线上。语音合成研究主要是集中于TTS(Text to Speech)系统的开发,因为TTS是语音合成的基础,其他如“键盘到语音”的技术可在其上进行二次开发而得。其中,清华大学作为最早的TTS系统研究者取得了不蜚的成果。1992年他们即已研制成功汉语TTS系统Sonic。现经过多年的改进,从效果看,已可以被大家普遍接受。两位老师在做演示时,记者也感觉声音基本自然、能正常停顿连续,同时觉得声音仍有机器的生硬造作感。另从技术特点上看,Sonic系统可运行在DOS、Windows、Unix等操作系统下,实现了语音合成以句子为单位,按词汇停顿,能自动确定多音字的正确读音、可随时改变声音的幅度、速度、词间或句间停顿。而且系统支持DLL,提供了一系列API函数,用户可自行编写二次应用程序。
TTS方兴未艾是因为它不仅在传统的声讯服务、电话银行、办公自动化等有着广泛的应用,而且新兴的移动互联网、能上网的信息家电、PDA、HPC等也呼唤着语音合成技术。两位老师就认为,语音合成技术的最基本功能当然是“电子文档的语音输出”,而更诱人的是利用它可以开发出许多Internet上的新服务内容,如通过电话查询股票行情和交易、通知或查询即时到达的电子邮件、通过电话进行电子商务活动等。它们要求语音合成技术与电话技术紧密配合,也促进了电话网和数据网的结合。在这方面的好例子是,他们与炎黄新星网络公司合作(+微信关注网络世界),推出了电信级的声讯E-mail网关。
而清华TTS最成熟的应用当属即将推出的“新华音霸KingVoice1.0”。它是以汉语普通话为标准发音的朗读软件,由新华世纪数码软件有限公司总发行,炎黄新星网络科技有限公司开发制作。蔡教授与陶博士领导的研发团队则提供技术支持。新华音霸KingVoice1.0可在电脑朗读的同时显示具有口型变化的真人或动画模型(Talking Head),以增进对声音的理解和阅读兴趣,在个人的电子图书阅读、文稿校对以及企业的自动播音、辅助教学方面都将有广阔的市场。
未来语音合成技术的主要发展方向仍将是提高合成语音的自然度、表现力,让合成语音自然好懂,甚至富有个性色彩,带有情感。同时两位老师提醒说,降低语音合成技术的复杂度也是一个重要课题。因为目前高质量的汉语文语转换系统一般需要几兆字节到几十兆,甚至几百兆字节的存储容量,这对于像PDA及无线通信手机等资源有限的设备是无法承受的,所以要扩展其应用就得先减小音库容量。■
[责任编辑:程永来 cheng_yonglai@cnw.com.cn]