首页>> 公司信息>>新闻详情

网络读报TTS应用方案

2008-09-24 11:00 《4PS呼叫中心国际标准研究中心》 咨询电话:17317241681(微信同号)


 

  言:

 1.1介绍

       随着数字化技术的普及,报刊出版业也朝着数字化的方向迈进,网络上的数字化报刊开始不断出现,而数字化多媒体所具有的听说读写的特点,更为数字报刊注入了新的活力。读者除了可以看到报刊的内容外,还可以通过数字化语音合成技术听到报刊中的内容。这样读者可以不用逐字去读文章,就能对文章的内容充分了解。

      

       语音合成技术,又称TTS(Text-To-Speech),可以使计算机象人一样将提供的文字通过放音设备读出来,或者转化为WAV 或其它格式的语音文件存储起来。语音合成技术具有连续流畅、自然度高、音库大小可调节、音色可转换的特点, 并且特别支持中英文的混读,使TTS可以更加广泛地应用于报刊杂志等现代文本的阅读。

 

 

二 捷通jTTS产品简介

 

2.1核心的系统结构

jTTS 4.0 多语种语音合成平台系统结构如上图所示。jTTS 4.0多语种语音合成平台是以一种开发式的架构进行设计的,其核心是一套统一的对外编程接口(APIApplication Programming Interface),即jTTS API 4.0,以及统一的多语种引擎管理模块,即jTTS_ML.DLL。多语种的引擎(例如中文引擎jTTS_CH.DLL,英文引擎jTTS_EN.DLL等)在多语种引擎管理模块的调度下进行实际的合成工作,而目前尚未提供的其他语种的引擎也可以方便地加入到这个体系结构中来。

2.2  jTTS_ML.DLL

jTTS_ML.DLL是主要模块,在这个模块中完成多数统一的工作。包括:

l         各个语种引擎和音库的管理、加载、卸载、选择。

l         与外部设备相关而与具体引擎无关的工作,例如打开文件,声卡或文件输出等。

l         各个语种几乎相同的工作,例如SSML TAG的处理等。

2.3  jTTS4.OCX

jTTS4.ocx是在jTTS_ML.DLL之上的一个ActiveX控件,主要作用是以COM接口的方式提供了TTS的功能,方便Web页面开发或者VB等编程语言的开发。由于COM接口支持的开发工具非常广泛、语言类型多种多样,因此用户可以通过使用jTTS4.ocx组件来开发TTS应用程序,以达到适应多种开发环境、简化开发过程的目的。使用此控件可以实现向文件或声卡输出,所有的设置、回调等功能也和jTTS_ML.DLL所提供的功能基本类似,但是它没有底层合成(即Session)的概念,也不能直接获得语音数据流。

2.4  核心引擎

jTTS_CH.DLL, jTTS_JP.DLL, jTTS_EN.DLL等则为各个语种的TTS实际引擎。引擎和音色库的基本概念如下:

l         每个引擎可以支持多个语种。

l         可以有多个引擎支持同一个语种,例如上图中的jTTS_CH2.DLL也支持中文。

l         每个引擎可以有多个音色(一般也对应了多个音库),每个音色都有一个唯一的GUID

l         每个音色只能支持一种语种。

l         每个音色可以支持多个领域(Domain),不同音色可以支持不同的领域范围。

l         每种方言(例如广东话)是作为一个独立语种出现。

所有引擎(但不一定是所有音库)必须安装在同一个大目录下,如下图所示:

系统会在某个目录(例如在上图中,应该是jTTS 4.0\Bin)下递归地搜索所有子目录。自动查找所安装的语种引擎、音色库和领域资源包。这样的结果是,整个系统是一种模块化的结构,对用户来说,可以自由地安装某个引擎、某种音库和某种领域资源包。

2. 5  外挂DLL

系统采用外挂DLL的方式来提高扩展性。外挂DLL包括两种:一种是文本抽取DLL,另一种是语音格式转换DLL

在阅读文件时(通过jTTS_PlayjTTS_PlayToFile),可以通过外挂的DLL来进行文本的抽取,然后利用TTS的功能进行合成,例如阅读DOC文件或者Email。而得到语音数据后,可以利用外挂的语音格式转换DLL来得到系统本身不支持的语音格式。

2. 6  jTTSService.exe

语音合成服务器jTTSService.EXE提供了对基于网络的TTS服务的支持,让用户可以采用网络合成方案或集群网络合成方案进行合成。此语音合成服务器软件作为Windows系统上的一个服务(Service)或Linux系统上的一个守护程序(daemon)实现,监听网络端口号,如果有连接,则通过jTTS Service Protocol 4.0版本为客户端提供语音合成的服务。

2. 7  jTTSLib.exe

图形化的资源管理工具,提供各语种的资源库(例如音库、词库、外部规则库等)进行维护的功能。

2. 8  jTTSSysInfo.exe

新提供的jTTS SysInfo实用工具,可以检查用户的应用环境:合成系统名称版本、操作系统名称版本、授权信息、各引擎和音库状况等等,也可以让用户打开日志文件。借助此工具,可以在便于进行远程的信息搜集和支持,更加快速的定位问题发生的可能原因,提供专业的技术支持和服务。

2. 9  jTTSResource.exe

系统提供了一个便捷的平台资源管理工具,可以对背景音乐进行添加、删除和修改。系统在初始化时将自动检测已经配置过的资源情况。

 

3.0 TTS音库分类:

   目前jTTS拥有多种中文普通话音库包括:zhaqianxiaonan liukun haobo(男声)。同时还有英文音库jenifer,和其它多种语言的音库。

 

  网页上的数字报刊语音合成技术应用方案:

3.1 技术实现方式

网站上的语音合成应用过程如下,用户先选择网页上的文字,然后点击提交,网站服务器就会使用后台的语音合成引擎合成相应的语音文件到本机上,之后用户再通过media player的播放功能以流媒体的形式播放网站服务器上的这个语音文件。得到最后的报纸声音结果。(如图:)

 

对于B/S结构的合成应用来说,网站服务器需要拥有合成语音用组件或应用程序,如果是组件可以让网页使用该组件,如果是应用程序,需要网页以命令行得形式运行此程序进行合成。无论是哪种情况都需要这个组件调用捷通TTS引擎。如图:

如果在网页里设置语速、基频或音量等信息选项,上层组件还可以获得这些信息,并提交给jtts_ml.dll接口,这样用户浏览新闻时可以获得不同的语音合成效果。

 

四、实施方案

4.1 实施方式

对于网页应用来说,合成效率十分重要,一个网站可能同时有几十或上百人访问,tts引擎需要有一定的同步合成处理能力。我们推荐使用捷通jtts-4.5网络专业版,目前TTS的合成效率是800/秒,同步线数使用 5-10线即可。当用户提交要合成的文本给网站后,TTS引擎会在内部开辟线程为多个用户同时进行合成,以保证每个客户都能在第一时间内听到报刊内容。同时为了提高效率,网站的制作可以采用缓存机制,将合成过的报刊声音文件缓存在服务器端,以便其它用户再次收听时,能够更快的听到报刊的内容。

在网站的服务器端除了将jTTS音库和网页服务器放在一起外,还可以将jTTS音库和引擎单独装在一台服务器上来用。由于jtts_ml.dll可以通过网络与合成引擎通讯来得到语音合成结果,所以可以把语音合成部分和网页服务器部份分到两台机器上用,减少网页服务器的运行负载。(如图:)

网页可以使用media player的播放功能,以流媒体的方式来播放tts合成到网站服务器的语音资源文件,并可以实现开始播放、暂停播放和停止播放功能(如图:)

 

五、安装与配置

5.1 安装

  我们将产品分为本地方案软件和网络方案软件,建议采用网络方案。网络方案软件除包括基本运行时刻库、开发工具包以外,还增加语音合成服务器软件。无论哪种方案,用户都需要在方案软件安装完毕后,另行安装所需的音库和资源包。根据用户所需音库和资源包的不同情况,音库和资源包有可能需要多次地分别独立安装。

 

 

5.2 产品特点

jTTS 4.0版本功能:

1.  支持多语种,支持多领域的设置

2.  支持音色的查找、访问、加载等

3.  支持SSML (语音合成标记语言, Speech Synthesis Markup language

4.  可以直接播放文本文件,也支持外挂抽取文本的DLL以支持其它格式。

5.  支持GB(包括GB2312, GBK, GB18030)、Big5Shift-JISISO-8859-1UnicodeUnicode  Big EndianUTF8等各种字符集,自动识别具有BOM标记的Unicode文本。

6.  支持同步、异步合成一个Session,通过被动的回调函数方式给用户传递数据。在原有版本的主动获取语音数据的基础上又提供了一个选择。

7.  支持背景音乐。

8.  可以外挂语音格式转换程序。

 

目前我们除了中文引擎外,可以提供英文引擎、日文引擎、广东话引擎等。所支持的语言和音库的情况列表如下:

 

名称

标识

语种

性别

共0条评论网友评论
  • 全部评论
共0条记录(共页)

        
总机:021-51601170 直线:021-58307717,17317241681(微信同号) 电子邮件:cct@51callcenter.com  泸ICP备10026114号-4  行业交流俱乐部QQ:2919157212
地址:上海市浦东新区牡丹路60号东辰大厦810室  邮编:201204 上海趋天网络技术服务有限公司 版权所有(2002-2018)