首页>> 企业>>新闻详情

顺丰科技深耕智能语音语言技术,深度赋能行业及全场景

2024-01-04 17:47  《4PS呼叫中心国际标准研究中心》  咨询电话:17317241681(微信同号)  


智能语音技术快速发展,应用领域日益广泛

智能语音语言技术,是人工智能领域应用的一个分支,当前已经广泛应用于各行各业。核心技术包括智能语音识别,智能语音合成,自然语言处理等,随着新方案的迭代和涌现,在近年来发展趋势迅猛。全流程的应用场景,典型的有智能客服机器人,除此之外,在传媒制作、智能家居、办公协同、车载等场景都有深度的应用。而顺丰呼叫中心,也应用了这项技术,以便更好地服务客户。


主动触达客户,顺丰呼叫中心智能语音技术的深度应用

顺丰呼叫中心几个关健系统,有智能外呼系统、智能应用系统及人工客服系统。外呼是呼叫客户,主要是一些通知触达场景,比如派件前先跟用户预约某时间是否可上门等。智能应答系统,是处理用户主动呼入的情况,场景更为复杂,包括下单、消单、咨询等场景。在智能系统解决不了用户需求的时候,会有打断逻辑转到人工服系统。

三个系统都用到了智能语音语言技术,其中智能系统全流程用到了识别、合成及意图理解与对话生成。人工客服系统产生的大量录音数据则由质检系统将音频转成文本并检查客服的通话话术。

语音合成的应用

语音合成,也叫TTS(text to speech),根据输入的文本,输出自然的语音。语音合成引擎一般分为前端语言学模型与后端的声学模型,语言学系统负责语言解析处理,一般功能有语种分析,分词,多音字处理,韵律预测等,而后端声学系统则根据前面的这些信息,合成语音。目前后端系统从最开始的简单拼接方式,到基于深度学习的参数合成,发展到现在比较流行的端到端方案,合成效果越来越好。

当前线上正在运行的方案是基于参数合成的方案,相比于拼接方案,其合的语音连接平稳,质量高,但对声码器有一定的依赖。前端从文本中提取发音和韵律信息,而后端则将前端输出转成语音特征和语音数据流。

TTS的合成效果测评一般有两种,第一种是采用Mos测评,这种方法主要关注于语音本身的质量,会对音质,流畅度,正确性,自然度,分词,停顿,音色等,进行主观打分评价,再根据平均值得到TTS系统的最终评分。而第二种是ABX测评,通过相同文本的输出对比不出的TTS系统合成效果。当前线上版本使用ABX测试,超出原有供应商5%以上,符合平替要求。

除了合成的效果,还有一个系统性能的维度用来评价合成,这里主要有实时率指标(RTF),首帧响应时间(RT),及系统并发三个关健指标。基于此,引擎的实现过程中调研实测了多种声学模型与声码器。

最终,结合实际语音合成效果,第一版本生产实测RTF<0.02,RT<200ms。

结合系统应用场景,及引擎的性能,当前版本TTS未实现流式合成,并且采用Http接口封装对呼叫系统提供原子能力。

以上是基于参数的合成,已在生产大规模应用。而基于端到端bert_vits模型的第二大版本引擎,目前还在测试阶段,根据目前的测试效果,中文句子停顿自然,比原方案稍好,而中文加英文字母停顿有时候不自然;另外在地址播报上也更自然,接近真人停顿习惯。


语音识别的主要应用场景和方案

语音识别,也叫语音转写,目的是将音频流转成文字。其引擎方案一般由特征提取、声学模型(AM),语言模型(LM),和解码搜索四部分构成。整个识别过程先对音频流进行处理,消除噪声和信道失真,并对对语音进行增强,然后分割声音片段并转换成一系列数值,再通过声学模型识别数值,最终利用语言模型解码搜索匹配得到最优的词序列作为识别结果输出。

特征提取:音频模拟信号输入,将其转为数字信号,提取声音特征,供声学模型提取合适有代表性的特征向量

声学模型:将声学和发音学的知识进行整合,以特征提取部分生成的特征为输入,并为可变长特征序列生成声学模型分数

语言模型:通过训练语料/数据(通常是文本形式)学习词之间的相互关系,来估计假设词序列的可能性,找出该声音特征最有可能对应的文字序列

解码搜索:对给定的特征向量序列和若干假设词序列计算声学模型分数和语言模型分数,将总体输出分数最高的词序列作为识别结果。

在实际的场景中,语音识别主要分为非流式识别和流式识别。非流式识别将长音频数据转文本,常应用在离线场景如影视字幕制作、客服录音质检等,顺丰内部即主要应用于小哥和客服录音的质检。流式识别,输入语音流,实时输出带有时间戳的文字流,常应用于直播字幕、实时会议记录、翻译同传等场景,顺丰主要应用在智能呼叫系统上。

流式识别与非流式识别在可用数据、模型精度和系统评价指标上都有一些区别,如下表:

 

流式语音识别

非流式语音识别

可用数据

history数据+少量future数据

全部history + future数据

模型精度

数据输入

N秒/次,如N=0.5

一次性输入完整数据

结果获取

实时输出

解码完成一次性输出

运行效率指标

最后一次送入数据到获得最终结果的时延

RTF (受时长影响波动)


1、非流式语音识别在质检系统的应用

ASR应用在质检系统上,多出了一些额外的功能,如话者分离,用于分开坐席与客户音频,以便可以只针对坐席做质检。另外还有后处理中的文本角色识别、规则质检等,也是流式处理中所没有的。

质检系统整体方案如下,数据主流程和其中的ASR转写、规则质检是最核心的一部分。上游话单数据通过kafka和接口的方式接入。主流程接入数据后进行了初步的过滤和转存,生成话单和质检任务。ASR引擎是无状态分布式架构,平台提供幂等接口供引擎服务查询未处理任务,每个ASR服务启动之后,通过接口获取任务进行质检,完成或中间失败则通过平台的回调接口返回状态,通过kafka返回数据。平台实现了一套规则引擎,质检使用业务人员配置规则进行。


2、流式语音识别在呼入呼出中的应用

2.1引擎

ASR的流式版本,在顺丰场景中主要应用在智能外呼系统和智能应答系统。引擎使用支持流式处理的端点检测及语音识别。最终在生产应用,抽样质检,字错率<5%,字准率>96%。

2.2、流式引擎的接入

在流式引擎的实践中,要解决的一个重要问题是算力资源的调度。区别于常见的Http接口服务,可以采用轮询等常规负载均衡策略,流式的任务会占用不定时长的链接和算力资源。在给定算力(CPU/GPU)资源并满足业务处理时延前提下,其能处理的最大连接数是确定的,如果此时增加了任务数,则会分出去一些算力,导致整体请求时延下降。两个场景都是深度交互式的业务,用户的忍耐等待回复的时长有限,稍长一点的时延,用户就可能立刻挂断电话。

我们在落地时,引入了引擎的自动服务发现并实现了一个登录服务器。引擎启动后需要主动向服务发现模块提交它自己的实例ID和它所能支持的最大连接数。在接收到一个任务或完成任务后,也需要向服务发现模块更新其已使用的连接数和剩余连接数。使用ASR能力的客户端,完成两个步骤才能使用接口。首先通过登录服务器查到最优实例(Http),再根据实例访问对应的实时流式接口(Websocket)。

2.3、电话系统的接入

在完成流式接入并支持精确负载后,如何接入电话系统是另一个要解决的问题,这里使用到了行业主流的接入协议—媒体资源控制协议(Media Resource Control Protocol,MRCP)。

MRCP 是一个标准、统一、可扩展的协议,主要应用语音识别、TTS 合成、录音、声纹识别(确认是否为某一类群体),声纹认证等能力的接入。MRCP 是一个框架,同时也是一个协议。该框架定义了它的网络基本组件及相互关系。它使用 SIP 协议来控制会话管理,使用 RTP 进行媒体流传输。它的协议定义了它如何控制媒体资源的过程。 MRCP 是基于文本的协议,与 HTTP、SIP 的结构类似。

自研mrcp-server及asr/tts插件,在插件中通过websocket方式调用流式ASR引擎,通过http方案调用tts引擎。


2.4、整体的部署

通过创建固定的虚拟 IP (VIP),提供统一的服务访问入口;通过分别部署ASR/TTS插件实例隔离合成与识别的影响;通过跨地域多机房部署,提高服务的稳定性。

采用keepalived+vip技术,所有SIP请求会发往某台SIP网关虚拟主机。当这台主机故障后,流量会自动发给备份机。

网关自身通过数据库同步状态信息,当发生故障转移后,备份机可以从数据库获取最近一次状态并接着工作。网关记录着所有资源节点并定时探活,当有资源节点出现异常时则自动踢出转发列表。如果需要维护升级资源节点,也可以通 过网关api把资源节点移除转发列表,待升级后再加入转发列表。

keepalived机制保障了网关的高可用,网关转发列表保障了mrcp服务的高可用。

在最后端的引擎层,在公有云上同样有一套实例,平时未启动。在故障发生后快速拉起,并通过专线为MRCP接入层提供能力服务,更大限度的保障了系统的可用。

而且watch-Dog的巡检功能,则在系统整体发生故障时,还会通知上游软交换平台,去切换其它机房。


未来展望

随着人工智能和深度学习的发展,智能语音技术也在不断提高其精确度、实时性和可用性,结合大语言模型的发展,在意图理解等场景下有更好的效果,或者能够通过强化学习自我优化,根据环境和用户反馈调整其行为。在呼叫中心场景,将会让系统更准确理解客户的意图和需求,并能够根据顾客的偏好和过往行为提供个性化的服务和建议,也可通过分析用户的语言,检测情绪的变化,并相应调整回应方式以更好地处理敏感或不满的客户,进而显著提高客户满意度和服务效率。


共0条评论网友评论
  • 全部评论
共0条记录(共页)
向您推荐

新闻 按行业分类

厂商 按产品分类


        
总机:021-51601170 直线:021-58307717,17317241681(微信同号) 电子邮件:cct@51callcenter.com  泸ICP备10026114号-4  行业交流俱乐部QQ:2919157212
地址:上海市浦东新区牡丹路60号东辰大厦810室  邮编:201204 上海趋天网络技术服务有限公司 版权所有(2002-2018)