首页>> 呼叫中心>>新闻详情

云知声产品总监欧光欣--开启语音交互新时代

2014-04-24 09:28  《4PS呼叫中心国际标准研究中心》  咨询电话:17317241681(微信同号)  


    《2014年度(第七届)中国联络中心与BPO产业大会》ACCC大会于2014年4月17-18日在上海国际会议中心隆重举行。峰会由呼叫中心与BPO行业资讯网(51Callcenter)主办,中国呼叫中心与BPO产业联盟(CNCBA)、4PS联络中心国际标准组织指导,有来自于金融、通信、物流、电子商务、制造业、跨国企业等行业管理层,及联络中心、客户服务、云计算、服务外包、CRM、社会化媒体、企业通信等行业众多嘉宾参加了该活动。

    4PS标准/CNCBA主席/国家工信部全国服务外包技能考试指导委员会副理事长颜晓滨、及来自台湾等地的行业协会及行业高管、专家做了几十场精彩纷呈的演讲和分享。

    云知声产品总监欧光欣做了主题为开启语音交互新时代的演讲。

    如下为大会现场演讲实录,如需完整观看所有内容,请登录--http://www.51callcenter.com/2014/

 

    欧光欣:各位朋友大家好,大家听了一早上也非常不容易,我们云知声是一个新成立的公司,在座的朋友之间可能知道云知声的不多,今天我在这边做一个简单的介绍。我看到前面也有一点拖,我尽量保证规定的时间内结束我的演讲。

    今天我给大家介绍的我们的云知声,我们是专业做智能语音交互的厂商。我非常同意前面萧总讲的专业的人做专业的事情,我们是专门做语音识别语音交互的厂商,如果大家需求可以跟我联系。我叫欧光欣。今天我给大家讲的主要是包括三个方面,一个方面是我们云知声公司的介绍,第二块介绍一下在语音导航技术我们跟其他厂商的区别,最后我给大家介绍一下我们关于语音质检技术有哪些突破。

 

云知声产品总监 欧光欣

    云知声是一家成长很快的语音识别企业,前面有一家语音识别企业的老大哥给大家做过介绍了,我们云知声成立于2012年,现在大家可以在网上直接就可以在APP找到我们的语音识别法,我们也可以进行多语言的识别,我们语音识别技术不断的提升,从2012年我们的识别准确率在85%左右到今年我们准确率已经超过了96%,当然我们也支持普通话和带方言口音的普通话,而且我们的抗噪技术也非常好。这是我们一个发展的历程,我们虽然成立时间不长,但是做这一块的同事的经验非常丰富,我们主要研发团队以及市场销售人员在语音行业中间大概都做了十年,超过十年以上的经验。所以虽然公司是新的,但是可能很多朋友都认识很久了。公司成立不足500天就完成了A轮一个亿的人民币的融资,我们现在也是公司之间我们的语音云发展之后有300多合作伙伴。我们语音云使用量每天超过百万次。

    在整个我们云知声的产品体系分三块,我们叫立足云端,就是我们会通过语音交互的共有云,如果是互联网运营商可以调动我们的共有云。如果企业当中对你的数据的安全性要求非常高,就可以建设自己的私有云,我们私有云也是一套非常完整的方案提供给大家;如果你做语音评测,语音教学这一块做英文或是做粤语甚至是普通话的语音的评测,我们有一个语音评测的云服务提供给大家。终端已经和电视、穿戴、车载、智能手机厂商开展了非常好的合作。很多智能手机,比如小米就采用的我们语音解决方案。芯片方面我们业提供芯片的解决方案,我们能够提供软核和硬核的解决方案,因特尔厂商我们提供了软核的解决方案,同时我们自己也可以提供芯片的硬核解决方案。这是我们语音的平台,我们支持的客户已经超过了一亿,稳定运时间已经达到了99.99%,我们语音识别占用量非常低,只需要2KB每秒。

    我们是技术性为主的公司,所以我们新技术层出不穷,我们可以支持中、英、粤语多语言识别,同时还有一个非常有意思的技术叫说话人识别技术。坐席通话中间,每个坐席通话都做录音,录音之后我们客服和用户语音混合在一起,我们可以通过说话人识别技术,让两组语音分别开,对客服语音做质检,对用户语音做大客户的处理和挖掘。

 

    下面有一个小的DEMO大家可以看一下。我们做的一个中、英粤语识别的情况。这是我们标准的普通话,然后我们也支持英文的输入。我们可以完整的提供中英粤语的技术支持,大家可以看到,这是我手机APP上的一个录像,如果大家在这种呼叫中心使用的话,我们中文识别准确率是94%以上,英语识别率是90%左右,粤语85%左右。我介绍一下我们语音技术在呼叫中心的应用情况,首先我们介绍的还是语音导航的技术,前面有一些朋友已经介绍了什么是语音导航,语音导航解决什么问题,我从我的角度给大家介绍一下语音导航技术的一些特点。我本人从07年开始做一些语音导航的事情,在呼叫中心中间推广,在电信和移动中间做了很长时间项目的经验,我做的项目中间我发觉,做语音导航项目比较困难的有几点,第一点就是识别准确率不行,用户说的话没有办法被识别出来,现在我们云知声音提供了一个准确的识别度,我们有超过95%的识别准确率。

    第二点,在以前的语音识别系统中间或是语音导航中有一个比较痛苦的问题,我们往往是限定领域的识别,比如我们要定机票就必须问用户你要从哪里书法,到哪里去,什么时间出发,而且对于用户的要求限制的非常严格。比如说举个例子,我们只能说2014年4月17号从北京到上海的机票。如果用户说的是其他解决方案,抱歉这个识别系统没有办法理解,什么原因呢,就是以前的识别系统都采用了语法的一种方式来限定它的识别领域。对于识别的内容用户没有办法用自然的语言理解描述。如果是明天北京到上海的机票,明天代表哪一天就没有办法识别,识别出来之后,通过精准的语音分析把这一系列都解决好。

    第三个就是以前的语音识别导航技术中,我们一个项目需要两到一个月甚至更长的时候做优化调整,可能你这个周期非常长。我们现在做了一些改变,我们支持标准的MR的协议,我们提供了一个定制的界面,我们以前做一个语音导航,你需要找录音员录音,设置它的VUR和一系列的流程,这些对于开发商或是集成商来说做起来比较慢,我们现在已经提供给大家一个基本版本的定制化的VUR。大家一会可以看到我们已经可以提供银行、电信、旅游领域的一些定制的VUR,拿到我们这个VUR上线部署就可以了,只是把像外的名字和特殊信息调整一下就可以了,而不需要以前从头到尾写自己的流程和录音。我们这一块做了一个比较大的改变。

 

    这边请同事给我按一下多槽关键字演绎识别。大家可以看到,在这些当中,这是一些熟练的用户,非常清楚我要给系统说深告诉系统我要定货车票是北京到青岛的动车,我们通过多槽关键字识别技术就可以把这个说完整,得到相应的结果。但是在很多情况下用户说的话并不是很完整,比如说他只说了明天从北京出发的动车,到哪里不清楚,这时候怎么办呢,我们可以IVR建立一个模拟人工的方式提供给大家服务。大家可以听到,刚才的对话中间用户少了一个出发目的地,以前的系统当中出现这样的情况识别出来的结果就是用户需要定机票或是火车票,接下来就说从哪一天,从哪里到哪里做这种引导性的提问,用户一个一个进行确认,确认完之后最后得到结果。

    而大家可以看到,我们这种模型中间最大的特点就是,假设这一个通话过程中间我们需要收集用户5个要素,缺三个或是缺两个,我们可以通过对话模型引导用户说出来。至于缺哪个没有关系,我们可以通过优先进行判断,这是通过我们语音识别和语义结合。以前导航系统做的交互,用户打电话过来到找到的结果需要7、8次的交互,甚至时间更长,要跟用户反复和系统对话,而我们现在交互控制在5次以内就可以了。

    这边是给大家做的演示我们多槽识别和对话模型的演示,这是我们定制化VUR的演示,以前的话可能我们就没有办法做了,而只要我这个系统我们有一个定制性的VUR就可以了。我们请了专业的录音人员,把菜单界面一句句录好,大家直接从这里调用就可以了,也可以通过你的KBS往下使用就可以了。我们语音导航技术不仅是在我们电话的IVR系统中间可以得到使用,手机终端也可以得到使用。我们结合了语音和语义搭配了传统的束缚。第二我们识别系统效率非常高,一个人讲一分钟的话,我们识别只需要0.2分钟,如果是一秒钟我们需要0.2秒钟就可以提供相应的结果。第二点就是我们能够提供业界最经济高效的服务的支持能力,以前语音识别系统需要大量的计算,它效率一直是一个问题,其他厂商中间一些国外的厂商可能它单台服务器运行的效率大概也就是在30到40左右,甚至比这个更低,而且我们现在可以达到全文转写80路。以前是写一个限定的10个次或是100、一万个次,除了这些之外的都没有办法识别,而我们把所有用户交互的语音都写成文字做语音分析,做这种理解,我们这样全文转写的效率我们推荐的服务器可以达到80路的转写,让大家做项目中间有更多的选择。

 

    这边是我们做的一个简单的手机上的一个导航的使用。大家可以把我们的手机系统跟APP无缝连接起来,使大家的用户体验更好一些,这是我们在一个某银行掌上银行中间做到的。比如用户要录入身份,我们对数字识别率非常高,达到了97%,如果选择地区的话我们可以更加简便解决用户交互的问题。输入手机号码。大家可以看到,这是我的电话号码,北京云知声信息技术有限公司。这是一个简单的DEMO告诉大家,我们不仅仅做IVR的导航,也可以做手机端的语音收入可以帮助大家更好的解决问题。

    前面这是我们谈到的语音导航方面,我们的特点就是我们是把语音和语义相结合的导航的方式,这种方式更加的符合大家的使用习惯。这是第一点,第二点就是我们为大家提供了一个高度定制化的系统,不管是VUR还是流程都给大家开发好了,不管你是用什么样的平台我们都是可以跨平台调用的,这对大家使用起来非常的方便。后来我们来给大家简单介绍一下语音质检的服务。

    其实有很多嘉宾已经跟大家介绍过了,什么是云质检,有什么好处,而我们云知声只做转写,其他的事情不做。第一个阶段我们要转写语音,第二要做大数据分析,大数据分析和挖掘是我们开发的金矿这一块我们不碰的,我们做的事情就是语音转写,中间我们会做几个事情,第一个我们会做这种准确的说话人分离技术,我们把原始语音中间拥护和坐席混合在一起的语音分离成两股语音,一股是用户的,一股是客户的。然后接下来我们用我们超强的转写能力为大家提供这种转写的服务。我们现在转写到什么水平呢,我们现在服务器的引擎一分钟能转5到7分钟的语音,我们一台服务器80路并发,一台服务器上一个小时转300到400个小时的录音。各种录音格式我们现在都可以支持,我们已经和很多的厂商做过调试,我们也跟NICE也做了很好的合作协议。

    同时我们还有一个非常大的特支持在线语音转写,意思就是用户和客服通话过程中间,我们时时把大家的声音转成文字,提供给到我们的客服。客服人员可以通过他第一句搜索后面的知识库,第二我们后台管理人员也可以看我们有没有服务寄语的问题和时长太长的问题,这也是我们可以提供的。我们提供这三块的功能提供给大家,如果你想做语音的分析或是你现在是IVR的厂商想往下进一步的深入的挖掘,我们就可以给大家提供这样的平台,至于后面大家做什么样的分析,我们不管,我们只做前面的语音识别语音转写的事情,专业的人做专业的事情,我们就做这个活。

    这就是我前面谈到的问题。对于我们的产品大家有什么问题吗?如果没有什么问题就谢谢各位。

 

 

    本新闻为51Callcenter原创稿件,转载请注明出自51Callcenter。

    谢谢!

 

 

 

 

共0条评论网友评论
  • 全部评论
共0条记录(共页)
向您推荐

新闻 按行业分类

厂商 按产品分类


        
总机:021-51601170 直线:021-58307717,17317241681(微信同号) 电子邮件:cct@51callcenter.com  泸ICP备10026114号-4  行业交流俱乐部QQ:2919157212
地址:上海市浦东新区牡丹路60号东辰大厦810室  邮编:201204 上海趋天网络技术服务有限公司 版权所有(2002-2018)