首页>> 高端访谈>>新闻详情

北京鼎富科技股份公司董事长兼CEO杨凯程--非结构化文本大数据在呼叫中心的创新应用场景

2016-05-11 10:17  《4PS呼叫中心国际标准研究中心》  咨询电话:17317241681(微信同号)  杨凯程


     《2016年度(第九届)中国联络中心与BPO产业(ACCC)大会》于2016年4月26-27日在上海.陆家嘴.国际会议中心隆重举行。峰会由呼叫中心与BPO行业资讯网(51Callcenter)主办,中国呼叫中心与BPO产业联盟(CNCBA)指导,4PS国际标准/CNCBA主席/国家人社部全国客户联络中心专家委员会主任颜晓滨及来自亚太的4200位管理者参加了峰会。 

    北京鼎富科技股份公司董事长兼CEO杨凯程做了主题为《非结构化文本大数据在呼叫中心的创新应用场景》的演讲。
 
 
北京鼎富科技股份公司董事长兼CEO  杨凯程
 
    杨凯程:各位朋友,大家下午好!我代表鼎富科技今天跟大家交流和分享一下非结构化文本大数据在呼叫中心的创新应用,具体我们能够做什么样的工作。
 
    非结构化大数据为什么特别加了“文本”两个字?因为它包括了语音、图象和文本,鼎富科技只是在文本领域会有一些核心技术的突破。在行业里边,像大家知道的科大讯飞也做了很好的工作。现在包括视频、软件呼叫中心的服务也起来了。
 
    非结构化应该说在未来呼叫中心的发展会起到很好的支持。但是非结构化领域确实会带来一些挑战,这个挑战事实上来源于技术的研究,先期技术的沉淀。在这个领域如果要想有所突破,所有的公司都要搞研究,之后再来做应用。
 
    正如大家知道认知计算现在已经成为焦点了。大家在讲服务机器人的元年是2015年,到了2016年整个世界都在变,这种变化来源于哪里?
 
    3月1号IBM正式宣布开始进入认知商业。微软3月30日的时候推出了微软认知服务。巨头往这里进,说明这个行业很热,另外说明这个行业不好干,说明技术有难度。半个月以前微软也成立了独立的搜索公司,李彦宏要把他的精力放在互联网金融,认知技术,人工智能,服务机器人等等领域特别重要的环节。
 
    它最大的挑战是什么?最大的挑战其实是自然语言的语义理解,技术的突破。怎么样了解自然语言语义?对我们中国人来说最难的是什么?在宴会上有人说我要去方便一下,老外特别好奇方便是干什么,人家说是上厕所,老外记住了。
 
 
    这个时候有一群人说在美国的时候请您多提供一点方便,老外想到美国上厕所还要我帮忙吗?记者来了,说你方便的时候我采访一下,你方便的时候我请你吃饭。这都是大家知道同样的方便意思不一样。英文不会有这个问题。
 
    我问大家一个问题,在座的各位想一下方便是什么?其实你没有回答我这个问题,因为我没有给你上下文,我没有给你理解。所以你聪明的回答,你会访问我,你问的是哪个方便,这个时候我解释是什么的方便。还有一种方法方便有好几个意思,把每个意思解释一下,这就是我们中文面临的困难。
 
    所以大家可以看到我们在中文之间,前面两个方便说的是生理活动,后面两个方便说的是社会活动。我们怎么样让机器能够把这个方便识别出来,这就变得很关键了。
 
    如果认知计算在这个领域没有突破,我们今天的机器人长成什么样子?我们可以看一下今天的机器人,这是我们银行服务的机器人,已经在线上服务了。我们问他一个问题,微信公众号可办理哪些信用卡业务?它跟你回答出来了。我们再问它一个问题,微信公众号都可以办理哪种信用卡业务,它说这个问题不太好答。为什么没有答?微信公众号前后两句,我只给大家变了一点点东西,可办理变成都可以,哪些变成了哪种,所以机器就不认了。
 
    所以大家要求你说话要注意。这样的机器人大家用了肯定不爽。另外一方面再举一个例子。最后还款日未还款怎么办?这个时候机器答出来。还款晚了一周有什么影响?机器说我没理解您的意思。再换一个问题,逾期还款会怎么样?机器也不答了。
 
    我们再看一下刚才说的机器人跟你聊天的时候,如果认知计算没有突破会出现这个问题。另外一方面如果认知计算没有问题,带来另外一个问题就是我们的知识加工很辛苦。我问你一句话,会告诉你方法有三百种,让你用三百种每一句话都推出去,你累死了,突然有一天有301种方法,又不会了。大家想象一下如果未来我们的机器能够进到家庭,给个人服务,一个人后面5个人服务,这个世界是人服务机器人还是机器人服务人。所以知识加工很重要。
 
 
    另外一方面带来的问题是什么?我们通常是通过权威检索,关健词搜集的,所以搜出来的答案也不是太好。这个问题是今天面临的挑战,这就是认知不突破的原因。
 
    鼎富科技今天为什么来做这件事情?我们是后进入呼叫中心市场的,后进来的人自己掂量一下,手里没有金刚钻,不敢揽瓷器活。我们基于概念计算提供智慧语义认知技术,我们认为了这个技术解决了中文的认知问题。
 
    比如说我手里拿着一个杯子,大家都看了这个杯子,在场所有人我相信大脑中对这个东西产生的概念,所有人都是一样的。但是我们说出话来的时候就不一样了,比如说你叫它是杯子,我叫它是“cup”,有人叫它是杯具。你们看这个杯子在头脑层面产生的概念是不会有区别的,但是说话的时候就会有歧义的。
 
    我举个例子,这是百度,这是我做的百度框,当你把苹果敲进去的时候,你点百度搜索,我直接去调百度,会把当天百度所有内容搜下来,搜下来之后做了一个处理,我给你标志一下,这下面说到的苹果都是哪种苹果?是范冰冰演的苹果还是手机的苹果,还是吃的苹果,这种标记长成什么样子,在百度中间标了三个东西。
 
    苹果作为水果的时候会给它一段代码,作为公司或者电影的时候会是另外一个代码。我又管这个东西叫符号化,表示这个东西的语义。GW619B1是什么意思?GW61代表是植物,后面加个9代表食用植物,加个B代表是果实的食物。说明这个水果是苹果,是有果实的食用植物。如果要是范冰冰电影就不叫代码,代表什么意思?GW代表信息物。这就是我们做的工作。
 
    有了这些东西,通过有限的概念,因为概念是有限的,词汇是无限的。大家看一下这7个句子,7个句子都说了一个意思,这场比赛中国队输了,人家都已经赢了。但是它表现的是什么形式?相同的句子含义用了7种不同的表达。大家手里有百度翻译,GOOGLE翻译赶快拿出来,保你翻译的结果不是一个结果,机器搞不懂七个句子就是一个意思。同样的事情换一个方法他就不会,他不知道7个句子是一个句子。
 
 
    我们把这7个句子弄成这个样子,这个样子在系统中间是一个数学表达式,我们管这个东西叫做语义网络。语义网络是什么东西?每个句子都有语义,我们通过语义网络来表示,大家看7个句子语义网络是不是一个?就是有限语义网络,返过来句子的表达是无限的。这就是今天面临的挑战,结果发现句子是一样,机器就明白了,7个句子是一个。这就是我们突破的技术,没有这些突破就很难做很多的工作。
 
    刚才讲到的太技术了,大家觉得有点乏味,我也觉得不太舒服。我拿着这个技术开发,我发现跟业务人员谈了之后,他说这个东西挺好,可是跟我听的有点远。我也很累,搞了半天不见得能成功,所以我们又做了一个发明专利,叫鼎富OEC,O是本体,E是要素,通过这两个谈业务,把大家的业务直接放进去。刚才我说那么复杂的东西在C里边,就是概念,非结构化的文本转成结构化就容易了。这个东西2013年底一推出确实得到了推崇,工商银行、中行都在用,保险业、培训网络都在用。这个平台事实上已经在金融行业应用了。
 
    在这个平台上我们希望借助这些平台和技术做应用,我们就推出了产品线家族,这个家族目前有三大产品,第一个产品是统一业务知识库。第二个产品叫小富机器人。今天很多人问我小富机器人是什么,对不起,小富刚生产,去年是元年,小富今年觉得环境不错,我们给小富一个头号叫“中国富二代智能机器人”。为什么叫富二代?因为大家问我的那些机器人是第一代的技术,我们是第二代技术,所以我们是富二代。今年年底,明年开会的时候富二代就不会是这样了。第二个方面我们推出了大数据分析挖掘系统。
 
    现在都是面向知识加工,知识的表达有多样性,大家都知道知识很无穷,表达也很灵活。可是我们的业务不一样,咱们的业务比较隐蔽,规则也有限,表达比较规范。所以我们是面向业务的知识加工,有什么好处?最大的好处是知识入库的时候可以变成自动加工,而且可以做到碎片化支持,把章节拆碎了变成知识,而且是机器在做,这就是厉害的地方。
 
    另外,面向业务加工,只要业务不改变,新的知识进来,不需要人来做。这是他的另外好处。另外搜索的时候不用关键字,你给他一段话都可以给你交付。27种国家的语言自动支持,你只要把模型建好,中文简体、法文、英文直接上线,不需要再设立一个系统。这就是知识库。
 
    碎片化加工的好处是什么?包括外部数据的支持直接给系统,系统直接加工成知识。这就是我们通过业务建模,把业务建好之后,只要文档有word进来,会把所有的分类、标签全部给你打出来。原来这个工作都是人去做的,人要做标记,这就带来了便捷性。
 
 
    刚才我说建模可能有人会头痛,不会怎么办?你可以用文档,我们可以做条目的划分,知识标签的提取,这个工作机器人完成。完成之后会自动的输出这样的本体,本体就会自动出来。
 
    刚才说了小富是富二代,随便问的两个问题,现在机器人对付不了,那小富机器人怎么对付?当你问他什么情况下会逾期?他把正确答案给你了。你再问他还款逾期的后果,依然会把这个答案告诉你。我们用不同的方法来问,比如说我们问他晚还款有什么影响,还款晚了一期怎么办?卡没还,逾期怎么办,到期没还款,还款晚了有什么后果,统统的都能答出来。后台我没有做任何工作,不需要把每个问题都配置进去,这就是小富厉害的地方,已经是富二代了。
 
    另外一方面这是我们做的一个测试,我们在信用卡方面,我们当时只有800个知识条,我们在信用卡发卡、收单,比如说黑金卡我给你一个解答,小富机器人拿出来了,现在业界比较厉害的机器人只有60—70%的准确率。大家说不是99.8%的准确率了,怎么到你这里来是70%了,当时99.8%没有说谎,99.8%是家里有5000个问题,只在这5000个问题里边。我说它70、60没有错,是因为在封闭问题里边按要求,按规则测试的时候是99.8%,但是我要开放问题的时候又做不到。为什么我说小富比较幸运?他生活在了一个充满爱的世界,大家对它都很宽容,所以对它要求很高。
 
    另外一方面客服大数据是某国有银行上线的,这是我们在2014年上线的,当时的项目是把整个呼叫中心的工单,人工录下来的对话记录给我们,让我们做深度的分析。他除了做热点的分析,口碑的分析等等之外,现在还可以做潜在的发现,比如说现在想推你的出国金融,我就发现有人聊天,下个月我准备去美国读书了,这个时候一定是出国金融的潜在客户,他说的话满足了出国金融产品服务的范围。你怎么实时分析出来呼叫中心沟通内容跟你前面的营销活动之间的关系是什么样的,及时分析出来,有利于指导呼叫中心前端的营销活动。
 
    这个活动很特殊,拿出来分享一下,我认为鼎富科技呼叫中心行业,我们希望能跟前辈的公司一起共同推动这个行业的发展。我觉得这个行业的发展是需要技术挑战和推动的,当你把电话打到顺丰的时候会有机器把你的声音录下来,但是坐席人员会把你说话的内容全文录下来,做了一个录入员的工作。录入之后做了什么事情?会由人进行两级60类的挑选把这个东西分到一类里边,这样的话才开始交待后面的流程处理。
 
    原来这份工作挺辛苦的,需要大量的培训,需要培训坐席,而且坐席做一件事需要50秒钟,我估计50秒钟基本上是不上厕所的时间做出来的工作,因为做出来没那么快。在这个情况下原来是这么做的,上了我们的系统变成什么样的?客户说既然是机器做,60个分类太少了,直接变成4级500个分类,今天大家不愿意分类的原因是不愿意培训。所以这个时候机器就可以做更多的分类。
 
 
    这个工作的好处是什么?人工就变成输入了。现在的工作会变成什么样?只需要把这个东西输进去,鼠标一离开这个区域,机器会自动的识别到这个分类里边去,准确率做到了95%以上。而且我们的时间从50秒做到了毫秒级,同时我们可以支持多语种。这个系统上线的时候同时支持了简体、繁体和英文。当你把一句话输进来的时候,顺丰管这个东西叫客户声音,就是他是按客户的语言来表达的。过程中间会反复的沟通,反复沟通会有一个结论,会写一句话,我要把所有的沟通内容合起来分到一个类别去,大家想想栏目有多大,因为会改变方向,所有的话合起来分到这里边,目前我只能做到85%,再高我真的做不到,因为这个东西太多了,情况太复杂了。
 
    这就是我们在做的工作。第三方自称王小姐来的投诉,此件实际重量1公斤,但是单子上却写着2公斤,收取了17块钱,希望给予合理的解释。这句话进来以后我们机器就会做分类,他认为是个投诉,因为你说了实际上是1公斤,单子上填的是2公斤,所以我们会分到第二个分类是收错费用。这个工作是机器自动完成的。来电插件,业务人员收了17元运费,可是单子上是12元。我们分到三级、四级,收17块钱,写12块是收错费用,属于恶意的收费。这个过程全是机器完成的。
 
    再看一下英文,这串英文要分到500个业务分类里边,当时我们怎么做的?我们把这段英文直接运送到简体中文,这就是我们多语种的支持。如果你是法文、韩国、俄文全部搞定,广东话也可以搞定,广东话也没有问题。
 
    这个系统我们上线了之后,简体中文、繁体中文、英文是同时上线的,用简体中文做模型可以支持多语种。工单的准确率到95%以上。一个国际公司这个项目整整做了1年,这个项目不会超过70%的准确率。这个项目工作量两年以来基本上等于零,你的表达可以随便变。这就是一个变化。
 
    所以富二代的小富机器人都在想未来的服务机器人会是什么样的?大家一起想,大家想一下家庭没那么大,你买10个机器人家里还需要住人吗,满世界跑的都是机器人,咱没那么多空间。所以我在想未来的世界会有很多机器人,但是在座的各位一定只买一个机器人。为什么买小富呢?因为首先你没那么多空间,小富会告诉你,如果做到这几样是不是买我,小富告诉你我能够学习,我到他们家和到你们家是一样的,因为我不知道你是谁。但是我不能永远跟你聊天,你发现我很没有趣,知识总是很有限的。
 
    那怎么办?我认为小富机器人一定会偷偷的连上你们家的WIFI,接通到互联网上面,因为互联网的支持足够多。第二个功能,我认为未来的机器人会像互联网一样联网。
 
    为什么要联网?因为没有那么多的机器人要进你们家,相互之间可以联网,获得你们之间的答案。小富的能力,个性化特征学习能力。最近发现主人老问我一些问题,老问我要一些材料,结果我分析这些材料的背后都涉及到怀孕,我就给它打一个标签,搞不好他关心怀孕这件事。
 
    后来发现他喜欢周杰伦,我把周杰伦打一个标签,绝对不是说这个文章出了一个标签,这个标签一定是读完这篇文章,看看这个文章到底说什么。我打上一批文章之后我就标上去,相当于内心很了解你,但是还是没有沟通。那怎么办?上来说你是不是怀孕了,不能这么聊天。所以他需要动态的知识库构建能力,如果后面的机器人靠人,世界没法前进。
 
    如果我发现你怀孕了,或者你喜欢周杰伦,我就会定向的收集这些资讯,收集来之后一定要加工,所以这个加工一定是自动化的。我会把跟你有关的标签不断地补充到知识库里边,这个时候我拥有了强大跟你对话的知识,我特别了解你,而且我特别有内容,具备了聊好天的能力。你不能说问一个问题,差一个字,对不起主人,你说的话我听不懂,要不然是对不起主人我出去逛街去了。生活聊天是很有趣,如果到你们家机器人天天跟你贫,就这么回答问题肯定烦。
 
    突然网上看到了周杰伦开演唱会,机器人说主人周杰伦有两个演唱会,据我所知几月几号到长沙开演唱会。下次你就说主人最近出了一款新产品,要不要了解一下,这个机器人会很有意思。
 
    我认为未来如果小富机器人能够做到这样,我相信大家会把它带回家,当朋友聊天,聊的越久你会发现机器人比你还了解你。所以鼎富科技特别愿意跟呼叫中心的老朋友、新朋友,还有行业的伙伴们,大家一起在这个领域推动这个市场的发展,让我们的生活更加的美好。
 
    出了这个门正对的是我们的展台,大家有兴趣可以取点材料。谢谢大家!
 
    如下为大会现场演讲实录,如需完整观看所有内容,请登录--http://www.51callcenter.com/2016/
 
 
 
  
    本新闻为51Callcenter原创稿件,转载请注明出自51Callcenter。谢谢!
 
 
 
 
 
 
 
共0条评论网友评论
  • 全部评论
共0条记录(共页)
向您推荐

新闻 按行业分类

厂商 按产品分类


        
总机:021-51601170 直线:021-58307717,17317241681(微信同号) 电子邮件:cct@51callcenter.com  泸ICP备10026114号-4  行业交流俱乐部QQ:2919157212
地址:上海市浦东新区牡丹路60号东辰大厦810室  邮编:201204 上海趋天网络技术服务有限公司 版权所有(2002-2018)