语音识别助力客服小二:集团语音识别技术在留声机、服务宝项目中的应用

  • 时间:
  • 浏览:4
  • 来源:万人红黑大战棋牌_万人红黑大战棋牌官网

没办法 间题来了:没办法 大规模的语音数据沉淀下来后,怎么不能被挖掘利用?阿里没办法 大规模的自营和外包客服小二团队,怎么不能监测并不断提高小二的服务质量?随着客服系统没办法 智能化,不能通过电话客服机器人来帮助客户避免困难?要回答哪些地方地方间题,第一步就还要并删剪都是智能技术,把语音转添加文本,为后续的各个模块提供基础。你你是什么 技术全都 亲戚亲戚每所一帮人常说的自动语音识别(automatic speech recognition, ASR)。

不可能 亲戚亲戚每所一帮人用一般的单机单卡DNN训练工具来训练语音识别声学模型,没办法 即使是对好几个 不算大的、40000小时训练数据库而言(在语音领域为宜1.8 billion个训练样本),迭代数遍至收敛,不可能 还要2到4周的时间。原先的周转周期对于互联网时代快速迭代更新模型上线的要求而言,显然是无法接受的。

(3 sweeps)

但相同的是,哪些地方地方林林总总的工具的变体在避免大数据时,删剪都是将它们变身多机版、从而提高训练传输数率的需求。亲戚亲戚每所一帮人的GPU多机多卡middleware就基于原先的需求来设计抽象,使得以上的线程池都不能通过插入middleware较快的实现基于ASGD或MA的多机多卡训练。对于用户来说,在插入middleware后,亲戚每所一帮人此前每所一帮人基于open source工具所做的独有修改都不能得以充分保留。亲戚每所一帮人熟悉的环境、不可能 生成的训练测试数据、乃至单机baseline都不能复用并与新的多机版本互相参照。句子,middleware删剪都是我你要好几个 新的工具,全都 将你手头熟悉的工具插上多机多卡的翅膀。

原先的加速在技术上是怎么实现的呢?这就还要重点介绍亲戚亲戚每所一帮人开发的GPU多机多卡middleware了。 

客服电句子音识别是业务上诸多应用的前置模块。有了语音识别转换出的文本信息做支撑,包括电话质检、电话预警、情绪识别、声纹识别、语音自动特性化、语音输入等各种后续应用都不能开展。这类,电话质检不能帮助亲戚亲戚每所一帮人提升小二的服务质量。这类在亲戚亲戚每所一帮人的服务规范中,“请他不知道是账户持有者自己吗”、“感谢您的耐心等待英文”等是还要要问、要说的;客户说“谢谢”小二就还要立即答“不客气”等。

一、客户和小二的对话是“spontaneous speech”,即非常随意的、自然的对话。你你是什么 说话依据 包含几滴 的“嗯、啊、呃”等语气词,包含“那个……我那个……”原先的犹豫和不删剪的句子。除此之外,对话双方打断对方说话的情况汇报很常见,两人一同删剪都是说话的情况汇报全都 少。你你是什么 类型语音的识别,比在语音搜索中应付单个用户、有准备的想好再说的情况汇报,要困难全都。

16.6

2

4.98

400.0

以 DNN 声学模型训练为契机和推动,为了应对今后训练数据急剧增长、训练周期越发不可控的风险,亲戚亲戚每所一帮人开发了 GPU 多机多卡 DNN 模型训练工具。在实验的 40000 小时训练集上,使用 4 机 8 卡相对 baseline 的单机 2 卡取得了 3.6 倍的训练加速。训练出的模型在某测试集上的识别准确率指标上与baseline 一致。在 DNN 训练部分所用时间从 7 天半缩短到 2 天。删剪的实验结果可见下表:

4.89

支持主流的模型参数更新方案,包括ASGD、MA(model averaging)等,使得单机版GPU线程池把自己算出的gradients或model parameters通过简单的调用middleware API即可完成模型的更新、同步。

7.5

亲戚亲戚每所一帮人通过GPU多机多卡middleware将亲戚亲戚每所一帮人用于语音识别的DNN、LSTM、BLSTM等单机版线程池通通插上了多机多卡的翅膀,并每天在训练模型;亲戚亲戚每所一帮人用middleware帮助iDST-NLP团队将聊天LSTM模型训练变为多机,创造了好几个 有趣的聊天机器人;亲戚亲戚每所一帮人用middleware和YunOS同学合作依据 依据 ,将亲戚每所一帮人的改版caffe变为多机多卡版,训练CNN进行相册分类……亲戚亲戚每所一帮人希望middleware不能插入更多的已有单机版线程池,并实现更大的业务价值。

通过包装MPI,提供计算节点之间p2p通讯(包括send / recv)和collective通讯(包括AllReduce等),并通过包装GPU Direct RDMA提高通讯传输数率。使得单机GPU线程池不多考虑通讯的细节,通过简单调用middleware的通讯API即可实现高速多机通讯。

有了自动语音识别技术,几滴 的人工抽检不能瞬间升级为400%的自动质检。当然,自动语音识别不多可能 做到400%正确、即使语音识别400%准确,质检规则、质检模型全都 不可能 做到400%准确。哪些地方地方删剪都是亲戚亲戚每所一帮人还要持续努力的方向。短期来看,亲戚亲戚每所一帮人不能通过自动+人工的依据 来提高质检准确率:即机器先筛选出可疑的小二间题,再由人工质检来确认。机器来 “大海捞针”,人工来“一锤定音”。实际上,400%的自动质检在客服小二的心理上也产生了化学反应——笔者曾听到小二笑言,现在知道有机器人在上边“偷听”,为客户服务的前一天就会更小心谨慎。这也是在做自动语音识别前一天没办法 想到的额外效果。

“正在为您转接客服小二。为了提高亲戚亲戚每所一帮人的服务质量,您的通话不可能 会被录音。”亲戚亲戚每所一帮人是没办法 说的,也是没办法 做的。每天,集团和蚂蚁的客服小二总共会接听几十万通电话,沉淀的语音数据时长超过数万小时。来自天南海北的客户将还要咨询的间题、还要吐槽的痛点、还要投诉的纠纷通过客服电话源源不断的反馈回公司。哪些地方地方宝贵的客户心声在阿里会被认真的记录下来,并成为改善亲戚亲戚每所一帮人产品和服务的动力。

具体来说,GPU多机多卡middleware提供如下其他通用的基础功能:

客服电句子音识别还有不少与其他语音识别应用有共性的难点,如口音等,在本文就不一一介绍了。iDST在前期选者原先好几个 难度最大的业务来启动语音识别系统的建设,其重点还是在于构建和夯实技术基础。在此基础上,用同样的技术再应用于较垂直的语音搜索领域,就会显得游刃有余。接下来就重点介绍其他通过留声机和服务宝客服项目推动的重点技术。

哪些地方地方服务标准是亲戚亲戚每所一帮人对自己的要求、对客户的承诺。但会 ,在自动语音识别技术应用前一天,哪些地方地方标准全都前一天没办法 是落在纸上、飘在空中而已——集团与蚂蚁每天天量的电话客服量,不可能 通过人工好几个 好几个 听、好几个 好几个 质检,是“不多可能 完成的任务”。事实上,亲戚亲戚每所一帮人每天最多没办法 做到没办法 百分之一的人工抽检。没办法 一来,亲戚亲戚每所一帮人事实上根本无法了解亲戚亲戚每所一帮人的客服质量。极端其他说,哪怕外包客服小二与客户对骂,亲戚亲戚每所一帮人也几乎没办法 不可能 发现。你你是什么 情况汇报的危险性并非 。

三、电句子音在信道(channel)传输和噪声(noise)影响上更复杂。这是不可能 电话从客户到达亲戚亲戚每所一帮人的呼叫中心,上边通过了无数不同的信道和编解码算法,每好几个 一定会使语音信号失真(distortion)。更不利的是,众多客户在声学特性方面非常多样,有的用固定电话、有的用手机,有的在安静环境下、有的在噪声环境下、还有的在有玻璃墙的强混响环境下。而亲戚亲戚每所一帮人的小二呢,带着头戴式耳麦(既删剪都是手机全都 是座机),旁边还坐着别的小二在打电话,这就带来了好几个 对语音识别最不利的噪声类型:babble noise,即旁边的人声产生的噪音。

Frame Acc. (%)

End-to-end 训练时间

协调各个GPU卡,决定哪块卡计算哪一份数据,实现data parallelism和多轮迭代。

亲戚亲戚每所一帮人选者开发GPU多机多卡middleware,而删剪都是好几个 全能的多机多卡训练工具,是基于如下的设计理念:目前deep learning的研究和工程实践方兴未艾,各种新的模型特性、训练工具层出不穷,不难 好几个 “one size fits all”的工具一同满足每所一帮人的需求。这类,在图像避免领域比较流行的caffe和cuda-convnet,在LSTM模型上比较流行的CURRENNT和RNNLib,删剪都是各有各的优势与过高 ,并各有各的拥趸。更有意思的时,亲戚亲戚每所一帮人了解到全都用户在使用哪些地方地方open source工具时,都其他对它们进行了自己的改造、升级与扩充,原先就产生了无数基于哪些地方地方工具的变体。

59.6

通过数据标注工作,亲戚亲戚每所一帮人在留声机和服务宝客服任务上加快数率积累了成千上万小时的真实电话数据。数据有了,怎么快速的、迭代式的训练模型、不断调优,从而体现大数据的价值,就成了好几个 非常重要的技术课题。

说语音识别是并删剪都是黑科技是其他儿删剪都是为过的。在美国政府关于限制发放签证的“Technology Alert List”中,语音识别赫然在列,与核武器、火箭技术等同在“黑名单”中。阿里云iDST语音团队汇集了数位来自国内外语音领域的工业界、学术界高手,在集团此前的积累上继续发力。新系统的第好几个 落地点,就被选定在客服电句子音识别上。

59.9

亲戚亲戚每所一帮人一开始英文了了就选者客服语音识别,删剪都是不可能 它简单,恰恰是不可能 它难。相比于iDST承接的其他其他更为垂直的语音识别应用,如手淘语音搜索、天猫魔盒语音搜索而言,客服电句子音识别在技术上的难度相对更大:

单机 2

CER(%)

根据scheduling的结果,输送训练数据到GPU卡,并实现智能的按需缓存,在运算的后台下载下一份训练数据,使得GPU不多“停工待料”。

(3 sweeps)

二、电话客服对话的多样性较大,即客户和小二对话所涉及到句子题范围相当宽泛,且没办法 没办法 来不多为宜的文本语料进行语言模型(language model)的训练。与之不同的是,在语音搜索场景下,亲戚亲戚每所一帮人往往不能通过其他途径获得几滴 有用的文本资源并用于训练语言模型。这类,在天猫魔盒语音搜索场景下,几滴 的节目名、演员名是不能前一天获得的;在手淘语音搜索场景下,用户搜索的内容甚至不能直接从淘宝query log中得到。你你是什么 差异,就决定了电句子音识别在语言模型的训练上比垂直的语音搜索要复杂。

关于GPU多机多卡middleware句子题,亲戚亲戚每所一帮人另有@镭铭同学的专文加以删剪阐述,在这里只作简单介绍。GPU多机多卡middleware是如下图的一层抽象,它的主要功能是将GPU集群的硬件资源加以整合,提供通用的通讯、scheduling、数据架构设计 、模型参数更新等模块,从而使得某个现成的单机版GPU线程池通过较少的修改插入middleware后,就不能变身多机多卡线程池。

避免好几个 sweep 所需时间(小时)

4 8