123,123,123

专访 | Recurrent AI：呼叫系统的「变废为宝」

日期： 2018-11-28

關(guān)鍵詞： 自然语言 DealTape AI

自然語(yǔ)言處理是一個(gè)龐大的領(lǐng)域，比如普通文本與對(duì)話就是兩個(gè)不同的領(lǐng)域，對(duì)話領(lǐng)域里，任務(wù)型對(duì)話又不同于閑聊型對(duì)話，問(wèn)答式對(duì)話又不同于協(xié)作型對(duì)話……

因此，自然語(yǔ)言處理領(lǐng)域的玩家們，除了要思考模型的效果、產(chǎn)品的架構(gòu)，更要思考一個(gè)最為本質(zhì)的問(wèn)題：要處理什么數(shù)據(jù)？為什么要處理這類數(shù)據(jù)？

Recurrent AI 選擇了「呼叫系統(tǒng)」。

「電話錄音可追溯而不可作假，這讓呼叫系統(tǒng)成為了一個(gè)不可篡改的精準(zhǔn)用戶畫像來(lái)源。同時(shí)坐席與客戶的全部溝通過(guò)程也完整保留在電話錄音中，這意味著影響成單率的全部因素都在錄音之中，只要你能準(zhǔn)確地把它們提取出來(lái)?！笴TO 張宇韜說(shuō)。

如何選擇提取哪些信息？如何分步進(jìn)行提??？近日，機(jī)器之心前往 Recurrent AI（?？苽悾c CEO 陳麒聰、CTO 張宇韜、首席科學(xué)家楊植麟進(jìn)行了深入的對(duì)話。他們講述了一個(gè)用語(yǔ)音識(shí)別、語(yǔ)義理解和數(shù)據(jù)挖掘，把呼叫系統(tǒng)「變廢為寶」的故事。

機(jī)器之心Synced語(yǔ)音識(shí)別小程序

機(jī)器之心：能否介紹一下 DealTape（交易磁帶）智能呼叫系統(tǒng)？

我們的產(chǎn)品是一個(gè)優(yōu)化溝通的 AI，希望能夠從統(tǒng)計(jì)分析的角度幫助人們?nèi)シ治?，在不同的商業(yè)背景下，哪些話術(shù)產(chǎn)生了積極的影響，哪些產(chǎn)生了消極的影響。想要實(shí)現(xiàn)這一點(diǎn)，就首先需要語(yǔ)音識(shí)別和自然語(yǔ)言處理技術(shù)，把聲音轉(zhuǎn)換成由標(biāo)簽組成的向量，因此這也是我們的技術(shù)棧的主要構(gòu)成部分。

我們最先切入的行業(yè)是那些會(huì)使用呼叫系統(tǒng)的行業(yè)。購(gòu)買呼叫系統(tǒng)說(shuō)明他們對(duì)監(jiān)督坐席與客戶溝通的過(guò)程是有強(qiáng)需求的。然而過(guò)去囿于技術(shù)，大部分錄音只能靠人工重聽(tīng)或者棄置。而我們的系統(tǒng)可以節(jié)省 90% 以上聽(tīng)錄音的時(shí)間，讓坐席和管理者都能夠直接發(fā)現(xiàn)溝通中的問(wèn)題、直接進(jìn)行有針對(duì)性的優(yōu)化。

機(jī)器之心：為什么選擇做智能呼叫系統(tǒng)？

我們幾位創(chuàng)始人的背景集中在 NLP 與數(shù)據(jù)挖掘領(lǐng)域。最開(kāi)始我們是從聊天機(jī)器人開(kāi)始進(jìn)行業(yè)務(wù)上的探索的。然而一段時(shí)間之后，我們逐漸認(rèn)識(shí)到，聊天機(jī)器人在商業(yè)邏輯上有一些不通暢的地方：一方面，現(xiàn)在的任務(wù)型聊天機(jī)器人仍然需要非常深度的定制，換言之成本十分高昂，另一方面，它對(duì)于大多數(shù)公司仍然是一樣「nice to have」的東西，大家的支付意愿也不是特別高。

因此，我們就在思考，做一些技術(shù)棧更深一點(diǎn)的東西。與其說(shuō)創(chuàng)造對(duì)話，不如對(duì)已有對(duì)話進(jìn)行分析。而對(duì)話數(shù)據(jù)最多的地方就是呼叫中心。

呼叫中心的用戶花了大量成本進(jìn)行錄音，但是卻沒(méi)有利用它獲得任何價(jià)值。電話錄音可追溯而不可作假，這讓呼叫系統(tǒng)成為了一個(gè)不可篡改的精準(zhǔn)用戶畫像來(lái)源。同時(shí)坐席與客戶的全部溝通過(guò)程也完整保留在電話錄音中，這意味著影響成單率的全部因素都在錄音之中，只要你能準(zhǔn)確地把它們提取出來(lái)。

所以我們就在思考，如何能把利用這些數(shù)據(jù)提高企業(yè)的價(jià)值。

機(jī)器之心：DealTape 能夠滿足哪些需求？

兩個(gè)典型的需求是培訓(xùn)和實(shí)時(shí)座席輔助。

一方面是找到各種話術(shù)與成單率之間的關(guān)系，幫助管理者可視化座席問(wèn)題在哪里，然后通過(guò)個(gè)性化提示讓坐席學(xué)習(xí)容易成單的話術(shù)，能夠提高他們的銷售水平。

另一類是自動(dòng)填寫客戶畫像，節(jié)省銷售記錄的時(shí)間，可以聯(lián)系更多的客戶 , 以及實(shí)時(shí)根據(jù)客戶問(wèn)題推送來(lái)自銷冠的優(yōu)秀回復(fù)案例。

另一類是把客戶畫像抽取出來(lái)，分析其分布，不同類型客戶的流失率、成單率等，是一個(gè)數(shù)據(jù)來(lái)源詳實(shí)的商業(yè)分析工具。

機(jī)器之心：DealTape 服務(wù)于哪些行業(yè)？對(duì)不同行業(yè)的系統(tǒng)進(jìn)行什么程度的定制？

會(huì)購(gòu)買呼叫系統(tǒng)的企業(yè)都是我們的潛在用戶。我們現(xiàn)在比較集中的行業(yè)是金融，教育和 B2B。這些行業(yè)的很多基本情況非常類似：沒(méi)有一家獨(dú)斷的壟斷龍頭公司，而是有非常多中等規(guī)模的企業(yè)，同時(shí)都可以支付得起呼叫系統(tǒng)和相關(guān)服務(wù)。因此在這些領(lǐng)域內(nèi)，DealTape 既有可擴(kuò)展性，也能夠進(jìn)行一些定制。

針對(duì)每個(gè)不同的行業(yè)，我們都對(duì)語(yǔ)音和語(yǔ)義模型進(jìn)行了定制化。

這是因?yàn)?，同樣是呼叫系統(tǒng)，不同行業(yè)的使用方式差別會(huì)很大，最后音頻中的信息分布、信息量以及內(nèi)容差異也非常大。例如保險(xiǎn)銷售需要在電話里和客戶確認(rèn)非常多個(gè)人信息，一通電話可能長(zhǎng)達(dá)一小時(shí)。而信貸行業(yè)去銷售的時(shí)候，只需要詢問(wèn)對(duì)方房產(chǎn)，社保等資質(zhì)再加微信邀約就可以結(jié)束了，一個(gè)電話平均只要幾分鐘。

機(jī)器之心：從模型角度看，DealTape 智能呼叫系統(tǒng)可以分成幾部分？

我們的整個(gè)技術(shù)?？梢苑譃槿龑樱?/p>

第一層是語(yǔ)音識(shí)別層，主要解決的是如何把呼叫系統(tǒng)里一段短則幾分鐘，長(zhǎng)則幾小時(shí)的電話錄音轉(zhuǎn)換為機(jī)器可以處理的雙軌文字記錄。

第二層是語(yǔ)義理解，通過(guò)一系列的文本分類模型，為文本中體現(xiàn)坐席與客戶特點(diǎn)的句子打上標(biāo)簽，并為對(duì)話雙方建立「畫像」。

第三層是數(shù)據(jù)挖掘?qū)?，?jì)算不同的標(biāo)簽與成單率之間的關(guān)系，將結(jié)果用于培訓(xùn)、實(shí)時(shí)座席輔助等不同目標(biāo)。

微信圖片_20181128203249.jpg

圖：坐席的「話術(shù)點(diǎn)」標(biāo)簽類別

機(jī)器之心：語(yǔ)音識(shí)別層和語(yǔ)義理解層分別包括哪些模塊？進(jìn)行哪些任務(wù)？

語(yǔ)音識(shí)別層首先通過(guò)把人聲段落和背景噪音段落分開(kāi)的形式把長(zhǎng)錄音斷句，進(jìn)一步根據(jù)聲紋信息區(qū)分不同說(shuō)話人身份，并判斷哪一方是銷售坐席，哪一方是客戶。這個(gè)階段解決的是「誰(shuí)在說(shuō)話」以及「在什么時(shí)候說(shuō)話」。最后，才對(duì)每一句話（utterance）進(jìn)行語(yǔ)音識(shí)別。

語(yǔ)義理解層的目的是把自然語(yǔ)言結(jié)構(gòu)化，最后給出一系列關(guān)于坐席和客戶的標(biāo)簽，我們稱之為「畫像」。

常見(jiàn)的針對(duì)坐席的標(biāo)簽包括「是不是加了微信」，「是不是約了下次見(jiàn)面」等 KPI 衡量指標(biāo)。而常見(jiàn)的客戶標(biāo)簽則會(huì)根據(jù)行業(yè)的不同而產(chǎn)生比較大的差異。例如，在金融信貸領(lǐng)域，「是否有社?！埂ⅰ甘欠裼蟹慨a(chǎn)」，就是一些重要的二值標(biāo)簽。標(biāo)簽的數(shù)量從幾個(gè)到幾十個(gè)不等，隨著新用戶逐漸加入，需求逐漸增多，我們也在不斷擴(kuò)充自己的標(biāo)簽體系。

微信圖片_20181128203332.jpg

圖：保險(xiǎn)行業(yè)的「保險(xiǎn)責(zé)任 1」標(biāo)簽對(duì)應(yīng)的語(yǔ)句樣例

機(jī)器之心：數(shù)據(jù)挖掘?qū)尤绾卫蒙蟽蓪咏o出的信息？

數(shù)據(jù)挖掘?qū)酉袷且粋€(gè)商業(yè)智能（BI）工具包。

在這一層，我們會(huì)對(duì)所有標(biāo)簽與成單率之間的關(guān)系建模，找到那些與成單率負(fù)相關(guān)程度最高的、波及客戶最多的因素，將它們視為目前坐席需要解決的首要問(wèn)題。

同時(shí)，我們會(huì)分析具有這些因素反而成單的案例，例如「被連續(xù)拒絕反而成單」的案例，「被競(jìng)品先入為主反而成單」的案例，分析究竟哪些話術(shù)起了作用促成了成單，找出銷售打動(dòng)客戶的原因。

對(duì)于銷售坐席來(lái)說(shuō)，我們可以利用分析結(jié)果進(jìn)行有針對(duì)性的話術(shù)培訓(xùn)。我們可以根據(jù)某一位坐席的數(shù)據(jù)進(jìn)行回歸分析，再把報(bào)表推送給他：通過(guò)數(shù)據(jù)分析，我們發(fā)現(xiàn)，從用戶角度，你在遇到某種情況的客戶時(shí)成單率最低，從個(gè)人角度，你的某一環(huán)節(jié)最為薄弱，然后推送和他情況類似的成單案例，對(duì)他進(jìn)行有針對(duì)性的話術(shù)培訓(xùn)。

對(duì)于管理者來(lái)說(shuō)，我們可以給出管理建議：例如，一位坐席同時(shí)維護(hù)多少個(gè)客戶的時(shí)候，成單率最高；又如，哪些話術(shù)能夠最有效地促進(jìn)成單。

另外，我們也可以通過(guò)上一層的語(yǔ)義理解，進(jìn)行類似「網(wǎng)站埋點(diǎn)」，監(jiān)督坐席是不是按要求完成了工作，例如是不是推廣了小程序。

機(jī)器之心：語(yǔ)音識(shí)別層的核心技術(shù)要點(diǎn)有哪些？

眾所周知，語(yǔ)音識(shí)別模型除了需要聲學(xué)模型還需要語(yǔ)言模型。

如果沒(méi)有語(yǔ)言模型，單純用聲學(xué)模型進(jìn)行識(shí)別，文字會(huì)出現(xiàn)漏字、同音字錯(cuò)誤識(shí)別等可讀性問(wèn)題。因此我們需要一個(gè)語(yǔ)言模型在解碼過(guò)程中對(duì)聲學(xué)模型定向搜索過(guò)的結(jié)果進(jìn)行一次重排序。

經(jīng)典的語(yǔ)言模型做法是采用 n-gram 統(tǒng)計(jì)模型、但 n-gram 模型存在幾個(gè)問(wèn)題，一是因?yàn)閰?shù)非常多，所以容易過(guò)擬合；二是即使在 n 取值非常小的時(shí)候，例如 3-gram，仍然會(huì)發(fā)生參數(shù)爆炸。后來(lái)有了基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型，把每個(gè)詞，或者每個(gè)詞的分布變成一個(gè)嵌入碼（embedding）, 然后用 RNN 模型來(lái)刻畫句子的上下文。這一做法的局限性在于，無(wú)論如何設(shè)計(jì)模型結(jié)構(gòu)，最后都要通過(guò) softmax 進(jìn)行輸出，模型的表現(xiàn)力就被嵌入碼的規(guī)模所限制了。

因此我們?cè)谡Z(yǔ)言模型中引入了「softmax 混合體」概念，相當(dāng)于將若干個(gè) softmax 解碼器做成了一個(gè)混合模型，克服了基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型的表現(xiàn)力限制性，在多個(gè)語(yǔ)言建模標(biāo)準(zhǔn)數(shù)據(jù)集上獲得復(fù)雜度（perplexity）的大幅提升，例如在 1B Word 數(shù)據(jù)集上就提高了 5.6%。這篇文章入選了 ICLR 2018 oral，是前段時(shí)間影響力比較好的一個(gè)工作。

機(jī)器之心：訓(xùn)練語(yǔ)音模型需要進(jìn)行什么規(guī)模的標(biāo)注工作？

在冷啟動(dòng)階段，我們對(duì)接了兩家不同行業(yè)的客戶，分別來(lái)自信貸領(lǐng)域和 B2B 銷售，我們從他們的數(shù)據(jù)庫(kù)中提取數(shù)據(jù)，進(jìn)行了數(shù)百個(gè)小時(shí)的人工標(biāo)注，然后利用這部分?jǐn)?shù)據(jù)訓(xùn)練處了一個(gè)基本可用的基線模型，用于后續(xù)的數(shù)據(jù)標(biāo)注。有了基線模型之后，新的未標(biāo)注數(shù)據(jù)首先通過(guò)基線模型進(jìn)行預(yù)識(shí)別，再交給標(biāo)注員做精細(xì)標(biāo)注，這樣成本就大大降低了。同時(shí)，基線模型的訓(xùn)練集也在不斷擴(kuò)充，現(xiàn)在我們最新的基線模型訓(xùn)練集規(guī)模已經(jīng)達(dá)到數(shù)千個(gè)小時(shí)。

至于生產(chǎn)階段，每個(gè)行業(yè)都有一個(gè)專屬的語(yǔ)音識(shí)別模型，如果用戶所在行業(yè)是我們之前沒(méi)有接觸過(guò)的，那么我們需要大量標(biāo)注數(shù)據(jù)從頭訓(xùn)練；如果我們之前做過(guò)相關(guān)行業(yè)，那么標(biāo)注的目的只是適配一下特定公司的數(shù)據(jù)特點(diǎn)，這時(shí)只需要進(jìn)行「輕標(biāo)注」，標(biāo)注量大概是新行業(yè)的十分之一。

機(jī)器之心：目前市面上已經(jīng)有許多公司將語(yǔ)音識(shí)別視作一項(xiàng)基礎(chǔ)能力模塊，對(duì)外提供相對(duì)比較成熟的技術(shù)服務(wù)。為什么 Recurrent AI 仍然選擇「自己造輪子」？而不是調(diào)用其他 API？

我們嘗試過(guò)用通用的語(yǔ)音識(shí)別引擎去識(shí)別電話錄音，識(shí)別的結(jié)果并不足以支撐上層的語(yǔ)義處理任務(wù)。這是我們「重造輪子」的主要原因。通用語(yǔ)音識(shí)別引擎的識(shí)別結(jié)果會(huì)丟掉很多關(guān)鍵信息，例如一些實(shí)體的名稱，像公司名稱和產(chǎn)品名稱之類的，這是用戶最關(guān)心的一部分內(nèi)容，但是反而不能被正確識(shí)別。我們甚至嘗試過(guò)用一些規(guī)則修改通用識(shí)別引擎的識(shí)別結(jié)果，比如用戶的企業(yè)名稱是「百姓網(wǎng)」，經(jīng)常被識(shí)別成「百姓好」，那么我們可以制定規(guī)則把所有的「百姓好」修改成「百姓網(wǎng)」。但是識(shí)別模型是不可控的，可能的錯(cuò)誤方式有太多了。

另外，從「造輪子」的可行性角度，雖然我們公司創(chuàng)始成員的主要背景是自然語(yǔ)言處理和數(shù)據(jù)挖掘，但是深度學(xué)習(xí)這類端到端的算法在不同領(lǐng)域之內(nèi)有相通之處，而且它大大降低了語(yǔ)音識(shí)別的門檻——比如說(shuō)標(biāo)注精度就從原來(lái)的需要「逐字校準(zhǔn)」變成了給出每句的對(duì)應(yīng)文本即可，這就是一個(gè)成本和精力上可控的任務(wù)了。

機(jī)器之心：數(shù)據(jù)挖掘?qū)拥暮诵募夹g(shù)要點(diǎn)有哪些？

數(shù)據(jù)挖掘的難點(diǎn)就在于如何結(jié)合所有的特征去預(yù)測(cè)。我們一般從三個(gè)層面來(lái)考慮這個(gè)問(wèn)題，一是特征工程（feature engineering），二是模型，三是模型的結(jié)合（ensemble）。模型層面需要考慮的問(wèn)題比較少，用分類器解決預(yù)測(cè)問(wèn)題已經(jīng)成為定式，xgboost 等工具已經(jīng)非常成熟了。所以我們考慮的主要是，第一，怎么樣去定義更有效的特征；第二，怎么樣去做特征的交叉與結(jié)合，使得其表達(dá)能力和泛化能力更強(qiáng)；第三，在最后模型結(jié)合、調(diào)參的層面，把利用不同特征訓(xùn)練出來(lái)的模型進(jìn)行結(jié)合。

機(jī)器之心：各個(gè)行業(yè)的「標(biāo)簽」是如何確定的？

每個(gè)行業(yè)的標(biāo)簽都有所不同，標(biāo)簽是和我們的用戶逐步溝通出來(lái)的。

用戶公司的運(yùn)營(yíng)人員會(huì)和產(chǎn)品溝通，提供一小部分音頻。我們的運(yùn)營(yíng)人員在聽(tīng)過(guò)錄音之后會(huì)幫助他們進(jìn)行設(shè)計(jì)，而用戶也會(huì)給出很多需求。

有一些標(biāo)簽?zāi)苊黠@地體現(xiàn)出用戶的商業(yè)邏輯。比如說(shuō)，在一個(gè)競(jìng)價(jià)排名銷售的場(chǎng)景里，用戶就要求系統(tǒng)能夠區(qū)分出「不想花錢」、「價(jià)格異議」和「問(wèn)優(yōu)惠」。在用戶看來(lái)，「不想花錢」指代的是完全不想付費(fèi)、想要免費(fèi)使用的客戶?！竷r(jià)格異議」是一個(gè)更為積極的信號(hào)，表示客戶有支付意愿，只是覺(jué)得價(jià)格太貴。而會(huì)「問(wèn)優(yōu)惠」的客戶則更為主動(dòng)，信號(hào)更為積極。

機(jī)器之心：行業(yè)內(nèi)存在哪些競(jìng)品嗎？

在美國(guó)，公司使用呼叫系統(tǒng)的歷史遠(yuǎn)比國(guó)內(nèi)悠久，普及情況也遠(yuǎn)勝于國(guó)內(nèi)，因此有一些類似的產(chǎn)品。例如有一家名為 Chorus 的公司，還有 Gong.io (http://gong.io/) 都是針對(duì)銷售領(lǐng)域的智能對(duì)話系統(tǒng)公司，但它們針對(duì)的對(duì)象通常是視頻 demo，在國(guó)內(nèi)，這一類場(chǎng)景還比較少。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

专访 | Recurrent AI：呼叫系统的「变废为宝」

日期： 2018-11-28

相關(guān)內(nèi)容