利用機器學習技術(shù)審閱文檔,生成摘要,提高文字工作效率是人工智能的重要發(fā)展方向。近日,達觀數(shù)據(jù)推出了文檔智能審閱系統(tǒng) 2.0 版,吸引了德勤、平安信托等眾多公司的青睞。
在產(chǎn)品正式推出前,機器之心找到了達觀數(shù)據(jù)的創(chuàng)始人和 CEO 陳運文,他向我們介紹了達觀數(shù)據(jù)新版文檔審閱系統(tǒng)背后的技術(shù),同時也對自然語言處理(NLP)和人工智能技術(shù)的未來進行了展望。作為國內(nèi)第一家將自動語義分析技術(shù)應用于行業(yè)中的人工智能公司,達觀數(shù)據(jù)成立于 2015 年。這家公司旨在用文字語義自動分析技術(shù)為企業(yè)級客戶提供文本自動抽取、審核、糾錯、搜索、推薦、寫作等智能軟件系統(tǒng)。
該公司的 CEO 陳運文博士畢業(yè)于復旦大學,他同時也是上海市計算機學會多媒體分會副會長、國際計算機學會(ACM)和國際電子電器工程師學會(IEEE)高級會員,中國計算機學會(CCF)會員。他曾擔任盛大文學首席數(shù)據(jù)官,騰訊文學高級總監(jiān)、數(shù)據(jù)中心負責人,百度核心技術(shù)研發(fā)工程師等職務,曾帶領團隊多次獲得 ACM 競賽冠亞軍。
達觀數(shù)據(jù)創(chuàng)始人、CEO 陳運文博士
陳運文的職場經(jīng)歷,無論是百度的搜索引擎技術(shù)研發(fā),還是盛大文學的數(shù)據(jù)負責人,都是在與數(shù)據(jù)打交道。他曾經(jīng)研究利用技術(shù)挖掘數(shù)據(jù)提高公司的效率和收入,而在達觀數(shù)據(jù),他領導開發(fā)的技術(shù)力量已經(jīng)可以剖析用戶的海量數(shù)據(jù),為更多企業(yè)提升收益。
達觀數(shù)據(jù)是一家具有學術(shù)背景的公司,專注于將最新自然語言處理技術(shù)應用到具體場景中?!高@件事情很難,但是我覺得特別有意思:我們面臨著很多的技術(shù)挑戰(zhàn),有很多的工作要做,有困難才有動力。」陳運文表示。
文檔審閱 2.0
在達觀數(shù)據(jù)描繪的未來里,計算機并不會百分之百的代替人,它會作為人類的助手存在,對文檔進行快速處理,補充人類的不足之處。人工智能算法可以發(fā)現(xiàn)人們?nèi)菀缀雎缘腻e誤。而人類在工作流程中的任務是復查計算機給出的結(jié)果,這樣可以大幅度提高工作效率。
在金融等對于文本準確性要求很高的行業(yè)中,計算機具有快速處理數(shù)據(jù)的能力,對內(nèi)容的復核,包括字詞的復核都有天然的優(yōu)勢。
達觀數(shù)據(jù)的文檔智能審閱系統(tǒng)可以一鍵審核數(shù)十種常見風險。
在這個過程中,達觀數(shù)據(jù)面臨著很多挑戰(zhàn)?!肝覀兿M層嬎銠C理解金融行業(yè)里的領域知識——『Know how』,」陳運文表示,「讓算法和專業(yè)內(nèi)容更加緊密地結(jié)合在一起。因此,我們投入了大量精力去了解和掌握金融行業(yè)員工日常的操作方式。我們需要把領域內(nèi)的知識固化到軟件系統(tǒng)內(nèi),這樣軟件才能像白領員工一樣進行工作?!?/p>
陳運文表示,達觀數(shù)據(jù)的語言處理模型在訓練時使用了兩部分數(shù)據(jù),一部分是特定領域內(nèi)的語料數(shù)據(jù),包括行業(yè)中公開的語料數(shù)據(jù)、資料、專業(yè)術(shù)語等。公司技術(shù)人員已投入大量精力對數(shù)據(jù)進行了采集、歸納整理和分析。另一方面,達觀數(shù)據(jù)的客戶多年來也積累了大量高質(zhì)量行業(yè)數(shù)據(jù)。通過高質(zhì)量的數(shù)據(jù)訓練算法,計算機系統(tǒng)會變得越來越聰明。據(jù)稱,在一些具體操作中,達觀數(shù)據(jù)的系統(tǒng)已具備了遠超過普通人類的處理能力。
達觀數(shù)據(jù)的文檔審核系統(tǒng)在糾錯算法和審核算法中采用了 LSTM 等技術(shù),其 2.0 版還引入了遷移學習和增強學習。復雜的模型帶來了更高的準確率,但也意味著計算成本的提升。而陳運文表示,即使在這樣的情況下,計算機帶來的便利性也大大超過了人力成本。
「深度學習、LSTM 等算法確實是比傳統(tǒng)統(tǒng)計學習需要耗費更多的算力,」陳運文介紹道,「但另一方面,相比于高昂的人力成本來說。這些算法背后依賴的硬件成本即使在今天看來也并不高。由 GPU 組建的集群需要的成本比一群金融業(yè)白領的年薪要低得多。」
算力問題并不會成為實踐面臨的障礙。除了已有的效率優(yōu)勢之外,另一方面,硬件的成本每一年都在降低。達觀數(shù)據(jù)認為,在未來,文本挖掘、自然語言處理的成本會降低到難以想象的地步——而要付給員工的工資只會不斷增多。
在可用性方面,機器學習系統(tǒng)也有著自己的優(yōu)勢。在達觀數(shù)據(jù)很多客戶的專業(yè)領域內(nèi),培養(yǎng)一個專家需要很多年的時間,在此之后,經(jīng)驗和知識又很難遷移到其他人身上。而在今天,計算機軟件系統(tǒng)一旦訓練好,就具備了類似人類專家水平的能力,同時可以零成本地進行復制,服務更多人。
達觀數(shù)據(jù)曾做過比較,現(xiàn)在一臺服務器提供的工作能力基本相當于 15 個普通的員工。而隨著硬件成本的下降,這個數(shù)字還將不斷提高。現(xiàn)在一臺服務器運行一年的成本可以是 2 萬元以內(nèi)。
在提高計算并行化效率上,達觀數(shù)據(jù)的產(chǎn)品采用了 Mini batch 等新技術(shù)。同時,其模型也結(jié)合了 LSTM、CNN、統(tǒng)計學習等方法,通過獨有的雙層組合學習的方法,整個系統(tǒng)可充分發(fā)揮各種算法的優(yōu)勢,讓算法的能力發(fā)揮到最大。
逐漸成型的市場
在技術(shù)以外,如何向傳統(tǒng)公司推廣人工智能產(chǎn)品也是擺在各家 AI 科技公司面前的難題。在達觀數(shù)據(jù)看來,目前最困難的起始階段已經(jīng)過去。
「坦率地說,應該感謝媒體,它們過去三四年來對于人工智能進行了大量的宣傳報道,」陳運文表示,「我們發(fā)現(xiàn)傳統(tǒng)行業(yè)客戶,不論是領導還是一線的員工,他們都對人工智能、大數(shù)據(jù)和信息化帶來的價值有所了解。我們現(xiàn)在向客戶介紹產(chǎn)品沒有什么障礙,客戶都很樂意去嘗試先進的技術(shù)。」
但解決方案成型關(guān)鍵在于如何很好地解決客戶面臨的問題。
達觀數(shù)據(jù)認為,今天中國的 AI 產(chǎn)業(yè)正處于歷史上很好的一個時期——來自各行各業(yè)的客戶們已經(jīng)開始愿意接受新興的技術(shù)——但這也意味著科技公司不能制造泡沫,必須打造優(yōu)秀的產(chǎn)品,要讓客戶覺得產(chǎn)品配得上人工智能的稱號。
在 NLP 的賽場上,一些科技巨頭也在不斷展示著自己的實力。面對競爭,陳運文認為國內(nèi) AI 公司的優(yōu)勢在于能夠提供個性化的服務:「微軟在 NLP 領域有著強大的技術(shù)實力,但中國本土的企業(yè)并不落后。我們的優(yōu)勢在于可以向客戶提供貼身的服務。」達觀數(shù)據(jù)在實踐中發(fā)現(xiàn),每一個客戶的需求都有些許的差異——很難用一個通用化的模型來滿足不同客戶的個性化需求。
這家公司致力于為客戶提供解決實際問題的系統(tǒng),提供定制化方案,而不是通過一個大而全的平臺,試圖通過一個算法解決大量問題——這樣很難把一個具體的問題解決的足夠好。
目前達觀數(shù)據(jù)的文檔處理系統(tǒng)已經(jīng)發(fā)展了大量客戶,其中包括很多世界五百強的大型企業(yè),金融行業(yè)、新聞媒體、法律行業(yè)和政府。如招商銀行、平安信托、華泰證券等等金融領域的公司;以及華為、海爾等五百強企業(yè)里的標桿客戶。這些客戶、行業(yè)的特點是它們都會接觸大量的文檔資料。
達觀數(shù)據(jù)文檔處理系統(tǒng)下一步的推廣目標是傳媒行業(yè)、政府和事業(yè)單位。這些機構(gòu)每天都面臨著大量的文字處理工作,而目前為止,所有這些都需要耗費大量的人力,未來這家公司提供的系統(tǒng)將會大幅解放這些人力。
達觀數(shù)據(jù)發(fā)現(xiàn),很多發(fā)達地區(qū)的地方政府對于新技術(shù)具有很高的熱情。比如行政審批,這幾乎占到了政府部門 1/3 的工作量。這些工作目前都還是依靠大量的基層公務員來做的。達觀數(shù)據(jù)預計,它們中的很大一部分,包括預審、材料檢查等都可以在未來由計算機來承擔。
技術(shù)優(yōu)先的團隊
基于公司的基因,陳運文為達觀數(shù)據(jù)選擇了面向企業(yè)客戶的道路。經(jīng)過三年多的發(fā)展,這家公司已形成了規(guī)模近 200 人的團隊,其中研發(fā)團隊占六成。這家公司有著濃厚的技術(shù)氛圍,一直在不斷發(fā)表介紹 NLP 技術(shù)的博客,舉辦算法大賽。
「我自己也在寫技術(shù)博客!我們對于技術(shù)的態(tài)度非常開放:技術(shù)是要拿出來分享的。」陳運文表示,「我特別鼓勵員工總結(jié)自己的經(jīng)驗和想法,把它寫成文章發(fā)表出來,讓所有文本挖掘的愛好者都能夠看得見。這樣對于整個產(chǎn)業(yè)都是有益的?!?/p>
達觀數(shù)據(jù)有很多工程師都公開發(fā)表了技術(shù)博客,這些文章經(jīng)常會填補國內(nèi)在特定領域上技術(shù)文章的空白。
陳運文曾帶隊參加 ACM 數(shù)據(jù)競賽并獲獎。
陳運文也有著數(shù)據(jù)競賽的情節(jié)。他曾作為隊長組隊參加過很多國際算法競賽,并拿到過多個冠軍。達觀數(shù)據(jù)舉辦了自己的 NLP 數(shù)據(jù)競賽:「達觀杯」文本智能處理挑戰(zhàn)賽。據(jù)介紹,今年的比賽已經(jīng)吸引了 2000 余名參賽選手,成為了目前國內(nèi)規(guī)模最大的文本挖掘比賽。達觀數(shù)據(jù)認為,能夠聚攏全國最具實力的文本挖掘愛好者共同解決一個問題,是一個很有意義的事情。
在 2017 年 4 月的 A 輪融資后,達觀數(shù)據(jù)已經(jīng)推出了多種產(chǎn)品,并迅速拓展了業(yè)務。陳運文本次還透露,達觀數(shù)據(jù)即將在 2018 年第三個季度公布自己的 B 輪融資交易情況。這將成為中國目前為止自然語言處理領域內(nèi)最大的融資之一。具體細節(jié)很快即將公布。
文本挖掘在中國,不僅是在技術(shù)上,還是在應用上都仍處于早期狀態(tài)。在未來,達觀數(shù)據(jù)的發(fā)展將會著力于兩個方面,一方面繼續(xù)加大技術(shù)上的投入:把中文的文本挖掘技術(shù)做深做透。而在應用方面,達觀數(shù)據(jù)希望改變中國傳統(tǒng)企業(yè)「人拉肩扛」的原始文本處理方式,為眾多客戶帶來自動化。
「我們認為,大量的文字處理應用場景未來一定需要更好的工具、更自動化的手段,去幫助人們提高工作效率?!龟愡\文表示,「我們會開發(fā)更多的應用,部署到每個行業(yè)、每個客戶身邊。對于我們來說,未來還有很多工作要做?!棺鳛橐患覍W⒂谡Z義理解技術(shù)的 AI 企業(yè),達觀數(shù)據(jù)文檔智能審閱系統(tǒng) 2.0 版本只是一個開始,這家公司還希望在未來向普通用戶提供更多產(chǎn)品。
「也許等我們有足夠的資源和力量的時候,會嘗試推出一些面向消費者的文字處理工具。未來也許每一個中國的消費者,在頭疼于文字處理中時,達觀數(shù)據(jù)的系統(tǒng)可以為你們提供幫助。不管是寫作、修訂、審閱、分類,人工智能系統(tǒng)都能夠大幅度提高人們的工作效率。」陳運文表示。