大家喜聞樂見的 Tumblr(湯不熱)涼了……
12 月初,美國著名圖片博客網(wǎng)站 Tumblr 宣布將全面禁止任何成人內(nèi)容。新規(guī)定將于 12 月 17 日正式施行。這一行為看來是主動在和「互聯(lián)網(wǎng)的 30% 流量」說再見,長久混跡 Tumblr 的老司機們送了一首「涼涼」予它。
自 2007 年上線以來,Tumblr 一直以允許 NSFW 內(nèi)容而聞名(也可能是臭名昭著),這是公司管理層一時的頭腦發(fā)熱還是想要「改過自新」了?不論 Tumblr 的意圖如何,想要為社交網(wǎng)絡(luò)加入審核機制,過濾色情圖片/視頻是需要投入技術(shù)和人力的。
在 Tumblr 的官方通告中,公司 CEO Jeff D’Onofrio 表示,「……(Tumblr) 將采用產(chǎn)業(yè)標準的機器監(jiān)控、不斷加大的人類監(jiān)控等方式禁止成人內(nèi)容?!?/p>
但是,才「睜開眼睛」的計算機并不那么完美?!筗ired 在近日的一篇文章中稱。許多 Tumblr 用戶在 Twitter 上抱怨其鑒別系統(tǒng)存在許多誤判行為。如據(jù) Wired 文章,奧克拉荷馬大學法學院教授 Sarah Burstein 只是發(fā)布了幾張設(shè)計專利圖,就被標記了。文章表示這不僅效率低下,而且傷害了用戶的感情。不少 Tumblr 的用戶失望地涌向推特,《紐約時報》稱這些用戶是「棄船而逃」。
其實在多年前,Tumblr 就面臨著準確識別 NSFW 內(nèi)容的問題。2013 年,Yahoo 11 億美元收購 Tumblr,4 年后 Verizon 收購雅虎,Tumblr 歸于 Verizon 子公司 Oath,并在不久之后推出了「安全模式」,能在搜索結(jié)果中自動過濾成人內(nèi)容。
人工智能雖然可以同時處理大量圖片,但畢竟不是人類,難免會出現(xiàn)一些令人哭笑不得的差錯。特別像 Tumblr 這樣的微博客平臺,用戶群體復雜,色情與非色情的界限非常難以把握。圖普科技產(chǎn)品運營總監(jiān)姜澤榮表示,「(這樣的平臺在制定標準時)標準過嚴可能會把攝影作品、藝術(shù)作品之類的內(nèi)容識別為色情內(nèi)容,傷害用戶體驗;標準過低則會讓平臺上的色情內(nèi)容繼續(xù)泛濫。此外平臺上的內(nèi)容類型繁多,包含文字、圖片、視頻、直播等,各個類型的內(nèi)容實時性不一,審核標準差異大,這無疑都對開發(fā)、運營等團隊提出高要求?!?/p>
圖普科技是國內(nèi)較早使用深度學習技術(shù)提供圖像和視頻內(nèi)容審核服務(wù)的 AI 創(chuàng)業(yè)公司。在平臺色情內(nèi)容審核等問題上,圖譜向機器之心解釋了一些問題。
圖像鑒黃系統(tǒng)流程是什么?
鑒黃系統(tǒng)的工作流程是這樣的:首先是要建模,其次是制定色情圖片的分類標準,然后收集大量素材,進行分類標注,最后用這些標注好的素材進行訓練,讓機器去學習各個分類里面的特征,不斷調(diào)整自己模型的參數(shù)并最終得到最佳的識別模型。
而當機器對圖像進行識別以后,這些圖像數(shù)據(jù)會轉(zhuǎn)化為數(shù)字化的信息,帶入到模型里面進行計算, 根據(jù)計算值將圖片標注為「正常、性感、色情」三個類別。
因為「識別」的不完美性,這樣的系統(tǒng)也會有人類的參與。在經(jīng)過識別之后,系統(tǒng)把判斷結(jié)果和概率告訴使用方,使用方會再根據(jù)結(jié)果做對應(yīng)處理,比如自動刪除、或者人工接入復審。如果在人工復核環(huán)節(jié)發(fā)現(xiàn)機器識別有誤,則會有針對性地對相同場景的圖片進行數(shù)據(jù)學習, 并調(diào)整參數(shù), 直到錯誤率達到最低值。
AI 鑒黃的技術(shù)核心是深度學習理論(Deep Learning)。通俗來講,可以把深度學習理解為一個空白的大腦,海量數(shù)據(jù)就是灌輸進來的經(jīng)驗。當我們把大量的色情、性感、正常的樣本的屬性告訴深度學習的引擎,讓引擎不斷學習,然后把他們做對的進行獎勵,做錯的就懲罰,當然這些獎勵和懲罰都是數(shù)學上的,最后空白的腦袋就會學成了一種連接的模型,這種模型就是為了鑒別色情與非色情而生的。
深度學習就是人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,以下簡稱 ANN)。要了解 ANN,讓我們先來看看人類的大腦是如何工作的。
人腦的視覺處理系統(tǒng)(圖片來源:Simon Thorpe)
上圖表示人理解外界視覺信息的過程。從視網(wǎng)膜(Retina)出發(fā), 經(jīng)過低級的 V1 區(qū)提取邊緣特征,到 V2 區(qū)的基本形狀或目標的局部,再到高層的整個目標(如判定為一張人臉),以及到更高層的 PFC(前額葉皮層)進行分類判斷等。也就是說高層的特征是低層特征的組合,從低層到高層的特征表達越來越抽象和概念化,也即越來越能表現(xiàn)語義或者意圖。
深度學習恰恰就是通過組合低層特征形成更加抽象的高層特征(或?qū)傩灶悇e),然后在這些低層次表達的基礎(chǔ)上通過線性或者非線性組合,來獲得一個高層次的表達。此外,不僅圖像存在這個規(guī)律,聲音也是類似的。
現(xiàn)在來看深度學習的簡易模型。
傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)與深度神經(jīng)網(wǎng)絡(luò)(圖片來源網(wǎng)絡(luò))
深度學習的一個主要優(yōu)勢在于可以利用海量訓練數(shù)據(jù)(即大數(shù)據(jù)),在學習的過程中不斷提高識別精度,但是仍然對計算量有很高的要求。而近年來,得益于計算機速度的提升、大規(guī)模集群技術(shù)的興起、GPU 的應(yīng)用以及眾多優(yōu)化算法的出現(xiàn),耗時數(shù)月的訓練過程可縮短為數(shù)天甚至數(shù)小時,深度學習才逐漸可用于工業(yè)化。
對于開發(fā)團隊來說,做該領(lǐng)域的產(chǎn)品困難在于如何獲取大規(guī)模已標注數(shù)據(jù)、集成有 GPU 的計算集群以及針對自己的項目調(diào)參數(shù),團隊需要不斷地輸入新數(shù)據(jù),持續(xù)迭代以提高機器識別準確率。
既有圖片又有視頻怎么辦?
在短視頻流行的今天,各家科技公司還要面對海量的視頻內(nèi)容。圖片是靜態(tài)的,視頻/直播是動態(tài)的,而視頻內(nèi)容的完整審核包括對圖片、文字、語音的審核,所以會更加復雜。以對視頻圖片審核為例,在鑒別視頻和直播時,可以先把動態(tài)的內(nèi)容解碼成圖片幀,這就與靜態(tài)圖片鑒別方法相似了。
直播實時性強,對響應(yīng)時間要求高,并且里面的場景和人物變化比較大,審核要求比較嚴格,所以識別難度會相對比較大,需要實時不斷對房間進行截幀傳輸識別,并且結(jié)合人工來實現(xiàn)預(yù)警處理;視頻在畫質(zhì)整體上比圖片和直播差,一定程度會影響識別效果,通常是以視頻為單位進行等時間間隔截圖,以一個視頻多張截圖的結(jié)果來綜合判斷視頻是否色情違規(guī)。
如果企業(yè)對視頻或直播的每一幀圖片都進行識別,數(shù)據(jù)量將變得非常巨大,運營成本會很高。面對這類情況,一般會采用對視頻抽幀的方式進行處理。例如,一分鐘視頻,可以按照時間段來抽取 6-15 幀左右的圖片進行識別處理,以此減少計算成本。
審核能否完全依賴機器?
針對人們屢屢吐槽的「誤殺」問題,圖譜認為在提高 AI 算法準確度的同時目前還需依靠人類做最后的判斷。誤判分為兩大類型:把色情內(nèi)容誤判為正常內(nèi)容,以及把正常內(nèi)容誤判為色情內(nèi)容。
1)色情判正常:在光線昏暗場景,或者距離很遠時背景干擾比較大的場景下,以及有特效干擾的情況都有可能造成誤判;衣著正常但實際上露點、隱晦的動作和姿勢等。
2)正常判色情:穿著暴露但實際沒露點,物體形似性器官,接近于色情動作但實際不是(譬如手抓棍狀物體、手正常放在敏感部位)等。
機器能夠幫助企業(yè)大幅提升審核效率和準確率。以圖普科技的鑒黃系統(tǒng)為例,每天可審核近 10 億張圖片,識別準確率高于 99.5%,可為企業(yè)節(jié)省 95% 以上的審核人力。但在現(xiàn)階段甚至很長一段時間內(nèi),人工智能鑒黃無法完全代替人工鑒黃。因為機器還很難理解內(nèi)容背后的深意,也不會在不同文化場景中做自由切換。所以推薦以機器+人工的審核方法。
單純的算法和模型是可以把機器訓練到完全正確地判斷情況的,但是在實際應(yīng)用中,機器沒有自主思考和自己的主觀意識,仍然需要人工輔助進行確認。例如客戶提供的畫面過于模糊或者說光線過暗,以及訓練數(shù)據(jù)的不能完全覆蓋性等種種客觀原因影響下,機器打不出很高的分確認圖片,這都需要人工來輔助。
「Tumblr 網(wǎng)友:即使這樣我也愛你?!?/p>
看來,AI 圖像識別系統(tǒng)可以用現(xiàn)有的,「鑒黃師」則非請不可。在宣布禁止成人內(nèi)容之后,Tumblr 的 app 終于再次出現(xiàn)在蘋果應(yīng)用商店里。這輛車最終會開向何處?讓我們拭目以待。