前一段時間,OpenAI 丟出了兩枚炸彈,一是公布了當前最先進的語言模型,二是選擇與開源「Say Goodbye」。他們擔心 GPT-2 模型太好,會被不懷好意的人濫用。近來,很多研究者呼吁 OpenAI 盡快開源這個 15 億參數(shù)量的大模型,因為它并不能真正「理解」自然語言。
其實想想也是,語言模型只能確定自然語句或語法的正確性,它并不能對自然語言的邏輯進行建模。很快機器學習社區(qū)就發(fā)起了一個暗諷 GPT-2 的帖子:為了防止濫用,我是不是不應該公布在 MNIST 訓練的 23064 層殘差網(wǎng)絡?
很多人認為谷歌的 BERT是一種「暴力美學」,它美的地方在于提出了新型雙向語言建模任務,輔以大數(shù)據(jù)、大模型最終能打造暴力美感,但 GPT-2 并沒有給我們這種感覺。
也許現(xiàn)在隨著模型變得越來越大,我們能更好地「遷移」到其它任務,如知識問答和情感分析等。但是從 fast.ai 的 ULMFit、OpenAI 的 GPT、AI2 的 ELMO、到谷歌的 BERT 以及剛剛公布的 GPT-2,真正具有美感的還是少數(shù),不論是新架構還是新任務,閃亮的創(chuàng)新點才是重點。
熱門的 Reddit 帖子
OpenAI 發(fā)布驚艷的研究成果不足為奇。真正讓人意外的是他們決定不開源完整的研究成果,表示擔心自己的技術被不懷好意的人用來制造垃圾郵件和假新聞。這一做法在 Reddit、Twitter 等平臺上激起了熱烈討論,媒體也爭相報道,討論 AI 研究如何變得「危險到不能公布」。
OpenAI 擔心技術被不當利用無可厚非,但我并不贊同他們拒絕開源 GPT-2 這種做法。首先,只有某幾種類型的危險技術才應該受到控制?;诖?,我認為拒絕開放完整的 GPT-2 模型既沒必要,也不利于 AI 的未來發(fā)展。
欺騙性和破壞性的技術
我把有可能被濫用的現(xiàn)代技術大體分為欺騙性技術和破壞性技術。破壞性技術主要在物理領域運行,如化學武器、實驗室工程超級病毒、致命自動化武器或原子彈。
而欺騙性技術則主要在我們的頭腦中運行,可能被不懷好意的人大范圍地用于操縱或控制人類。如 deepfakes、Photoshop 或互聯(lián)網(wǎng)、印刷機。除了自動化武器之外,關于 AI 濫用的的擔憂也屬于這一類別。
Deepfakes 允許操作者將面部表情疊加到其他人的臉上。
對于比較危險的破壞性技術,保護社會的唯一方法就是嚴格限制來源(如造核武器的鈾)。如果沒有其它控制機制,僅僅拒絕公布一項危險技術的細節(jié)是遠遠不夠的:技術的快速發(fā)展使任何成果都可能會在幾年內(nèi)被獨立復制,除非被某種外力強行阻止。以這種方式抑制某項技術是極其笨拙的,也不是萬無一失的??植婪肿涌傆袡C會搜集放射性材料造出臟彈,但我們現(xiàn)在別無選擇:如果人們能夠輕易從網(wǎng)上獲取零部件和組裝方法來自己組裝原子彈,那地球就會成為一片墳場。
然而,對于欺騙性技術,卻有一個更高效的替代方案。與其壓制一項技術,不如將其威力公之于眾。盡管這聽上去有些違反直覺,但如果公眾廣泛意識到被操縱的可能性,欺騙性技術將失去很大威力。雖然對核武器的了解無法使我們免受其威脅,但如果對語音合成技術的最新進展有所了解,我們會對「奧巴馬說中文」這件事更加懷疑。子彈不會長眼睛,但根據(jù)我們對現(xiàn)代照片編輯技術的了解,普京不太可能真的會騎熊。
你可以在網(wǎng)上找到普京騎任何東西的照片。
舉一個具體的例子,我們可以看看一種有可能引發(fā)混亂但(謝天謝地)并沒有摧毀現(xiàn)代社會的技術:Photoshop。
解析 GPT-2
通過具體分析文本生成,OpenAI 展示了一些模型生成的故事案例,并表明 GPT-2 可能會帶來一些危險應用。為了方便起見,我們在下面復制了獨角獸故事的前提和模型生成的前兩段。
前提:科學家們震驚地發(fā)現(xiàn),在安第斯山脈一個偏遠且沒被開發(fā)過的山谷里,生活著一群獨角獸。更加讓人訝異的是,這些獨角獸說著完美的英語。
模型:這群生物有著獨特的角,因此科學家將其命名為 Ovid's Unicorn。這些長著四支銀白色角的生物之前并不為科學家所知。而今在將近兩個世紀后,這一奇怪現(xiàn)象的神秘面紗終于得到了探索。
雖然從直觀上而言,語言模型只能判斷一句話是「人話」的概率,它并不會內(nèi)在理解自然語言的邏輯,更不用說理解背后的知識了。但是從 OpenAI 給出的案例而言,GPT-2 似乎能理解自然語言的邏輯,我們只能認為這也許是大數(shù)據(jù)擬合的力量吧。值得注意的是,除了多次運行模型并手動挑選最佳樣本外,故事前提也是精心挑選的。特別是前提介紹了說英語的獨角獸,這很容易掩蓋更深層次的問題:生成的無意義句子能擬合無意義的前提。
即便考慮上述情況,這個短樣本仍然存在著嚴重的連貫性缺陷。第一句暗示獨角獸只有一支角,而生成的第二句卻表明有四支角;前提表明發(fā)現(xiàn)獨角獸是最近的新聞,而第三句卻又暗示獨角獸兩個世紀前就被發(fā)現(xiàn)了。因為模型不能建模自然語言的邏輯,因此這種不連貫或相互矛盾會大量出現(xiàn)在文本生成中。
這些挑刺可能看起來作用不大,但它們卻揭示了深度學習模型中普遍存在的一個更深層次的問題:GPT-2 并沒有真正「理解」它所生成的文本。其實生成一目了然的自然語句非常容易,例如后現(xiàn)代作文生成器和 Mathgen,它們都是用上下文無關的語法生成「語法正確」的句子,不過這些句子并沒有任何語義含義。畢竟對于大多數(shù)不熟悉數(shù)學的讀者而言,下面兩個方程式都像胡言亂語。
生成語法正確的句子很容易,但確保句子連貫很難。
不過公平地說,GPT-2 超過了其它大多數(shù)語言生成模型,但是離人類水平的連貫性語言還有很長的路要走。此外重要的是,OpenAI 展示的樣本都沒到被惡意使用的水平。
此外,GPT-2 并沒有顯著超過其它開源語言模型,研究者在論文中也表示并不確定表現(xiàn)能超過 BERT 等語言模型。BERT 表示,它們的雙向編碼器提供的性能比單向語言模型要好。GPT 系列的模型都是傳統(tǒng)的單向語言模型,但 OpenAI 并沒有詳細地對比 GPT-2 與其它前沿語言模型。由于 OpenAI 并沒有微調(diào)它們的模型,因此我們也不能直接對比各模型在自動文本摘要或機器翻譯等下游任務上的性能。
開源完整模型的重要性
有些人可能認為開源完整的模型不是很有必要,只要披露研究結果就行了。但這種想法是不對的。
AI 研究發(fā)展如此之快的部分原因就是開源,研究人員可以在眨眼之間復現(xiàn)已有的研究,而不必從頭開始重建之前的工作。作為 AI 研究領域最具影響力的機構之一,OpenAI 強大的開源歷史毫無疑問激勵了其他人來做同樣的事。如果 OpenAI 的新政策違背了這一趨勢,其他研究人員可能也會效仿,而這會對為這個領域帶來巨大利益的開源文化造成威脅。
此外,開源促使信息向大眾傳播。通過開源,thispersondoesnotexist.com 網(wǎng)站在 ProductHunt 上獲得了最高的排名。通過開源,藝術家們制作了首幅 AI 生成的畫作并在佳士得拍賣行出售。雖然 OpenAI 的研究博客僅被熱愛機器學習的從業(yè)者所閱,但是建立在開源基礎上的研究可以接觸到更廣泛的受眾,而這些人不太可能會看到最初的研究聲明。
去年,這幅 AI 生成的畫作賣了近 50 萬美元。
開源也確保了研究的合理性。這個領域有很多名不副實的研究,而研究人員是否可以通過檢查開源代碼來復現(xiàn)非比尋常的研究結果非常重要。以 OpenAI 的聲望,沒有人會質(zhì)疑其研究結果,不管它有沒有開源,但這一聲望是建立在其先前的開源工作上的。在研究中,即使你沒有作假,其他人也可能會作假。而沒有開源就沒有辦法來驗證,研究人員和公眾都無法穿透迷霧尋求真相。
這也并不是說所有東西都應該不假思索地開源。那些危險的破壞性技術絕對不能讓其他人輕易獲得。即使是欺騙性的技術,如果非常危險,就有必要在發(fā)表論文和公布代碼之間增加延遲時間,以防止帶有惡意的快速反應者在公眾還沒消化研究成果之前趁機而入。如果 OpenAI 認為 GPT-2 就屬于這種技術,那我會建議他們晚點再開源模型。
結語
AI 研究從開源文化中獲益良多。雖然多數(shù)學科的最新研究獲取渠道收費昂貴,但任何有網(wǎng)絡的人都可以和斯坦福教授一樣訪問最前沿的 AI 研究,做實驗和克隆開源代碼庫一樣簡單,而租賃云端的 GPU 僅需幾美分/小時。我們致力于通過公開發(fā)布學習材料、新的研究成果以及開源我們的項目來實現(xiàn)人工智能的民主化,這也是 AI 領域發(fā)展如此迅速的原因。
我很贊賞 OpenAI 出色的新研究,它突破了語言建模和文本生成的限制。我也感謝他們深思熟慮,愿意參與一場關于研究倫理的討論。盡管這個話題非常重要,但卻很少有人討論。OpenAI 提出了人工智能濫用的問題,這的確是我們要考慮的問題,但不應成為不開源其研究的理由。
我真誠地希望,2019 年機器學習不會從一個開放的系統(tǒng)轉變?yōu)榉忾]的系統(tǒng),這對該領域的發(fā)展既不安全也沒有幫助。為了我們的未來,OpenAI,請開源你們的語言模型。
原文地址:https://thegradient.pub/openai-please-open-source-your-language-model/