《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動態(tài) > 剛剛,ChatGPT官宣數(shù)學(xué)能力再升級,網(wǎng)友:終于精通十以內(nèi)加減法了

剛剛,ChatGPT官宣數(shù)學(xué)能力再升級,網(wǎng)友:終于精通十以內(nèi)加減法了

2023-01-31
來源:機(jī)器之心
關(guān)鍵詞: ChatGPT AI

  自 ChatGPT 發(fā)布以來,它的能力不斷被人們解鎖,比如寫神經(jīng)網(wǎng)絡(luò)、做智能音箱。人們在試用中慢慢發(fā)現(xiàn),數(shù)學(xué)能力是 ChatGPT 的一大短板,連簡單的「雞兔同籠」題都能算錯。

  大概是考慮到了這一點,ChatGPT 剛剛宣布了一次重要更新:提升了「真實性」和「數(shù)學(xué)能力」。

  微信截圖_20230131140852.png

  本次是 ChatGPT 自去年 11 月推出以來的第三次更新,但由于「更新說明」過于模糊,人們還需要經(jīng)歷一個對新能力的探索過程。

  幾日前,計算機(jī)科學(xué)家、Wolfram 語言之父 Stephen Wolfram 將理工科神器 Wolfram|Alpha 與 ChatGPT 結(jié)合起來,為后者注入超強計算知識實現(xiàn)互補,效果相當(dāng)不錯。

  那么,這次更新之后的 ChatGPT 數(shù)學(xué)能力可與其一戰(zhàn)嗎?

  看起來…… 對比的結(jié)果不盡如人意:

  微信截圖_20230131141013.png

  還有人發(fā)現(xiàn),升級后的 ChatGPT「脾氣逐漸暴躁」:

  微信截圖_20230131141056.png

  這也許是「偶然現(xiàn)象」?看來數(shù)學(xué)是真難。

  不管怎么說,我們可以期待一波后續(xù)的有趣 Demo 了。

  太卷了:ChatGPT 和它的競爭者們

  「未來 6 到 12 個月將帶來實驗的爆炸式增長,一旦公司能夠使用 OpenAI 的 API 在 ChatGPT 之上構(gòu)建。出現(xiàn)的殺手級用例可能是圍繞生成式 AI 對知識管理的影響?!?/p>

  在最近的一次公開活動上,安永全球首席技術(shù)官 Nicola Morini Bianzino 表示,目前還沒出現(xiàn)在企業(yè)中使用 ChatGPT 的「殺手級」用例。但這種狀態(tài)可能很快就會改變,他預(yù)測未來 6 到 12 個月將帶來大量實驗,尤其是當(dāng)公司能夠使用 OpenAI 的 API 在 ChatGPT 上構(gòu)建之后。

  Bianzino 將生成式 AI 對知識管理的影響描述為「AI 的辯證法」?!钢R公司傾向于以一種非常扁平的二維方式存儲知識,這使得訪問、互動和對話變得困難。我們在 20、30、40 年前嘗試構(gòu)建專家系統(tǒng)。這并不是很順利,因為它們太死板了。我認(rèn)為這項技術(shù)有望克服專家系統(tǒng)存在的許多問題?!筃icola Morini Bianzino 表示。

  與此同時,ChatGPT 的競爭者們也不斷涌現(xiàn),這個賽道變得越來越「卷」。從 Anthropic 公司的 Claude、DeepMind 公司的 Sparrow、谷歌公司的 LaMDA 到 Character AI,每天似乎都有新競爭者步入賽場。

  Anthropic 是一家舊金山的初創(chuàng)公司,由幾位離開 OpenAI 的研究人員于 2021 年創(chuàng)立。公司成立不到一年后就宣布了高達(dá) 5.8 億美元的融資,上周五還被報道即將增加 3 億美元融資。

  這家公司開發(fā)了一個名為「Claude」的 AI 聊天機(jī)器人,目前通過 Slack 集成在封閉測試版中可用,據(jù)報道它與 ChatGPT 相似,甚至有一些改進(jìn)。Anthropic 描述自身的使命為「致力于構(gòu)建可靠、可解釋和可操縱的 AI 系統(tǒng)」。

  DeepMind 同樣是這條賽道上不可忽視的力量。這家公司在 9 月份的一篇論文中介紹了 「Sparrow」,被譽為「朝著創(chuàng)建更安全、偏差更小的機(jī)器學(xué)習(xí)系統(tǒng)邁出的重要一步」。Sparrow 是「一種有用的對話智能體,可以降低不安全和不適當(dāng)答案的風(fēng)險」,旨在「與用戶交談、回答問題并在有助于查找證據(jù)」。

  不過,DeepMind 的安全研究員、 Sparrow 論文的主要作者 Geoffrey Irving 表示,DeepMind 認(rèn)為 Sparrow 是一個基于研究的概念驗證模型,尚未準(zhǔn)備好部署。

  在兩周前的《時代周刊》文章中,該公司的首席執(zhí)行官兼聯(lián)合創(chuàng)始人 Demis Hassabis 表示,DeepMind 正在考慮在 2023 年的某個時候發(fā)布其聊天機(jī)器人 Sparrow 的「私人測試版」。如此一來,公司就可以開發(fā)基于強化學(xué)習(xí)的功能,比如引用來源 —— 這是 ChatGPT 所沒有的能力。

  再說到谷歌的 LaMDA,這一模型曾在去年夏天引發(fā)過熱議 —— 谷歌工程師 Blake Lemoine 因聲稱 LaMDA 具有感知能力而被解雇。

  即使不像 Lemoine 認(rèn)為的那樣,LaMDA 仍被認(rèn)為是 ChatGPT 最大的競爭對手之一。谷歌在 2021 年發(fā)布的博客文章中表示,LaMDA 的對話技巧「已經(jīng)醞釀多年」。與 ChatGPT 一樣,LaMDA 建立在 Transformer 架構(gòu)之上,也接受過對話方面的訓(xùn)練。

  根據(jù)谷歌的說法,「在訓(xùn)練期間,LaMDA 發(fā)現(xiàn)了一些將開放式對話與其他形式的語言區(qū)分開來的細(xì)微差別?!?/p>

  《紐約時報》在 1 月 20 日的一篇報道中提到,谷歌創(chuàng)始人 Larry Page 和 Sergey Brin 上個月會見了公司高管,討論了 ChatGPT 可能對谷歌 1490 億美元的搜索業(yè)務(wù)構(gòu)成的威脅。谷歌發(fā)言人在一份聲明中表示:「我們繼續(xù)在內(nèi)部測試我們的 AI 技術(shù),以確保它有用且安全,我們期待盡快與外部分享更多經(jīng)驗?!?/p>

  另外一位頗具實力的玩家則是 Character AI,這家公司由 Transformer 論文作者之一 Noam Shazeer 創(chuàng)辦,逐漸為人熟知。

  該公司推出的 AI 聊天機(jī)器人技術(shù)允許用戶與任何人聊天或進(jìn)行角色扮演,比如模仿伊麗莎白女王和莎士比亞等歷史人物。目前該技術(shù)是免費使用的,Character 正在「研究用戶如何與之互動,然后再制定具體的創(chuàng)收計劃?!?/p>

  傳百度將發(fā)布類似 ChatGPT 的聊天機(jī)器人

  更能引起國內(nèi) AI 從業(yè)者關(guān)注的是,據(jù)路透社、彭博社等多家外媒報道稱,百度公司計劃在 3 月份推出類似于 OpenAI 的 ChatGPT 的人工智能聊天機(jī)器人服務(wù)。

  消息人士稱,百度計劃在用戶提出搜索請求時整合聊天機(jī)器人生成的結(jié)果,而不僅僅是鏈接。「該工具尚未命名,將嵌入在主搜索服務(wù)中,用戶將返回對話風(fēng)格的搜索結(jié)果。」

  在去年 12 月在一次內(nèi)部討論中,百度 CEO 李彥宏曾分享自己對 ChatGPT 的看法:「把這么酷的技術(shù)變成人人需要的產(chǎn)品」才是最難的,希望百度新的一年「至少能有一個高成長、有創(chuàng)新的業(yè)務(wù),真正的 above and beyond our expectation」。

  而據(jù)《科創(chuàng)板日報》1 月 30 日報道,百度內(nèi)部確有推出類似 ChatGPT 聊天機(jī)器人的規(guī)劃,但具體時間并不精確。百度 CEO 李彥宏對于該項目的定位是「引領(lǐng)搜索體驗的代際變革」。他在內(nèi)部指出,相關(guān)技術(shù)已達(dá)到臨界點,百度在其中有較大的機(jī)會。

  檢測利器:讓大型語言模型生成的文本無處隱藏

  ChatGPT 的能力縱然強大,但同時它在學(xué)校作業(yè)、論文發(fā)表等領(lǐng)域的濫用已經(jīng)引發(fā)了人們廣泛的擔(dān)憂。因此,學(xué)界開始探索檢測 ChatGPT 等大型語言模型(LLM)生成文本的方法和工具。

  馬里蘭大學(xué)幾位研究者對 ChatGPT 等語言模型輸出的水印進(jìn)行了研究。在論文《A Watermark for Large Language Models》,他們提出了一種高效水印框架,水印的嵌入對文本質(zhì)量的影響忽略不計,可以使用高效的開源算法進(jìn)行檢測,而無需訪問語言模型的 API 或參數(shù)。

  本文方法可以檢測到比較短的合成文本(少至 25 個 tokens),同時使得人類文本在統(tǒng)計學(xué)上不可能被標(biāo)記為機(jī)器生成。

  論文地址:https://arxiv.org/pdf/2301.10226v1.pdf

  斯坦福大學(xué)幾位研究者在論文《DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature》中,證明了從 LLM 中采樣的文本傾向于占據(jù)模型對數(shù)概率函數(shù)的負(fù)曲率區(qū)域。利用這一觀察結(jié)果,他們定義了一個基于曲率的新標(biāo)準(zhǔn),來判斷一段文章是否由給定的 LLM 生成。

  研究者將他們的方法稱為 DetectGPT,它不需要訓(xùn)練單獨的分類器、收集真實或生成段落的數(shù)據(jù)集以及顯式地為生成文本加水印。DetectGPT 僅使用感興趣模型計算的對數(shù)概率和另一通用預(yù)訓(xùn)練語言模型(如 T5)生成段落的隨機(jī)擾動。

  結(jié)果發(fā)現(xiàn),DetectGPT 比當(dāng)前模型樣本檢測的零樣本方法更具辨別力,尤其是將 20B 參數(shù) GPT-NeoX 生成的假新聞報道檢測從最強零樣本基線的 0.81 AUROC 提升到了 0.95 AUROC。未來將公布代碼和數(shù)據(jù)。

  微信截圖_20230131141516.png

  DetectGPT 檢測 GPT-3 生成文本的示意圖。

  論文地址:https://arxiv.org/abs/2301.11305

  除了以論文形式展現(xiàn)的檢測方案,也有個人推出了強大的檢測工具。比如一位來自 Hive AI、致力于 ChatGPT 檢測器研究的 ML 工程師,其方案能夠識別 ChatGPT、GPT-3 和其他流行 AI 引擎生成的文本。

  從內(nèi)部基準(zhǔn)測試結(jié)果來看,該方案效果明顯優(yōu)于 GPTZero 和 OpenAI GPT2 Output Detector 等類似方法。在內(nèi)部數(shù)據(jù)集上,模型平衡準(zhǔn)確率 > 99%,而 GPTZero 的準(zhǔn)確率約為 60%,OpenAI GPT2 Output Detector 的準(zhǔn)確率為 84%。

  微信截圖_20230131141516.png

  Demo 地址:https://hivemoderation.com/ai-generated-content-detection

  最后,GPTZero 也迎來了更新 ——GPTZeroX,一個專為教育者打造的全新 AI 檢測模型。該模型可以混合處理 AI 生成和人類文本,并突出顯示最有可能由 AI 生成的文本部分。此外構(gòu)建了一個 pipeline 來處理 PDF、Word 和.txt 格式的文件批量上傳,從而輕松運行多個文件。

  微信截圖_20230131141619.png

  Demo 地址:https://gptzero.substack.com/p/gptzerox

  總之,隨著 AI 生成文本檢測工具的日益豐富和日加完善,ChatGPT 等大型語言模型在應(yīng)用時勢必會越來越正規(guī),幫助人們更高效地釋放 AI 的能力。

 更多信息可以來這里獲取==>>電子技術(shù)應(yīng)用-AET<<


微信圖片_20210517164139.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。