12 月 25 日消息,據(jù) TechCrunch 獲得的內(nèi)部通信內(nèi)容顯示,參與改進(jìn)谷歌 Gemini 人工智能模型的承包商正在將其答案與 Anthropic 的競品模型 Claude 的輸出進(jìn)行比較。此舉引發(fā)了谷歌是否獲得 Anthropic 授權(quán)使用 Claude 進(jìn)行測(cè)試的合規(guī)性質(zhì)疑。
在科技公司競相開發(fā)更優(yōu)秀 AI 模型的當(dāng)下,模型性能的評(píng)估通常通過行業(yè)基準(zhǔn)測(cè)試進(jìn)行,而非由承包商耗費(fèi)大量精力評(píng)估競爭對(duì)手的 AI 回復(fù)。然而,Gemini 的承包商需要根據(jù)多個(gè)標(biāo)準(zhǔn)(例如真實(shí)性和冗長性)對(duì)看到的每個(gè)回復(fù)進(jìn)行評(píng)分。根據(jù) TechCrunch 獲得的通信內(nèi)容,承包商最多有 30 分鐘的時(shí)間來判斷 Gemini 或 Claude 的答案哪個(gè)更好。
內(nèi)部聊天記錄顯示,承包商注意到 Claude 的回復(fù)似乎比 Gemini 更強(qiáng)調(diào)安全性。一位承包商寫道:“在所有 AI 模型中,Claude 的安全設(shè)置是最嚴(yán)格的?!痹谀承┣闆r下,Claude 不會(huì)回應(yīng)其認(rèn)為不安全的提示詞(prompt),例如扮演不同的 AI 助手。在另一次測(cè)試中,Claude 避免回答某個(gè)提示詞,而 Gemini 的回復(fù)則因包含“裸體和束縛”而被標(biāo)記為“嚴(yán)重的安全違規(guī)”。
Anthropic 的商業(yè)服務(wù)條款禁止客戶未經(jīng) Anthropic 批準(zhǔn)訪問 Claude“以構(gòu)建競爭產(chǎn)品或服務(wù)”或“訓(xùn)練競爭 AI 模型”。谷歌是 Anthropic 的主要投資者。
對(duì)此,谷歌 DeepMind(負(fù)責(zé) Gemini)發(fā)言人 McNamara 表示,DeepMind 確實(shí)會(huì)“比較模型輸出”以進(jìn)行評(píng)估,但并未在 Anthropic 模型上訓(xùn)練 Gemini?!爱?dāng)然,按照行業(yè)慣例,在某些情況下,我們會(huì)比較模型輸出作為評(píng)估過程的一部分,”McNamara 說,“然而,任何關(guān)于我們使用 Anthropic 模型訓(xùn)練 Gemini 的說法都是不準(zhǔn)確的?!?/p>