《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動(dòng)態(tài) > 馬斯克:現(xiàn)實(shí)世界中用于訓(xùn)練AI模型的數(shù)據(jù)已經(jīng)所剩無幾

馬斯克:現(xiàn)實(shí)世界中用于訓(xùn)練AI模型的數(shù)據(jù)已經(jīng)所剩無幾

2025-01-10
來源:IT之家
關(guān)鍵詞: AI模型 人工智能

1 月 9 日消息,據(jù) TechCrunch 報(bào)道,馬斯克與其他人工智能專家一致認(rèn)為,現(xiàn)實(shí)世界中用于訓(xùn)練 AI 模型的數(shù)據(jù)幾乎已經(jīng)耗盡。

0.png

在周三晚間與 Stagwell 董事會(huì)主席馬克?佩恩的直播對話中,馬斯克表示:“我們現(xiàn)在基本上已經(jīng)消耗掉了所有人類知識的積累…… 用于人工智能訓(xùn)練的數(shù)據(jù)。這個(gè)現(xiàn)象基本上是去年發(fā)生的?!?/p>

馬斯克此番言論與前 OpenAI 首席科學(xué)家伊利亞?蘇茨克弗(Ilya Sutskever)在去年 12 月的 NeurIPS 會(huì)議上的觀點(diǎn)相似。蘇茨克弗曾指出,AI 行業(yè)已經(jīng)達(dá)到了所謂的“數(shù)據(jù)峰值”,并預(yù)測未來缺乏足夠的訓(xùn)練數(shù)據(jù),將迫使 AI 模型的開發(fā)方式發(fā)生改變。

馬斯克認(rèn)為,合成數(shù)據(jù)(IT之家注:即人工智能模型自我生成的數(shù)據(jù))是未來的解決方案?!把a(bǔ)充現(xiàn)實(shí)世界數(shù)據(jù)的唯一途徑是通過合成數(shù)據(jù),也就是讓 AI 自己生成訓(xùn)練數(shù)據(jù)。AI 會(huì)進(jìn)行自我評估,并通過這一自我學(xué)習(xí)的過程不斷優(yōu)化自己?!?/p>

目前,許多科技公司,包括微軟、Meta、OpenAI 和 Anthropic 等,已經(jīng)開始使用合成數(shù)據(jù)來訓(xùn)練他們的主力 AI 模型。據(jù) Gartner 估計(jì),到 2024 年,用于人工智能和數(shù)據(jù)分析項(xiàng)目的 60% 數(shù)據(jù)將是通過合成方式生成的。

使用合成數(shù)據(jù)的一個(gè)顯著優(yōu)勢是降低成本。人工智能初創(chuàng)公司 Writer 表示,其 Palmyra X 004 模型幾乎完全依賴合成數(shù)據(jù)進(jìn)行開發(fā),開發(fā)成本僅為 70 萬美元,而一個(gè)規(guī)模相似的 OpenAI 模型的開發(fā)成本大約為 460 萬美元。

然而,合成數(shù)據(jù)也存在一定的風(fēng)險(xiǎn)。研究表明,合成數(shù)據(jù)可能會(huì)導(dǎo)致模型性能下降,輸出結(jié)果不僅缺乏創(chuàng)新性,而且可能變得更加偏頗,最終嚴(yán)重影響其功能性。因?yàn)槟P褪峭ㄟ^自己生成合成數(shù)據(jù)進(jìn)行訓(xùn)練的,如果這些數(shù)據(jù)本身帶有偏見或局限性,那么最終模型的輸出也會(huì)受到這些因素的影響。


Magazine.Subscription.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時(shí)通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。