8月8日消息,OpenAI在今天凌晨的直播中,正式發(fā)布了GPT-5模型,號(hào)稱是自家最出色的模型,在編程、數(shù)學(xué)、寫(xiě)作、健康、視覺(jué)感知等多個(gè)領(lǐng)域都具備頂尖的性能。
OpenAI首席執(zhí)行官薩姆·奧爾特曼(Sam Altman)稱,GPT-5是該公司此前人工智能模型的“重大升級(jí)”,并表示“與它交流,真的就像在和任何領(lǐng)域的專家對(duì)話”。
GPT-5今日起開(kāi)始向免費(fèi)用戶和付費(fèi)用戶逐步推出,付費(fèi)用戶擁有更高的使用限額。
Pro訂閱者可無(wú)限訪問(wèn)GPT-5,并能使用GPT-5 Pro;Plus用戶可將其作為日常問(wèn)題的默認(rèn)模型,使用量顯著高于免費(fèi)用戶。
GPT-5是一個(gè)統(tǒng)一的系統(tǒng),由智能高效模型+深度推理模型(GPT-5 thinking)+實(shí)時(shí)路由器組成。
其中,智能高效模型可回答大多數(shù)問(wèn)題;深度推理模型用于解決更復(fù)雜的問(wèn)題。
實(shí)時(shí)路由器則是會(huì)根據(jù)對(duì)話類型、復(fù)雜性、工具需求和用戶明確意圖,快速?zèng)Q定使用哪種模型,且會(huì)基于真實(shí)信號(hào)持續(xù)訓(xùn)練改進(jìn)。
一旦達(dá)到使用限制,每個(gè)模型的精簡(jiǎn)版將處理剩余的查詢,OpenAI未來(lái)將會(huì)把這些功能整合到一個(gè)單一模型中。
GPT-5在基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)于之前的模型,回答問(wèn)題速度更快,對(duì)實(shí)際問(wèn)題的解答更有幫助,減少幻覺(jué)、改進(jìn)指令遵循以及最大程度減少諂媚。
尤其在寫(xiě)作、編程和健康咨詢這三個(gè)ChatGPT最常見(jiàn)的應(yīng)用場(chǎng)景中表現(xiàn)提升。
編程:是迄今為止最強(qiáng)的編程模型,在復(fù)雜前端生成和大型代碼庫(kù)調(diào)試方面有顯著改進(jìn),能根據(jù)單個(gè)提示創(chuàng)建美觀且響應(yīng)迅速的網(wǎng)站、應(yīng)用程序和游戲等。
創(chuàng)意表達(dá)與寫(xiě)作:能將粗略想法轉(zhuǎn)化為有文學(xué)深度和節(jié)奏的引人共鳴的作品,能更好地處理涉及結(jié)構(gòu)模糊的寫(xiě)作,在日常寫(xiě)作任務(wù)中也更有幫助。
健康:在與健康相關(guān)的問(wèn)題上表現(xiàn)最佳,在HealthBench上的得分顯著高于以往任何模型,能更主動(dòng)地標(biāo)記潛在問(wèn)題并提問(wèn)以提供更有幫助的答案,還能根據(jù)用戶的背景、知識(shí)水平和地理位置提供更精確可靠的響應(yīng),但不能替代醫(yī)療專業(yè)人員。
在數(shù)學(xué)(AIME 2025無(wú)工具時(shí)94.6%)、真實(shí)世界編程(SWE-bench Verified 74.9%、Aider Polyglot 88%)、多模態(tài)理解(MMMU 84.2%)和健康(HealthBench Hard 46.2%)等方面創(chuàng)造新的最先進(jìn)水平。
GPT-5 Pro憑借擴(kuò)展推理,在GPQA上也創(chuàng)造新的最先進(jìn)水平,無(wú)工具時(shí)得分88.4%。
GPT-5 Pro用于最具挑戰(zhàn)性、最復(fù)雜的任務(wù),替代OpenAI o3-Pro,它的思考時(shí)間更長(zhǎng),使用規(guī)?;咝У牟⑿袦y(cè)試時(shí)計(jì)算,能提供最高質(zhì)量和最全面的答案。
在多個(gè)具有挑戰(zhàn)性的智力基準(zhǔn)測(cè)試中表現(xiàn)最佳,在超過(guò)1000個(gè)有經(jīng)濟(jì)價(jià)值的真實(shí)世界推理提示的評(píng)估中,外部專家在67.8%的情況下更青睞GPT-5 Pro,其主要錯(cuò)誤減少22%,在健康、科學(xué)、數(shù)學(xué)和編程方面表現(xiàn)出色。