123,123,123

微软Phi-3-vision基准测试结果与Claude 3-haiku/Gemini 1.0 Pro相当

日期： 2024-05-28

來(lái)源：IT之家

關(guān)鍵詞： 微软 Phi-3-vision

5 月 28 日消息，微軟在 Build 2024 大會(huì)上發(fā)布了 Phi-3 家族的最新成員--Phi-3-vision，主打“視覺(jué)能力”，能夠理解圖文內(nèi)容，同時(shí)據(jù)稱(chēng)可以在移動(dòng)平臺(tái)上流暢高效運(yùn)行。

Phi-3-vision 是一款多模態(tài)小型語(yǔ)言模型（SLM），主要用于本地 AI 場(chǎng)景，該模型參數(shù)量為 42 億，上下文長(zhǎng)度為 128k token，能夠?yàn)槌Ｒ?guī)視覺(jué)推理任務(wù)和其他任務(wù)提供支持。

那么 Phi-3-vision 有多厲害？微軟今天發(fā)布了新的論文 [PDF]，表示該 SLM 和 Claude 3-haiku、Gemini 1.0 Pro 等其他模型不相上下。

微軟在論文中對(duì)比了 ScienceQA、MathVista 和 ChartQA 等模型，Phi-3-vision 的參數(shù)雖然不多，但性能非常優(yōu)秀。

據(jù)此前報(bào)道，微軟提供了 Phi-3-vision 相較于字節(jié)跳動(dòng) Llama3-Llava-Next（8B）、微軟研究院和威斯康星大學(xué)、哥倫比亞大學(xué)合作的 LlaVA-1.6（7B）、阿里巴巴通義千問(wèn) QWEN-VL-Chat 模型等競(jìng)品模型的比較圖表，其中顯示 Phi-3-vision 模型在多個(gè)項(xiàng)目上表現(xiàn)優(yōu)異。

Magazine.Subscription.jpg

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)及時(shí)通過(guò)電子郵件或電話(huà)通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話(huà)：010-82306118；郵箱：aet@chinaaet.com。

微软Phi-3-vision基准测试结果与Claude 3-haiku/Gemini 1.0 Pro相当

日期： 2024-05-28

來(lái)源：IT之家

相關(guān)內(nèi)容