《電子技術應用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動態(tài) > 微軟Phi-3-vision基準測試結果與Claude 3-haiku/Gemini 1.0 Pro相當

微軟Phi-3-vision基準測試結果與Claude 3-haiku/Gemini 1.0 Pro相當

2024-05-28
來源:IT之家
關鍵詞: 微軟 Phi-3-vision

5 月 28 日消息,微軟在 Build 2024 大會上發(fā)布了 Phi-3 家族的最新成員--Phi-3-vision,主打“視覺能力”,能夠理解圖文內容,同時據(jù)稱可以在移動平臺上流暢高效運行。

0.jpg

Phi-3-vision 是一款多模態(tài)小型語言模型(SLM),主要用于本地 AI 場景,該模型參數(shù)量為 42 億,上下文長度為 128k token,能夠為常規(guī)視覺推理任務和其他任務提供支持。

那么 Phi-3-vision 有多厲害?微軟今天發(fā)布了新的論文 [PDF],表示該 SLM 和 Claude 3-haiku、Gemini 1.0 Pro 等其他模型不相上下。

0.jpg

微軟在論文中對比了 ScienceQA、MathVista 和 ChartQA 等模型,Phi-3-vision 的參數(shù)雖然不多,但性能非常優(yōu)秀。

據(jù)此前報道,微軟提供了 Phi-3-vision 相較于字節(jié)跳動 Llama3-Llava-Next(8B)、微軟研究院和威斯康星大學、哥倫比亞大學合作的 LlaVA-1.6(7B)、阿里巴巴通義千問 QWEN-VL-Chat 模型等競品模型的比較圖表,其中顯示 Phi-3-vision 模型在多個項目上表現(xiàn)優(yōu)異。

0.jpg


Magazine.Subscription.jpg

本站內容除特別聲明的原創(chuàng)文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內容無法一一聯(lián)系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。