123,123,123

阿里通义千问首个图像生成基础模型Qwen-Image开源

支持中文高保真输出

日期： 2025-08-05

來源：IT之家

關(guān)鍵詞： 通义千问 Qwen

8 月 5 日消息，阿里通義千問團隊今日宣布開源 Qwen-Image，這是一個 20B 的 MMDiT 模型，也是通義千問系列中首個圖像生成基礎(chǔ)模型，其在復(fù)雜文本渲染和精確圖像編輯方面取得了顯著進展。

Qwen-Image 的主要特性包括：

文本渲染能力：Qwen-Image 在復(fù)雜文本渲染方面表現(xiàn)出色，支持多行布局、段落級文本生成以及細粒度細節(jié)呈現(xiàn)。無論是英語還是中文，均能實現(xiàn)高保真輸出。

一致性的圖像編輯能力：通過增強的多任務(wù)訓(xùn)練范式，Qwen-Image 在編輯過程中能保持編輯的一致性。

跨基準(zhǔn)性能表現(xiàn)：在多個公開基準(zhǔn)測試中的評估表明，Qwen-Image 在各類生成與編輯任務(wù)中均獲得 SOTA。

通義千問團隊在多個公開基準(zhǔn)上對 Qwen-Image 進行了全面評估，包括用于通用圖像生成的 GenEval、DPG 和 OneIG-Bench，以及用于圖像編輯的 GEdit、ImgEdit 和 GSO。

Qwen-Image 在所有基準(zhǔn)測試中均取得了最先進的性能。此外，在用于文本渲染的 LongText-Bench、ChineseWord 和 TextCraft 上的結(jié)果表明，Qwen-Image 在文本渲染方面表現(xiàn)尤為出色，特別是在中文文本渲染上，大幅領(lǐng)先現(xiàn)有的最先進模型。

除了文本處理，Qwen-Image 在通用圖像生成方面支持多種藝術(shù)風(fēng)格。從照片級寫實場景到印象派繪畫，從動漫風(fēng)格到極簡設(shè)計，該模型能夠靈活響應(yīng)各種創(chuàng)意提示。

在圖像編輯方面，Qwen-Image 支持風(fēng)格遷移、增刪改、細節(jié)增強、文字編輯，人物姿態(tài)調(diào)整等多種操作。這讓普通用戶也能實現(xiàn)專業(yè)級的圖像編輯。

Magazine.Subscription.jpg

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

阿里通义千问首个图像生成基础模型Qwen-Image开源

日期： 2025-08-05

來源：IT之家

相關(guān)內(nèi)容