《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動(dòng)態(tài) > DeepSeek開源3B OCR模型

DeepSeek開源3B OCR模型

97%精度刷新長(zhǎng)文本壓縮極限
2025-10-21
來源:快科技
關(guān)鍵詞: Deepseek 大模型

10月21日消息,據(jù)媒體報(bào)道,DeepSeek在GitHub上開源了其最新研究成果——DeepSeek-OCR模型。

據(jù)介紹,DeepSeek-OCR的參數(shù)量約為3B,是研究團(tuán)隊(duì)對(duì)“光學(xué)二維映射壓縮”技術(shù)在長(zhǎng)文本上下文處理中可行性的首次探索。

s_3ee849c0da004a5dac7372ce7364c675.png

該模型核心由DeepEncoder與DeepSeek3B-MoE-A570M解碼器構(gòu)成:DeepEncoder能夠在高分辨率輸入條件下保持低激活狀態(tài),實(shí)現(xiàn)高壓縮比并生成適量的視覺token;解碼器則負(fù)責(zé)將這些視覺token準(zhǔn)確轉(zhuǎn)化為文本信息。

實(shí)驗(yàn)數(shù)據(jù)顯示,當(dāng)文本token數(shù)量控制在視覺token的10倍以內(nèi)(壓縮率<10 x )時(shí),OCR識(shí)別精度可達(dá)97%;即使壓縮率提升至20×,模型準(zhǔn)確率仍能維持在60%左右。

研究團(tuán)隊(duì)表示,這一成果為長(zhǎng)上下文壓縮技術(shù)以及大語言模型的記憶與遺忘機(jī)制研究提供了新的思路與方向。

s_0529deeb54964ca49443d1c59fe6387e.png

論文標(biāo)題:DeepSeek-OCR: Contexts Optical Compression

項(xiàng)目地址:https://github.com/deepseek-ai/DeepSeek-OCR

論文地址:https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf

Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-OCR


subscribe.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請(qǐng)及時(shí)通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。