10月21日消息,據(jù)媒體報(bào)道,DeepSeek在GitHub上開源了其最新研究成果——DeepSeek-OCR模型。
據(jù)介紹,DeepSeek-OCR的參數(shù)量約為3B,是研究團(tuán)隊(duì)對(duì)“光學(xué)二維映射壓縮”技術(shù)在長(zhǎng)文本上下文處理中可行性的首次探索。
該模型核心由DeepEncoder與DeepSeek3B-MoE-A570M解碼器構(gòu)成:DeepEncoder能夠在高分辨率輸入條件下保持低激活狀態(tài),實(shí)現(xiàn)高壓縮比并生成適量的視覺token;解碼器則負(fù)責(zé)將這些視覺token準(zhǔn)確轉(zhuǎn)化為文本信息。
實(shí)驗(yàn)數(shù)據(jù)顯示,當(dāng)文本token數(shù)量控制在視覺token的10倍以內(nèi)(壓縮率<10 x )時(shí),OCR識(shí)別精度可達(dá)97%;即使壓縮率提升至20×,模型準(zhǔn)確率仍能維持在60%左右。
研究團(tuán)隊(duì)表示,這一成果為長(zhǎng)上下文壓縮技術(shù)以及大語言模型的記憶與遺忘機(jī)制研究提供了新的思路與方向。
論文標(biāo)題:DeepSeek-OCR: Contexts Optical Compression
項(xiàng)目地址:https://github.com/deepseek-ai/DeepSeek-OCR
論文地址:https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf
Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-OCR