Billy Tse
HomeRoadmapBlogContact
Playground
Buy me a bug

© 2026 Billy Tse

OnlyFansLinkedInGitHubEmail
Back to Blog
February 3, 2026•12 min read

DeepSeek OCR: How Visual Token Efficiency Revolutionizes Document Understanding

Discover how DeepSeek OCR achieves state-of-the-art document parsing with only 1120 visual tokens—6x fewer than competitors—through innovative visual causal flow and semantic reordering.

OCRVisual TokensTransformerCSCI 5640 NLP

Introduction

如果我話你知,AI 可以將一份長文檔「壓縮」成幾百個視覺 tokens,而唔係處理成千上萬個文字 tokens,你信唔信?DeepSeek OCR 喺 2025 年 10 月發布,開創咗一個全新嘅範式:Contexts Optical Compression(語境光學壓縮)。

呢個唔係你認識嘅傳統 OCR。DeepSeek OCR 唔只係將圖像入面嘅文字識別出嚟——佢將文字反向轉換成視覺表示,去解決 LLM 最頭痛嘅問題:超長文本處理。[1]

想像吓:一份 10,000 個文字 tokens 嘅文件,可以壓縮成只係 1,000 個視覺 tokens,同時保持 97% 嘅重建精度。呢個就係 DeepSeek OCR 帶嚟嘅革命。

傳統 OCR 同 DeepSeek OCR 嘅根本分別

傳統 OCR 係咩?

傳統 OCR 工具(好似 Tesseract、ABBYY FineReader、PaddleOCR)做緊一樣嘢:

從圖像提取文字 → 逐字逐句識別 → 輸出文字字串

呢個流程:

  • 依賴模式匹配同文字分割
  • 逐個字符、逐行處理
  • 擅長處理簡單、乾淨嘅文件(表格、單欄文字)
  • 喺複雜佈局、表格、混合媒體內容上表現欠佳[2]

傳統 OCR 嘅輸出係純文字——失去咗所有視覺結構信息。

DeepSeek OCR 係咩?

DeepSeek OCR 做緊完全相反嘅嘢:

將文字轉換成視覺表示 → 壓縮成視覺 tokens → LLM 直接理解視覺 tokens

呢個係一個反向 OCR 範式:[3]

  1. 唔係提取文字,而係保留視覺表示
  2. 唔係增加 tokens,而係壓縮 tokens
  3. 唔係失去佈局,而係保留結構信息
特性傳統 OCRDeepSeek OCR
目標提取文字字符壓縮語境成視覺 tokens
處理方式逐字逐行掃描整體視覺信號處理
輸出格式純文字字串視覺 tokens(可重建)
佈局信息❌ 失去✅ 保留
壓縮比率N/A10-20× 壓縮
主要用途文字提取、數據錄入長文本處理、語境壓縮

💡 關鍵洞察:DeepSeek OCR 唔係「讀圖」嘅工具,而係將文字「視覺化」嘅壓縮器。佢解決嘅係 LLM 嘅 token 效率問題,唔係文字識別問題。

點解需要 Contexts Optical Compression?

LLM 嘅長文本困境

現代 LLM 面對一個根本問題:文字 tokens 太多,成本太高。

假設你想處理一份 100 頁嘅法律文件:

  • 傳統方法:OCR 提取文字 → 100,000+ 文字 tokens → 餵入 LLM
  • 成本:巨大嘅記憶體、運算資源、推理時間
  • 限制:好多 LLM 嘅 context window 根本唔夠大

DeepSeek OCR 提出咗一個激進嘅想法:

如果將文字轉返做圖像,用視覺 tokens 代替文字 tokens,會唔會更高效?

答案係:會![1]

壓縮比率同精度

DeepSeek OCR 嘅實驗結果顯示:

壓縮比率視覺 tokens : 文字 tokensOCR 重建精度適用場景
< 10×1 : 1097%+高精度文件處理
10-12×1 : 10-12~90%一般文件理解
~20×1 : 20~60%粗略語境記憶

實際意義:

  • 一份 10,000 文字 tokens 嘅文件
  • 可以壓縮成 1,000 個視覺 tokens(10× 壓縮)
  • 重建精度仍然有 97%!

呢個對長文本對話、文檔檢索、歷史語境管理係革命性嘅。[3]

DeepSeek OCR 嘅架構設計

統一 End-to-End VLM 架構

DeepSeek OCR 由兩個核心組件組成:[1]

1. DeepEncoder(視覺編碼器)

參數量:約 380M

  • 80M SAM-base:擅長局部字形細節
  • 300M CLIP-large:擅長全局佈局理解
  • 兩者串聯,結合局部同全局特徵

功能:

  • 提取圖像特徵
  • Tokenize 視覺表示
  • 壓縮成高效視覺 tokens

💡 重要:DeepSeek OCR 係 vision-only 架構。佢唔會將普通文字轉換成圖像再處理,而係直接處理已經係圖像格式嘅文檔(PDF、掃描件、文件相片等)。

2. DeepSeek3B-MoE-A570M(語言解碼器)

架構:3B Mixture-of-Experts (MoE)

激活參數:570M(實際運行時)

功能:

  • 基於視覺 tokens 同 prompts 生成結果
  • 支持 OCR 重建、文檔理解、問答
  • 唔包含 text encoder(唔處理純文字輸入)
文檔圖像 ↓ [DeepEncoder] ├─ SAM-base (80M) → 局部字形特徵 └─ CLIP-large (300M) → 全局佈局特徵 ↓ 視覺 Tokens(壓縮 10-20×) ↓ [DeepSeek3B-MoE Decoder] ↓ 重建文字 / 文檔理解

LLM-Centric 設計理念

DeepSeek OCR 嘅核心創新係:從 LLM 中心視角重新思考視覺編碼器嘅角色。[1]

傳統 VLM 嘅做法:

  • 視覺編碼器盡可能提取細緻信息
  • 輸出大量視覺 tokens
  • LLM 被動接收

DeepSeek OCR 嘅做法:

  • 視覺編碼器主動壓縮
  • 輸出最少但最有用嘅視覺 tokens
  • LLM 係設計嘅核心

💡 設計哲學:唔係「睇得越多越好」,而係「壓縮得越精準越好」。

實際表現:Benchmark 結果

OmniDocBench 評測

DeepSeek OCR 喺多種文件類型上嘅 NED(Normalized Edit Distance,越低越好):[1]

文件類型TinySmallBaseLargeGundam
書籍0.1470.0850.0370.0380.035
幻燈片0.1160.1110.0800.1080.085
財務報告0.2070.0790.0270.0220.289
教科書0.1730.1470.1000.0840.095
考試卷0.2940.1710.1300.1090.094
學術論文0.3950.1310.0520.0530.039
手寫筆記0.2970.1870.1760.1550.153

模型變體解釋:

  • Tiny/Small:低分辨率、快速處理
  • Base:平衡精度同速度
  • Large/Gundam:高保真度,複雜佈局

生產規模效能

硬件要求:單個 Nvidia A100-40G GPU

處理能力:約 200,000 頁/天[3]

實際應用場景:

  • 大規模文檔數字化
  • 歷史檔案處理
  • 法律文件管理
  • 金融報告分析

革命性應用:視覺記憶遺忘機制

模擬人類記憶

DeepSeek OCR 提出咗一個好有趣嘅概念:視覺遺忘(Visual Forgetting)。[3]

人類記憶嘅特點:

  • 最近嘅信息保持清晰細緻
  • 舊有嘅信息逐漸模糊、只保留重點
  • 唔重要嘅細節自然遺忘

DeepSeek OCR 可以實現類似機制:

對話歷史: 最近 5 輪對話 → 高分辨率視覺 tokens(清晰細緻) → 壓縮比率:5× 10-20 輪之前對話 → 中分辨率視覺 tokens(保留重點) → 壓縮比率:15× 50 輪之前對話 → 低分辨率視覺 tokens(模糊印象) → 壓縮比率:30×

效果:

  • 舊對話唔會完全消失,而係「模糊化」
  • 重要信息仍然保留(視覺結構、關鍵詞)
  • 極大減少記憶體消耗

理論上無限語境

透過動態調整壓縮比率,DeepSeek OCR 可能實現:

  • 百萬級 token context window
  • 唔會線性增長嘅成本
  • 保留文檔佈局同結構

呢個對於需要超長語境嘅應用(法律研究、醫療記錄、科學文獻回顧)係遊戲規則改變者。

呢個對於需要超長語境嘅應用(法律研究、醫療記錄、科學文獻回顧)係遊戲規則改變者。

實際應用:選擇性語境壓縮

重要:DeepSeek OCR 唔係用嚟壓縮所有語境,而係做選擇性壓縮。

實際使用模式:

LLM Context Window: ┌─────────────────────────────────┐ │ 當前對話 (text tokens) │ ← 保持原樣,全保真 │ - 最近 3-5 輪對話 │ │ - 用戶當前問題 │ ├─────────────────────────────────┤ │ 文檔壓縮區 (visual tokens, 10×) │ ← DeepSeek OCR │ - PDF 文檔 (已經係圖像格式) │ │ - 掃描文件 │ │ - 歷史會議記錄截圖 │ ├─────────────────────────────────┤ │ 歷史歸檔 (visual tokens, 20-30×)│ ← 更高壓縮 │ - 數月前嘅參考資料 │ │ - 低頻存取文檔 │ └─────────────────────────────────┘

典型場景:分析 100 頁 PDF

唔用 DeepSeek OCR:

PDF → 傳統 OCR → 100,000 文字 tokens → LLM ❌ 問題:超出 context window 或成本極高

用 DeepSeek OCR:

PDF 圖像 → DeepSeek OCR → 10,000 視覺 tokens → LLM ✅ 優勢:10× 壓縮,保留佈局,可處理

混合策略:

對話記憶管理: 最近 5 輪:text tokens (高保真) PDF 參考文檔:visual tokens 10× (DeepSeek OCR) 舊對話記錄:visual tokens 20× (低分辨率) 總 tokens:5,000 (text) + 10,000 (visual) = 15,000 vs. 全文字:5,000 + 100,000 = 105,000 ❌

點解唔壓縮所有嘢?

Text tokens 適合:

  • 當前對話、即時交互
  • 需要精確引用同編輯嘅內容
  • 結構化數據(JSON、代碼)

Visual tokens 適合:

  • 已經係圖像格式嘅文檔
  • 需要保留視覺結構(表格、公式、圖表)
  • 大量歷史文檔參考

DeepSeek OCR 嘅核心價值:將「已經係圖像」嘅內容高效壓縮,而唔係將所有文字轉圖像。

對 EdTech 同文檔處理嘅應用

DeepSeek OCR 對教育科技同文檔管理開啟咗新可能性:

1. 大規模課本數字化

場景:處理成千上萬頁教科書、參考書

傳統方法問題:

  • OCR 提取文字 → 失去數學公式、圖表結構
  • Token 成本高昂
  • 難以保留原書排版

DeepSeek OCR 方案:

  • 直接用視覺 tokens 儲存課本內容
  • 10× 壓縮:1,000 頁書 = 原本 1/10 嘅 tokens
  • 保留所有數學公式、圖表、佈局

2. 學生筆記理解

挑戰:手寫筆記、混合文字圖像、非標準佈局

優勢:

  • DeepSeek OCR 喺手寫筆記上表現出色(NED < 0.176)
  • 理解筆記嘅視覺結構(標題、重點、箭頭)
  • 可以「記住」學生嘅筆記風格

3. 考試卷數字化同分析

應用:

  • 快速數字化大量考卷(200k 頁/天)
  • 保留題目佈局同學生答案結構
  • 支持光學標記識別(OMR)功能

4. 歷史課程資料管理

場景:數年累積嘅課程材料、講義、作業

視覺遺忘機制應用:

  • 本學期資料:高分辨率保留
  • 上學期資料:中等壓縮
  • 歷史資料:低分辨率「歸檔」
  • 隨時可以「喚醒」舊資料

DeepSeek OCR vs 傳統 Document AI Pipeline

傳統 Pipeline

文檔圖像 ↓ OCR (Tesseract/PaddleOCR) 純文字 ↓ Layout Analysis 結構化文字 + 佈局標註 ↓ Embedding 文字 Embeddings ↓ Vector DB 儲存 + 檢索 ↓ LLM 生成答案

問題:

  • 多個步驟、多次轉換
  • OCR 階段失去視覺信息
  • Layout analysis 可能唔準確
  • Token 數量龐大

DeepSeek OCR Pipeline

文檔圖像 ↓ DeepEncoder 視覺 Tokens(壓縮 10×) ↓ 直接儲存 視覺 Token 向量 ↓ DeepSeek Decoder 理解 + 生成答案

優勢:

  • 端到端:一個模型搞掂
  • 保留視覺:公式、圖表、佈局完整
  • 高效壓縮:10-20× 減少 tokens
  • 可重建:隨時 decode 返純文字

技術深入:點樣選擇分辨率模式?

DeepSeek OCR 提供多種分辨率模式,需要根據文檔複雜度選擇:[6]

模式適用文件精度速度GPU 記憶體
Tiny簡單發票、表格低最快最少
Small一般商業文件中等快少
Base學術論文、報告高平衡中等
Large複雜佈局、多欄非常高慢高
Gundam高保真需求、科學文獻最高最慢最高

實踐建議:

  1. 從 Base 模式開始測試
  2. 如果精度唔夠,升級到 Large 或 Gundam
  3. 如果速度太慢,降級到 Small
  4. 監察 GPU 記憶體使用,避免 OOM

限制同挑戰

當前限制

  1. 唔係萬能 OCR
    • 主要目標係壓縮,唔係提取
    • 如果只係需要純文字,傳統 OCR 可能更直接
  2. 需要 GPU 資源
    • A100-40G 先可以達到最佳效能
    • 對小型應用可能成本較高
  3. 壓縮 Trade-off
    • 高壓縮比率會損失精度
    • 需要根據應用場景平衡
  4. 模型大小
    • 3B 參數(570M 激活)仍然唔算細
    • 邊緣設備部署有挑戰

未來改進方向

  • 更高壓縮比率 同時保持精度
  • 更細模型 支持邊緣部署
  • 多語言優化(特別係中文、粵語)
  • 實時處理 能力提升

你需要知道嘅嘢

底線

DeepSeek OCR 唔係傳統意義上嘅 OCR——佢係一個 語境光學壓縮器,用視覺 tokens 代替文字 tokens 去解決 LLM 嘅長文本問題。

核心優勢:

✅ 10-20× 壓縮比率,同時保持高精度

✅ 保留視覺結構:公式、圖表、佈局完整

✅ 端到端架構:一個模型搞掂提取同理解

✅ 生產規模效能:200k 頁/天(單 GPU)

✅ 視覺遺忘機制:模擬人類記憶,支持超長語境

範式轉變

舊思維:圖像 → OCR → 文字 → LLM

新思維:圖像 → 壓縮 → 視覺 tokens → LLM

DeepSeek OCR 證明咗:有時候「返返去視覺」比「提取文字」更高效。

邊個應該用 DeepSeek OCR?

適合:

  • 需要處理大量文檔嘅企業
  • 長對話歷史管理
  • 需要保留文檔結構嘅應用
  • 記憶體預算有限嘅系統

唔適合:

  • 只需要簡單文字提取
  • 實時低延遲要求
  • 冇 GPU 資源嘅場景

Conclusion

DeepSeek OCR 代表咗文檔 AI 嘅一個新方向:唔係更好嘅文字識別,而係更聰明嘅信息壓縮。

透過將文字「視覺化」儲存,DeepSeek OCR 解決咗 LLM 時代嘅核心矛盾:我哋需要處理越嚟越多嘅信息,但 tokens 成本同記憶體限制越嚟越緊。

對於 AI 從業者同產品構建者,呢個係一個重要提醒:未來嘅 AI 系統唔係單純追求「更多信息」,而係「更有效嘅信息表示」。

無論你係建立 EdTech 平台、企業文檔管理系統,定係任何需要處理大量文本嘅應用,DeepSeek OCR 嘅「contexts optical compression」理念都值得深入研究。

視覺 tokens 可能係下一個十年 multimodal AI 嘅關鍵。

資源

  • 📄 論文:DeepSeek-OCR: Contexts Optical Compression
  • 💻 代碼:GitHub Repository
  • 🔧 vLLM 支持:Official vLLM Integration
  • 🤗 模型:Hugging Face Model

呢篇文章探討 DeepSeek OCR 開創嘅 contexts optical compression 範式,同佢對 LLM 長文本處理嘅革命性影響。如果想更深入了解視覺編碼器設計同壓縮機制嘅技術細節,可以睇下完整論文。

Back to all articles
目錄