Introduction

如果我話你知，AI 可以將一份長文檔「壓縮」成幾百個視覺 tokens，而唔係處理成千上萬個文字 tokens，你信唔信？DeepSeek OCR 喺 2025 年 10 月發布，開創咗一個全新嘅範式：Contexts Optical Compression（語境光學壓縮）。

呢個唔係你認識嘅傳統 OCR。DeepSeek OCR 唔只係將圖像入面嘅文字識別出嚟——佢將文字反向轉換成視覺表示，去解決 LLM 最頭痛嘅問題：超長文本處理。[1]

想像吓：一份 10,000 個文字 tokens 嘅文件，可以壓縮成只係 1,000 個視覺 tokens，同時保持 97% 嘅重建精度。呢個就係 DeepSeek OCR 帶嚟嘅革命。

傳統 OCR 同 DeepSeek OCR 嘅根本分別

傳統 OCR 係咩？

傳統 OCR 工具（好似 Tesseract、ABBYY FineReader、PaddleOCR）做緊一樣嘢：

從圖像提取文字 → 逐字逐句識別 → 輸出文字字串

呢個流程：

依賴模式匹配同文字分割
逐個字符、逐行處理
擅長處理簡單、乾淨嘅文件（表格、單欄文字）
喺複雜佈局、表格、混合媒體內容上表現欠佳[2]

傳統 OCR 嘅輸出係純文字——失去咗所有視覺結構信息。

DeepSeek OCR 係咩？

DeepSeek OCR 做緊完全相反嘅嘢：

將文字轉換成視覺表示 → 壓縮成視覺 tokens → LLM 直接理解視覺 tokens

呢個係一個反向 OCR 範式：[3]

唔係提取文字，而係保留視覺表示
唔係增加 tokens，而係壓縮 tokens
唔係失去佈局，而係保留結構信息

特性	傳統 OCR	DeepSeek OCR
目標	提取文字字符	壓縮語境成視覺 tokens
處理方式	逐字逐行掃描	整體視覺信號處理
輸出格式	純文字字串	視覺 tokens（可重建）
佈局信息	❌ 失去	✅ 保留
壓縮比率	N/A	10-20× 壓縮
主要用途	文字提取、數據錄入	長文本處理、語境壓縮

💡 關鍵洞察：DeepSeek OCR 唔係「讀圖」嘅工具，而係將文字「視覺化」嘅壓縮器。佢解決嘅係 LLM 嘅 token 效率問題，唔係文字識別問題。

點解需要 Contexts Optical Compression？

LLM 嘅長文本困境

現代 LLM 面對一個根本問題：文字 tokens 太多，成本太高。

假設你想處理一份 100 頁嘅法律文件：

傳統方法：OCR 提取文字 → 100,000+ 文字 tokens → 餵入 LLM
成本：巨大嘅記憶體、運算資源、推理時間
限制：好多 LLM 嘅 context window 根本唔夠大

DeepSeek OCR 提出咗一個激進嘅想法：

如果將文字轉返做圖像，用視覺 tokens 代替文字 tokens，會唔會更高效？

答案係：會！[1]

壓縮比率同精度

DeepSeek OCR 嘅實驗結果顯示：

壓縮比率	視覺 tokens : 文字 tokens	OCR 重建精度	適用場景
< 10×	1 : 10	97%+	高精度文件處理
10-12×	1 : 10-12	~90%	一般文件理解
~20×	1 : 20	~60%	粗略語境記憶

實際意義：

一份 10,000 文字 tokens 嘅文件
可以壓縮成 1,000 個視覺 tokens（10× 壓縮）
重建精度仍然有 97%！

呢個對長文本對話、文檔檢索、歷史語境管理係革命性嘅。[3]

DeepSeek OCR 嘅架構設計

統一 End-to-End VLM 架構

DeepSeek OCR 由兩個核心組件組成：[1]

1. DeepEncoder（視覺編碼器）

參數量：約 380M

80M SAM-base：擅長局部字形細節
300M CLIP-large：擅長全局佈局理解
兩者串聯，結合局部同全局特徵

功能：

提取圖像特徵
Tokenize 視覺表示
壓縮成高效視覺 tokens

💡 重要：DeepSeek OCR 係 vision-only 架構。佢唔會將普通文字轉換成圖像再處理，而係直接處理已經係圖像格式嘅文檔（PDF、掃描件、文件相片等）。

2. DeepSeek3B-MoE-A570M（語言解碼器）

架構：3B Mixture-of-Experts (MoE)

激活參數：570M（實際運行時）

功能：

基於視覺 tokens 同 prompts 生成結果
支持 OCR 重建、文檔理解、問答
唔包含 text encoder（唔處理純文字輸入）

javascript文檔圖像
    ↓
[DeepEncoder]
    ├─ SAM-base (80M) → 局部字形特徵
    └─ CLIP-large (300M) → 全局佈局特徵
    ↓
視覺 Tokens（壓縮 10-20×）
    ↓
[DeepSeek3B-MoE Decoder]
    ↓
重建文字 / 文檔理解

LLM-Centric 設計理念

DeepSeek OCR 嘅核心創新係：從 LLM 中心視角重新思考視覺編碼器嘅角色。[1]

傳統 VLM 嘅做法：

視覺編碼器盡可能提取細緻信息
輸出大量視覺 tokens
LLM 被動接收

DeepSeek OCR 嘅做法：

視覺編碼器主動壓縮
輸出最少但最有用嘅視覺 tokens
LLM 係設計嘅核心

💡 設計哲學：唔係「睇得越多越好」，而係「壓縮得越精準越好」。

實際表現：Benchmark 結果

OmniDocBench 評測

DeepSeek OCR 喺多種文件類型上嘅 NED（Normalized Edit Distance，越低越好）：[1]

文件類型	Tiny	Small	Base	Large	Gundam
書籍	0.147	0.085	0.037	0.038	0.035
幻燈片	0.116	0.111	0.080	0.108	0.085
財務報告	0.207	0.079	0.027	0.022	0.289
教科書	0.173	0.147	0.100	0.084	0.095
考試卷	0.294	0.171	0.130	0.109	0.094
學術論文	0.395	0.131	0.052	0.053	0.039
手寫筆記	0.297	0.187	0.176	0.155	0.153

模型變體解釋：

Tiny/Small：低分辨率、快速處理
Base：平衡精度同速度
Large/Gundam：高保真度，複雜佈局

生產規模效能

硬件要求：單個 Nvidia A100-40G GPU

處理能力：約 200,000 頁/天[3]

實際應用場景：

大規模文檔數字化
歷史檔案處理
法律文件管理
金融報告分析

革命性應用：視覺記憶遺忘機制

模擬人類記憶

DeepSeek OCR 提出咗一個好有趣嘅概念：視覺遺忘（Visual Forgetting）。[3]

人類記憶嘅特點：

最近嘅信息保持清晰細緻
舊有嘅信息逐漸模糊、只保留重點
唔重要嘅細節自然遺忘

DeepSeek OCR 可以實現類似機制：

javascript對話歷史：
  最近 5 輪對話
    → 高分辨率視覺 tokens（清晰細緻）
    → 壓縮比率：5×
  
  10-20 輪之前對話
    → 中分辨率視覺 tokens（保留重點）
    → 壓縮比率：15×
  
  50 輪之前對話
    → 低分辨率視覺 tokens（模糊印象）
    → 壓縮比率：30×

效果：

舊對話唔會完全消失，而係「模糊化」
重要信息仍然保留（視覺結構、關鍵詞）
極大減少記憶體消耗

理論上無限語境

透過動態調整壓縮比率，DeepSeek OCR 可能實現：

百萬級 token context window
唔會線性增長嘅成本
保留文檔佈局同結構

呢個對於需要超長語境嘅應用（法律研究、醫療記錄、科學文獻回顧）係遊戲規則改變者。

實際應用：選擇性語境壓縮

重要：DeepSeek OCR 唔係用嚟壓縮所有語境，而係做選擇性壓縮。

實際使用模式：

javascriptLLM Context Window:
  ┌─────────────────────────────────┐
  │ 當前對話 (text tokens)           │ ← 保持原樣，全保真
  │ - 最近 3-5 輪對話                │
  │ - 用戶當前問題                   │
  ├─────────────────────────────────┤
  │ 文檔壓縮區 (visual tokens, 10×) │ ← DeepSeek OCR
  │ - PDF 文檔 (已經係圖像格式)      │
  │ - 掃描文件                       │
  │ - 歷史會議記錄截圖               │
  ├─────────────────────────────────┤
  │ 歷史歸檔 (visual tokens, 20-30×)│ ← 更高壓縮
  │ - 數月前嘅參考資料               │
  │ - 低頻存取文檔                   │
  └─────────────────────────────────┘

典型場景：分析 100 頁 PDF

唔用 DeepSeek OCR：

javascriptPDF → 傳統 OCR → 100,000 文字 tokens → LLM
❌ 問題：超出 context window 或成本極高

用 DeepSeek OCR：

javascriptPDF 圖像 → DeepSeek OCR → 10,000 視覺 tokens → LLM
✅ 優勢：10× 壓縮，保留佈局，可處理

混合策略：

javascript對話記憶管理：
  最近 5 輪：text tokens (高保真)
  PDF 參考文檔：visual tokens 10× (DeepSeek OCR)
  舊對話記錄：visual tokens 20× (低分辨率)
  
總 tokens：5,000 (text) + 10,000 (visual) = 15,000
vs. 全文字：5,000 + 100,000 = 105,000 ❌

點解唔壓縮所有嘢？

Text tokens 適合：

當前對話、即時交互
需要精確引用同編輯嘅內容
結構化數據（JSON、代碼）

Visual tokens 適合：

已經係圖像格式嘅文檔
需要保留視覺結構（表格、公式、圖表）
大量歷史文檔參考

DeepSeek OCR 嘅核心價值：將「已經係圖像」嘅內容高效壓縮，而唔係將所有文字轉圖像。

對 EdTech 同文檔處理嘅應用

DeepSeek OCR 對教育科技同文檔管理開啟咗新可能性：

1. 大規模課本數字化

場景：處理成千上萬頁教科書、參考書

傳統方法問題：

OCR 提取文字 → 失去數學公式、圖表結構
Token 成本高昂
難以保留原書排版

DeepSeek OCR 方案：

直接用視覺 tokens 儲存課本內容
10× 壓縮：1,000 頁書 = 原本 1/10 嘅 tokens
保留所有數學公式、圖表、佈局

2. 學生筆記理解

挑戰：手寫筆記、混合文字圖像、非標準佈局

優勢：

DeepSeek OCR 喺手寫筆記上表現出色（NED < 0.176）
理解筆記嘅視覺結構（標題、重點、箭頭）
可以「記住」學生嘅筆記風格

3. 考試卷數字化同分析

應用：

快速數字化大量考卷（200k 頁/天）
保留題目佈局同學生答案結構
支持光學標記識別（OMR）功能

4. 歷史課程資料管理

場景：數年累積嘅課程材料、講義、作業

視覺遺忘機制應用：

本學期資料：高分辨率保留
上學期資料：中等壓縮
歷史資料：低分辨率「歸檔」
隨時可以「喚醒」舊資料

DeepSeek OCR vs 傳統 Document AI Pipeline

傳統 Pipeline

javascript文檔圖像
  ↓ OCR (Tesseract/PaddleOCR)
純文字
  ↓ Layout Analysis
結構化文字 + 佈局標註
  ↓ Embedding
文字 Embeddings
  ↓ Vector DB
儲存 + 檢索
  ↓ LLM
生成答案

問題：

多個步驟、多次轉換
OCR 階段失去視覺信息
Layout analysis 可能唔準確
Token 數量龐大

DeepSeek OCR Pipeline

javascript文檔圖像
  ↓ DeepEncoder
視覺 Tokens（壓縮 10×）
  ↓ 直接儲存
視覺 Token 向量
  ↓ DeepSeek Decoder
理解 + 生成答案

優勢：

端到端：一個模型搞掂
保留視覺：公式、圖表、佈局完整
高效壓縮：10-20× 減少 tokens
可重建：隨時 decode 返純文字

技術深入：點樣選擇分辨率模式？

DeepSeek OCR 提供多種分辨率模式，需要根據文檔複雜度選擇：[6]

模式	適用文件	精度	速度	GPU 記憶體
Tiny	簡單發票、表格	低	最快	最少
Small	一般商業文件	中等	快	少
Base	學術論文、報告	高	平衡	中等
Large	複雜佈局、多欄	非常高	慢	高
Gundam	高保真需求、科學文獻	最高	最慢	最高

實踐建議：

從 Base 模式開始測試
如果精度唔夠，升級到 Large 或 Gundam
如果速度太慢，降級到 Small
監察 GPU 記憶體使用，避免 OOM

限制同挑戰

當前限制

唔係萬能 OCR
- 主要目標係壓縮，唔係提取
- 如果只係需要純文字，傳統 OCR 可能更直接
需要 GPU 資源
- A100-40G 先可以達到最佳效能
- 對小型應用可能成本較高
壓縮 Trade-off
- 高壓縮比率會損失精度
- 需要根據應用場景平衡
模型大小
- 3B 參數（570M 激活）仍然唔算細
- 邊緣設備部署有挑戰

未來改進方向

更高壓縮比率 同時保持精度
更細模型 支持邊緣部署
多語言優化（特別係中文、粵語）
實時處理 能力提升

你需要知道嘅嘢

底線

DeepSeek OCR 唔係傳統意義上嘅 OCR——佢係一個 語境光學壓縮器，用視覺 tokens 代替文字 tokens 去解決 LLM 嘅長文本問題。

核心優勢：

✅ 10-20× 壓縮比率，同時保持高精度

✅ 保留視覺結構：公式、圖表、佈局完整

✅ 端到端架構：一個模型搞掂提取同理解

✅ 生產規模效能：200k 頁/天（單 GPU）

✅ 視覺遺忘機制：模擬人類記憶，支持超長語境

範式轉變

舊思維：圖像 → OCR → 文字 → LLM

新思維：圖像 → 壓縮 → 視覺 tokens → LLM

DeepSeek OCR 證明咗：有時候「返返去視覺」比「提取文字」更高效。

邊個應該用 DeepSeek OCR？

適合：

需要處理大量文檔嘅企業
長對話歷史管理
需要保留文檔結構嘅應用
記憶體預算有限嘅系統

唔適合：

只需要簡單文字提取
實時低延遲要求
冇 GPU 資源嘅場景

Conclusion

DeepSeek OCR 代表咗文檔 AI 嘅一個新方向：唔係更好嘅文字識別，而係更聰明嘅信息壓縮。

透過將文字「視覺化」儲存，DeepSeek OCR 解決咗 LLM 時代嘅核心矛盾：我哋需要處理越嚟越多嘅信息，但 tokens 成本同記憶體限制越嚟越緊。

對於 AI 從業者同產品構建者，呢個係一個重要提醒：未來嘅 AI 系統唔係單純追求「更多信息」，而係「更有效嘅信息表示」。

無論你係建立 EdTech 平台、企業文檔管理系統，定係任何需要處理大量文本嘅應用，DeepSeek OCR 嘅「contexts optical compression」理念都值得深入研究。

視覺 tokens 可能係下一個十年 multimodal AI 嘅關鍵。

資源

📄 論文：DeepSeek-OCR: Contexts Optical Compression
💻 代碼：GitHub Repository
🔧 vLLM 支持：Official vLLM Integration
🤗 模型：Hugging Face Model

呢篇文章探討 DeepSeek OCR 開創嘅 contexts optical compression 範式，同佢對 LLM 長文本處理嘅革命性影響。如果想更深入了解視覺編碼器設計同壓縮機制嘅技術細節，可以睇下完整論文。