Introduction
如果我話你知,AI 可以將一份長文檔「壓縮」成幾百個視覺 tokens,而唔係處理成千上萬個文字 tokens,你信唔信?DeepSeek OCR 喺 2025 年 10 月發布,開創咗一個全新嘅範式:Contexts Optical Compression(語境光學壓縮)。
呢個唔係你認識嘅傳統 OCR。DeepSeek OCR 唔只係將圖像入面嘅文字識別出嚟——佢將文字反向轉換成視覺表示,去解決 LLM 最頭痛嘅問題:超長文本處理。[1]
想像吓:一份 10,000 個文字 tokens 嘅文件,可以壓縮成只係 1,000 個視覺 tokens,同時保持 97% 嘅重建精度。呢個就係 DeepSeek OCR 帶嚟嘅革命。
傳統 OCR 同 DeepSeek OCR 嘅根本分別
傳統 OCR 係咩?
傳統 OCR 工具(好似 Tesseract、ABBYY FineReader、PaddleOCR)做緊一樣嘢:
從圖像提取文字 → 逐字逐句識別 → 輸出文字字串
呢個流程:
- 依賴模式匹配同文字分割
- 逐個字符、逐行處理
- 擅長處理簡單、乾淨嘅文件(表格、單欄文字)
- 喺複雜佈局、表格、混合媒體內容上表現欠佳[2]
傳統 OCR 嘅輸出係純文字——失去咗所有視覺結構信息。
DeepSeek OCR 係咩?
DeepSeek OCR 做緊完全相反嘅嘢:
將文字轉換成視覺表示 → 壓縮成視覺 tokens → LLM 直接理解視覺 tokens
呢個係一個反向 OCR 範式:[3]
- 唔係提取文字,而係保留視覺表示
- 唔係增加 tokens,而係壓縮 tokens
- 唔係失去佈局,而係保留結構信息
| 特性 | 傳統 OCR | DeepSeek OCR |
|---|---|---|
| 目標 | 提取文字字符 | 壓縮語境成視覺 tokens |
| 處理方式 | 逐字逐行掃描 | 整體視覺信號處理 |
| 輸出格式 | 純文字字串 | 視覺 tokens(可重建) |
| 佈局信息 | ❌ 失去 | ✅ 保留 |
| 壓縮比率 | N/A | 10-20× 壓縮 |
| 主要用途 | 文字提取、數據錄入 | 長文本處理、語境壓縮 |
💡 關鍵洞察:DeepSeek OCR 唔係「讀圖」嘅工具,而係將文字「視覺化」嘅壓縮器。佢解決嘅係 LLM 嘅 token 效率問題,唔係文字識別問題。
點解需要 Contexts Optical Compression?
LLM 嘅長文本困境
現代 LLM 面對一個根本問題:文字 tokens 太多,成本太高。
假設你想處理一份 100 頁嘅法律文件:
- 傳統方法:OCR 提取文字 → 100,000+ 文字 tokens → 餵入 LLM
- 成本:巨大嘅記憶體、運算資源、推理時間
- 限制:好多 LLM 嘅 context window 根本唔夠大
DeepSeek OCR 提出咗一個激進嘅想法:
如果將文字轉返做圖像,用視覺 tokens 代替文字 tokens,會唔會更高效?
答案係:會![1]
壓縮比率同精度
DeepSeek OCR 嘅實驗結果顯示:
| 壓縮比率 | 視覺 tokens : 文字 tokens | OCR 重建精度 | 適用場景 |
|---|---|---|---|
| < 10× | 1 : 10 | 97%+ | 高精度文件處理 |
| 10-12× | 1 : 10-12 | ~90% | 一般文件理解 |
| ~20× | 1 : 20 | ~60% | 粗略語境記憶 |
實際意義:
- 一份 10,000 文字 tokens 嘅文件
- 可以壓縮成 1,000 個視覺 tokens(10× 壓縮)
- 重建精度仍然有 97%!
呢個對長文本對話、文檔檢索、歷史語境管理係革命性嘅。[3]
DeepSeek OCR 嘅架構設計
統一 End-to-End VLM 架構
DeepSeek OCR 由兩個核心組件組成:[1]
1. DeepEncoder(視覺編碼器)
參數量:約 380M
- 80M SAM-base:擅長局部字形細節
- 300M CLIP-large:擅長全局佈局理解
- 兩者串聯,結合局部同全局特徵
功能:
- 提取圖像特徵
- Tokenize 視覺表示
- 壓縮成高效視覺 tokens
💡 重要:DeepSeek OCR 係 vision-only 架構。佢唔會將普通文字轉換成圖像再處理,而係直接處理已經係圖像格式嘅文檔(PDF、掃描件、文件相片等)。
2. DeepSeek3B-MoE-A570M(語言解碼器)
架構:3B Mixture-of-Experts (MoE)
激活參數:570M(實際運行時)
功能:
- 基於視覺 tokens 同 prompts 生成結果
- 支持 OCR 重建、文檔理解、問答
- 唔包含 text encoder(唔處理純文字輸入)
文檔圖像
↓
[DeepEncoder]
├─ SAM-base (80M) → 局部字形特徵
└─ CLIP-large (300M) → 全局佈局特徵
↓
視覺 Tokens(壓縮 10-20×)
↓
[DeepSeek3B-MoE Decoder]
↓
重建文字 / 文檔理解
LLM-Centric 設計理念
DeepSeek OCR 嘅核心創新係:從 LLM 中心視角重新思考視覺編碼器嘅角色。[1]
傳統 VLM 嘅做法:
- 視覺編碼器盡可能提取細緻信息
- 輸出大量視覺 tokens
- LLM 被動接收
DeepSeek OCR 嘅做法:
- 視覺編碼器主動壓縮
- 輸出最少但最有用嘅視覺 tokens
- LLM 係設計嘅核心
💡 設計哲學:唔係「睇得越多越好」,而係「壓縮得越精準越好」。
實際表現:Benchmark 結果
OmniDocBench 評測
DeepSeek OCR 喺多種文件類型上嘅 NED(Normalized Edit Distance,越低越好):[1]
| 文件類型 | Tiny | Small | Base | Large | Gundam |
|---|---|---|---|---|---|
| 書籍 | 0.147 | 0.085 | 0.037 | 0.038 | 0.035 |
| 幻燈片 | 0.116 | 0.111 | 0.080 | 0.108 | 0.085 |
| 財務報告 | 0.207 | 0.079 | 0.027 | 0.022 | 0.289 |
| 教科書 | 0.173 | 0.147 | 0.100 | 0.084 | 0.095 |
| 考試卷 | 0.294 | 0.171 | 0.130 | 0.109 | 0.094 |
| 學術論文 | 0.395 | 0.131 | 0.052 | 0.053 | 0.039 |
| 手寫筆記 | 0.297 | 0.187 | 0.176 | 0.155 | 0.153 |
模型變體解釋:
- Tiny/Small:低分辨率、快速處理
- Base:平衡精度同速度
- Large/Gundam:高保真度,複雜佈局
生產規模效能
硬件要求:單個 Nvidia A100-40G GPU
處理能力:約 200,000 頁/天[3]
實際應用場景:
- 大規模文檔數字化
- 歷史檔案處理
- 法律文件管理
- 金融報告分析
革命性應用:視覺記憶遺忘機制
模擬人類記憶
DeepSeek OCR 提出咗一個好有趣嘅概念:視覺遺忘(Visual Forgetting)。[3]
人類記憶嘅特點:
- 最近嘅信息保持清晰細緻
- 舊有嘅信息逐漸模糊、只保留重點
- 唔重要嘅細節自然遺忘
DeepSeek OCR 可以實現類似機制:
對話歷史:
最近 5 輪對話
→ 高分辨率視覺 tokens(清晰細緻)
→ 壓縮比率:5×
10-20 輪之前對話
→ 中分辨率視覺 tokens(保留重點)
→ 壓縮比率:15×
50 輪之前對話
→ 低分辨率視覺 tokens(模糊印象)
→ 壓縮比率:30×
效果:
- 舊對話唔會完全消失,而係「模糊化」
- 重要信息仍然保留(視覺結構、關鍵詞)
- 極大減少記憶體消耗
理論上無限語境
透過動態調整壓縮比率,DeepSeek OCR 可能實現:
- 百萬級 token context window
- 唔會線性增長嘅成本
- 保留文檔佈局同結構
呢個對於需要超長語境嘅應用(法律研究、醫療記錄、科學文獻回顧)係遊戲規則改變者。
呢個對於需要超長語境嘅應用(法律研究、醫療記錄、科學文獻回顧)係遊戲規則改變者。
實際應用:選擇性語境壓縮
重要:DeepSeek OCR 唔係用嚟壓縮所有語境,而係做選擇性壓縮。
實際使用模式:
LLM Context Window:
┌─────────────────────────────────┐
│ 當前對話 (text tokens) │ ← 保持原樣,全保真
│ - 最近 3-5 輪對話 │
│ - 用戶當前問題 │
├─────────────────────────────────┤
│ 文檔壓縮區 (visual tokens, 10×) │ ← DeepSeek OCR
│ - PDF 文檔 (已經係圖像格式) │
│ - 掃描文件 │
│ - 歷史會議記錄截圖 │
├─────────────────────────────────┤
│ 歷史歸檔 (visual tokens, 20-30×)│ ← 更高壓縮
│ - 數月前嘅參考資料 │
│ - 低頻存取文檔 │
└─────────────────────────────────┘
典型場景:分析 100 頁 PDF
唔用 DeepSeek OCR:
PDF → 傳統 OCR → 100,000 文字 tokens → LLM
❌ 問題:超出 context window 或成本極高
用 DeepSeek OCR:
PDF 圖像 → DeepSeek OCR → 10,000 視覺 tokens → LLM
✅ 優勢:10× 壓縮,保留佈局,可處理
混合策略:
對話記憶管理:
最近 5 輪:text tokens (高保真)
PDF 參考文檔:visual tokens 10× (DeepSeek OCR)
舊對話記錄:visual tokens 20× (低分辨率)
總 tokens:5,000 (text) + 10,000 (visual) = 15,000
vs. 全文字:5,000 + 100,000 = 105,000 ❌
點解唔壓縮所有嘢?
Text tokens 適合:
- 當前對話、即時交互
- 需要精確引用同編輯嘅內容
- 結構化數據(JSON、代碼)
Visual tokens 適合:
- 已經係圖像格式嘅文檔
- 需要保留視覺結構(表格、公式、圖表)
- 大量歷史文檔參考
DeepSeek OCR 嘅核心價值:將「已經係圖像」嘅內容高效壓縮,而唔係將所有文字轉圖像。
對 EdTech 同文檔處理嘅應用
DeepSeek OCR 對教育科技同文檔管理開啟咗新可能性:
1. 大規模課本數字化
場景:處理成千上萬頁教科書、參考書
傳統方法問題:
- OCR 提取文字 → 失去數學公式、圖表結構
- Token 成本高昂
- 難以保留原書排版
DeepSeek OCR 方案:
- 直接用視覺 tokens 儲存課本內容
- 10× 壓縮:1,000 頁書 = 原本 1/10 嘅 tokens
- 保留所有數學公式、圖表、佈局
2. 學生筆記理解
挑戰:手寫筆記、混合文字圖像、非標準佈局
優勢:
- DeepSeek OCR 喺手寫筆記上表現出色(NED < 0.176)
- 理解筆記嘅視覺結構(標題、重點、箭頭)
- 可以「記住」學生嘅筆記風格
3. 考試卷數字化同分析
應用:
- 快速數字化大量考卷(200k 頁/天)
- 保留題目佈局同學生答案結構
- 支持光學標記識別(OMR)功能
4. 歷史課程資料管理
場景:數年累積嘅課程材料、講義、作業
視覺遺忘機制應用:
- 本學期資料:高分辨率保留
- 上學期資料:中等壓縮
- 歷史資料:低分辨率「歸檔」
- 隨時可以「喚醒」舊資料
DeepSeek OCR vs 傳統 Document AI Pipeline
傳統 Pipeline
文檔圖像
↓ OCR (Tesseract/PaddleOCR)
純文字
↓ Layout Analysis
結構化文字 + 佈局標註
↓ Embedding
文字 Embeddings
↓ Vector DB
儲存 + 檢索
↓ LLM
生成答案
問題:
- 多個步驟、多次轉換
- OCR 階段失去視覺信息
- Layout analysis 可能唔準確
- Token 數量龐大
DeepSeek OCR Pipeline
文檔圖像
↓ DeepEncoder
視覺 Tokens(壓縮 10×)
↓ 直接儲存
視覺 Token 向量
↓ DeepSeek Decoder
理解 + 生成答案
優勢:
- 端到端:一個模型搞掂
- 保留視覺:公式、圖表、佈局完整
- 高效壓縮:10-20× 減少 tokens
- 可重建:隨時 decode 返純文字
技術深入:點樣選擇分辨率模式?
DeepSeek OCR 提供多種分辨率模式,需要根據文檔複雜度選擇:[6]
| 模式 | 適用文件 | 精度 | 速度 | GPU 記憶體 |
|---|---|---|---|---|
| Tiny | 簡單發票、表格 | 低 | 最快 | 最少 |
| Small | 一般商業文件 | 中等 | 快 | 少 |
| Base | 學術論文、報告 | 高 | 平衡 | 中等 |
| Large | 複雜佈局、多欄 | 非常高 | 慢 | 高 |
| Gundam | 高保真需求、科學文獻 | 最高 | 最慢 | 最高 |
實踐建議:
- 從 Base 模式開始測試
- 如果精度唔夠,升級到 Large 或 Gundam
- 如果速度太慢,降級到 Small
- 監察 GPU 記憶體使用,避免 OOM
限制同挑戰
當前限制
- 唔係萬能 OCR
- 主要目標係壓縮,唔係提取
- 如果只係需要純文字,傳統 OCR 可能更直接
- 需要 GPU 資源
- A100-40G 先可以達到最佳效能
- 對小型應用可能成本較高
- 壓縮 Trade-off
- 高壓縮比率會損失精度
- 需要根據應用場景平衡
- 模型大小
- 3B 參數(570M 激活)仍然唔算細
- 邊緣設備部署有挑戰
未來改進方向
- 更高壓縮比率 同時保持精度
- 更細模型 支持邊緣部署
- 多語言優化(特別係中文、粵語)
- 實時處理 能力提升
你需要知道嘅嘢
底線
DeepSeek OCR 唔係傳統意義上嘅 OCR——佢係一個 語境光學壓縮器,用視覺 tokens 代替文字 tokens 去解決 LLM 嘅長文本問題。
核心優勢:
✅ 10-20× 壓縮比率,同時保持高精度
✅ 保留視覺結構:公式、圖表、佈局完整
✅ 端到端架構:一個模型搞掂提取同理解
✅ 生產規模效能:200k 頁/天(單 GPU)
✅ 視覺遺忘機制:模擬人類記憶,支持超長語境
範式轉變
舊思維:圖像 → OCR → 文字 → LLM
新思維:圖像 → 壓縮 → 視覺 tokens → LLM
DeepSeek OCR 證明咗:有時候「返返去視覺」比「提取文字」更高效。
邊個應該用 DeepSeek OCR?
適合:
- 需要處理大量文檔嘅企業
- 長對話歷史管理
- 需要保留文檔結構嘅應用
- 記憶體預算有限嘅系統
唔適合:
- 只需要簡單文字提取
- 實時低延遲要求
- 冇 GPU 資源嘅場景
Conclusion
DeepSeek OCR 代表咗文檔 AI 嘅一個新方向:唔係更好嘅文字識別,而係更聰明嘅信息壓縮。
透過將文字「視覺化」儲存,DeepSeek OCR 解決咗 LLM 時代嘅核心矛盾:我哋需要處理越嚟越多嘅信息,但 tokens 成本同記憶體限制越嚟越緊。
對於 AI 從業者同產品構建者,呢個係一個重要提醒:未來嘅 AI 系統唔係單純追求「更多信息」,而係「更有效嘅信息表示」。
無論你係建立 EdTech 平台、企業文檔管理系統,定係任何需要處理大量文本嘅應用,DeepSeek OCR 嘅「contexts optical compression」理念都值得深入研究。
視覺 tokens 可能係下一個十年 multimodal AI 嘅關鍵。
資源
- 📄 論文:DeepSeek-OCR: Contexts Optical Compression
- 💻 代碼:GitHub Repository
- 🔧 vLLM 支持:Official vLLM Integration
- 🤗 模型:Hugging Face Model
呢篇文章探討 DeepSeek OCR 開創嘅 contexts optical compression 範式,同佢對 LLM 長文本處理嘅革命性影響。如果想更深入了解視覺編碼器設計同壓縮機制嘅技術細節,可以睇下完整論文。