新闻 发表于 2025-10-31 14:12

AI的“JPEG时刻”?DeepSeek-OCR:3B小模型颠覆长文本处理,AI迎来“视觉压缩革命”

作者:微信文章
DeepSeek 又一次在科技圈掀起了巨浪!他们最新开源的模型 —— DeepSeek-OCR,一经发布就迅速引爆外网,火速登上 X 热搜榜。短短不到一天,GitHub 的 Star 数就突破了 4300,而且还在飙升中,吸引了全球开发者的关注。这个模型虽名为 OCR,但远不止传统的文字识别,它代表的是 DeepSeek 对大模型长文本处理瓶颈的全新破解方式。



网友们已经夸疯了。







这个模型体量仅 3B,却带来了堪称“指数级”的算力效率革命。它的核心理念简单直接:用图像压缩文字。这就像我们看书时不是逐字阅读,而是一眼扫过去就大致掌握内容。换句话说,他们验证了一种新的路径 —— 以视觉作为压缩文本的媒介。一张图所承载的信息量巨大,使用的 token 却更少,这大大提升了处理效率。更惊艳的是实际效果。在压缩比小于10倍的情况下,模型的识别准确率高达 97%;即使压缩到20倍,仍有 60% 的准确率,表现依旧可圈可点。而生成这些训练数据也无需重金堆算力,仅靠一块 A100-40G 的 GPU,每天就能生成 20万页高质量数据,真正做到了以小博大。此举不仅让 GitHub 星标暴涨至 3.3k、HuggingFace 排名蹿升至热榜第二,也引来了硅谷技术大咖们的集体点赞。有人称它是 “AI 的 JPEG 时刻”,还有人直接评价这是“图像输入更适合 LLM 的完美注解”。

DeepSeek-OCR 是一个从大模型出发,反向探索视觉编码器潜力的创新尝试,核心方向是——用图像来压缩文本上下文。实验结果已经充分证明这种路径是可行的:当压缩比例在10倍以内时,模型的解码精度接近 97%,几乎没有损失;哪怕压缩比提升至20倍,准确率仍维持在 60% 左右,依然具备实际使用价值。

更重要的是,同样的文本信息,视觉token数量更少却表达能力相近,这为LLM在超长文档任务中的上下文压缩提供了新的方向。性能评估方面,DeepSeek-OCR 在 OmniDocBench 基准测试中的表现也极为亮眼:只需 100 个视觉token,就超越了 GOT-OCR2.0(每页需256个token);token用量不到 800 个 的情况下,整体能力已优于 MinerU2.0(平均每页近 7000 个 token),展现了显著的效率优势。

落地能力同样不容小觑:在实际应用中,只用一块A100-40G GPU,每日可自动生成超过20万页高质量训练样本,极大加速了文档理解和多模态大模型训练的进程。目前,这款模型已经在 Hugging Face 正式开源,技术报告也同步释出,详细阐述了其方法论框架与设计逻辑。团队表示,这项工作是对“视觉模态压缩文本信息”这一方向的初步探索,未来还有进一步拓展的空间。此外,此次研究团队成员精简,仅有三位作者:Haoran Wei、Yaofeng Sun 与 Yukun Li。值得注意的是,Haoran Wei 也是去年阶跃星辰发布的 GOT-OCR2.0 的第一作者,可见 DeepSeek-OCR 延续了其在视觉文本建模领域的研究积淀。


01

光学压缩:少量视觉 token,重构千字文本?
近年来,大模型的上下文长度不断被拉长,从最初的 4K 到 128K,甚至突破百万 token,但这背后是指数级上涨的计算成本和显存消耗。DeepSeek-OCR 的提出,则打破了这个“靠堆token换效果”的逻辑。团队认为,文字本质上是一种高度冗余的信息形式,而一张文档图像可以用远少于等效文本 token 的视觉 token,承载同样甚至更丰富的语义内容。正是基于这一假设,DeepSeek 团队抛出了一个关键问题:要准确解码一份包含约1000词的文档,究竟需要多少个视觉 token? 这个问题背后,是对“图像是否真能胜于千言万语”的深入探索。为验证这一假设,他们构建了 DeepSeek-OCR 系统,通过将原始文本转换为图像,再以视觉形式压缩 token,最终由语言模型解码还原内容。这种“光学化处理”的方式,不仅提升了信息承载效率,也为长文本处理提供了新的计算范式。双模架构:图像理解 + 文本生成DeepSeek-OCR 整体架构分为两部分:DeepEncoder:专为文档处理设计的视觉编码器DeepSeek3B-MoE:轻量化混合专家解码模型

DeepEncoder:压缩极限再突破DeepEncoder 融合了 SAM 与 CLIP 的结构设计,结合局部窗口注意力与全局感知能力,既保留高分辨率细节,又显著降低了 token 数量。其内部还配备了一个 16× 双层卷积压缩模块,进一步精简视觉 token。举个例子:输入一张分辨率为 1024×1024 的图像时,传统视觉模型通常会生成多达 4096 个 token,而 DeepEncoder 可将其压缩至 仅 256 个 token,大幅减少激活内存开销。此外,它提供了多档“图像压缩等级”:Tiny 模式(64 token):轻量快速,适合简单内容;Gundam 模式(795 token):近乎无损,适配高密度复杂文档。研究团队也展示了各压缩等级下的可读性差异:Tiny 模式下虽然略显模糊,但仍可识别主要内容;Gundam 模式下几乎与原图一致,肉眼几乎无法分辨差异。

实际使用中,普通文档或幻灯片仅需 约100个视觉 token 即可精准识别;而科学论文、报纸等密集文本场景,则推荐使用高保真模式确保还原质量。DeepSeek3B-MoE:只激活需要的专家作为解码端,DeepSeek3B-MoE 采用“按需激活”策略,每次推理只调用6个专家模块,总激活参数仅为 5.7亿,既提升了解码效率,又避免了算力浪费,尤其适用于图文混排的 OCR 场景或生成任务。数据引擎:多类型训练支撑全能力解码为支持这一系统的泛化能力,DeepSeek 构建了大规模多模态训练数据引擎,覆盖以下四类:OCR 1.0:涵盖 3000 万页来自多语言环境和真实场景的文档图像OCR 2.0:专攻结构化图表、化学公式、几何图形等复杂视觉内容通用视觉数据:提升基础视觉理解能力纯文本数据:维持语言生成的连贯性与上下文捕捉能力借助这一多元数据体系,DeepSeek-OCR 不仅具备基本的文字识别能力,还能解析图表、解读复杂符号、理解图文混排文档,为文档 AI 理解任务打开了更广阔的可能性。

02

几百 token 扛起七千 token 的任务?DeepSeek-OCR 实现近无损压缩
DeepSeek-OCR 的训练流程设计相对简洁,整体分为两个阶段:首先单独训练视觉编码模块 DeepEncoder,随后再训练完整的多模态系统。此外,为应对高密度文本处理需求,研究团队还基于已有模型通过额外 600 万条采样数据微调,构建了超高分辨率版本 —— 被称为“Gundam-master模式”。由于其训练策略与主模型保持一致,团队在技术细节上未作进一步赘述。在训练 DeepEncoder 阶段,团队借鉴了 Vary 方法,结合轻量化语言模型与“下一 token 预测”框架进行训练,所使用的数据包括 OCR 1.0、OCR 2.0,以及从 LAION 数据集中采样的一亿条通用图像样本。完成视觉编码器的训练后,模型进入第二阶段,通过纯文本和多模态数据进行联合训练,采用流水线并行方式推进整个系统优化。高压缩比下的实际表现:效果超预期为了验证模型在处理文字密集型文档时的表现,团队选用了 Fox Benchmark 作为测试平台。实验数据显示,在10倍压缩比例下,模型解码精度达到约97%,接近无损压缩的理想状态。

而即便压缩率接近 20 倍,DeepSeek-OCR 仍可稳定保持 60% 左右的识别准确率,这在同类模型中已属非常可观的表现。不过,在高压缩率下,性能出现下滑主要与两个因素相关:一是文档布局复杂度增高,影响模型对信息的提取效率;二是较低分辨率下(如 512×512 或 640×640)出现文字模糊,影响图文解码质量。前者可通过标准化文档排版规避,而后者则提示未来或可通过改进“记忆机制”加以优化。这些结果进一步印证了视觉 token 作为上下文压缩媒介的可行性,尤其在无需引入额外计算负担的前提下,便可通过已有的多模态模型结构完成整合。在真实任务中,也是真正能打的狠角色实验数据只是冰山一角,DeepSeek-OCR 在真实场景中的表现同样强悍。在文档理解权威测试 OmniDocBench 中,模型仅用 100 个视觉 token(640×640 分辨率),就超越了需 256 token 的 GOT-OCR 2.0;而启用 Gundam 模式(<800 token) 后,性能更是高出需要 约7000 个 token 的 MinerU 2.0,一举扭转传统“token堆砌=性能提升”的惯性认知。进一步拆解结果还发现,不同文档类型对 token 数量的需求存在显著差异:幻灯片文档:仅需约 64 个 token 即可实现优秀识别效果;书籍与报告类:100 个 token 基本可实现性能稳定;报纸等密集排版文档:需借助 Gundam 或 Gundam-master 模式,才能完整还原复杂内容。总的来看,DeepSeek-OCR 证明了小规模视觉 token 完全有能力应对长文本任务,在不增加成本的情况下,为大模型长上下文处理提供了一条全新且高效的路径。

03

从图表到结构式,各类文档都能“看懂”
在实际应用中,DeepSeek-OCR 并不只是做简单的字符识别,它在论文中展示了对各种复杂内容的处理能力,具备完整的版面识别与OCR 2.0 模型调度机制,支持进一步的图像理解与信息解析。这种能力被团队称为 “深度解析(Deep Parsing)”,即模型可以识别图像中存在的多种元素类型,包括图表、几何图形、化学结构式,甚至是自然图像等。金融场景中的图表提取在金融研究报告中,DeepSeek-OCR 可直接识别图表内容,并提取结构化数据。这类能力在金融与科研分析领域具有极高实用价值,能够助力数据自动化采集和内容索引。

图文混排的学术资料也能处理对于书籍、论文等密集图文内容,模型可借助“深度解析”模式,自动生成详尽的图像描述,实现图文内容的自动识别与转写,为知识归档与AI辅助阅读打下技术基础。

化学文献转码为结构语言在处理化学类文档时,DeepSeek-OCR 不仅能识别图像中的化学结构,还能将其直接转换为 SMILES 格式,实现从视觉表达到机器语言的自动转译。这一能力让它在科学、工程等 STEM 领域具备较强的应用潜力。

几何图形与空间关系解析初具雏形在几何图形解析方面,虽然任务复杂度较高,但模型已经能够识别常见图形元素,并初步理解其空间结构,为后续提升推理能力和逻辑建模能力奠定基础。

支持多语言,适配全球文档解析需求面对互联网上涵盖上百种语言的 PDF 文档,DeepSeek-OCR 同样展现了出色的适应能力。当前模型已支持近 百种语言 的识别,输出格式可根据需求切换为带版面或无版面模式,便于后续处理与建库。在多语种测试中,DeepSeek-OCR 即使面对如阿拉伯语、僧伽罗语等冷门语言,依然能生成较高质量的识别结果,这也使得它在跨语言文档处理、全球知识提取任务中具备天然优势。

不止是OCR,更是多模态理解工具除了文档解析,DeepSeek-OCR 同时保留了部分通用视觉任务能力,比如图像描述、物体识别、目标定位(grounding)等。当搭配提示词输入时,模型可以详细生成图片解读、定位指定目标,甚至识别图像中的嵌入文字,完成 OCR 任务。值得一提的是,模型在训练阶段还融入了大量纯文本数据,因此具备较强的语言理解与生成能力。但需要说明的是,目前 DeepSeek-OCR 尚未经过 SFT(监督微调)流程,因此不具备对话能力,部分功能需通过 特定提示语激活。


04

结语:重新定义信息效率的未来方向
通过 DeepSeek-OCR 的实践,所谓“上下文的光学压缩”不再只是理论构想,而是被验证为一种切实可行的文本表达优化方案。它以视觉模态为媒介,将冗长的文本信息压缩进更少的 token 中,为大模型处理超长上下文开辟了一条新路径。在接下来的研究中,团队计划探索 视觉与数字信息混合预训练的可能性,并引入更具挑战性的“needle-in-a-haystack”细粒度测试,检验其在真实长文本语境下的稳定性与准确性。从更宏观的视角来看,DeepSeek-OCR 实际上展示了提升大模型效率的另一种解法:改变信息表示形式本身。与其堆叠token硬撑上下文长度,不如通过视觉压缩,在相同计算资源下处理更多信息。这一理念为视觉 token 优化、上下文压缩机制,甚至大模型的记忆与遗忘系统研究,提供了全新的研究起点。如 DeepSeek 团队在论文末所言:“光学上下文压缩仍有广阔的研究空间,它代表了一个新的方向。”而这项看似起步于 OCR 的工作,或许早已不止步于字符识别——它所引发的,是对大模型信息效率上限的一次重新定义。
页: [1]
查看完整版本: AI的“JPEG时刻”?DeepSeek-OCR:3B小模型颠覆长文本处理,AI迎来“视觉压缩革命”