
近日,DeepSeek发布了最新视觉语言模型——DeepSeek-OCR,迅速引发行业热议。该模型由DeepEncoder编码器与DeepSeek3B-MoE-A570M解码器构成,依托光学二维映射技术实现高效视觉文本压缩,在降低计算负载的同时支持更长上下文处理,兼具出色的压缩比与实际性能。此外,该模型还具备图表解析、多语言识别等多项能力,并已实现开源,为视觉语言领域提供了新的技术路径与研究方向。
核心组件与创新设计
DeepSeek-OCR的技术核心主要包括两大模块:DeepEncoder与DeepSeek3B-MoE-A570M解码器。 DeepEncoder作为主引擎,融合了SAM与CLIP的视觉模型架构,包含以窗口注意力为核心的视觉感知特征提取组件,以及以密集全局注意力为基础的视觉知识提取组件。两者之间通过16倍下采样的卷积模块实现连接,从而在保证高分辨率输入的同时维持低激活率,实现高压缩比并生成数量适中的视觉token。 解码器则采用DeepSeek-MoE架构,即DeepSeek-3B-MoE版本。在推理时,会在64个路由专家中激活6个专家与2个共享专家,总激活参数量约为5.7亿。这种设计既具备30亿参数模型的表达能力,又保持小模型的高推理效率,可从DeepEncoder压缩后的潜在视觉token中精准重建原始文本表示。该双组件体系实现了局部感知与全局理解的融合,奠定了高效视觉-文本压缩的技术基础。
工作原理与训练机制
DeepSeek-OCR的核心理念在于将视觉模态作为高效的文本压缩媒介:模型先将文本渲染为图像,再通过视觉编码器提取特征并压缩,最后由解码器将其还原为文本。 训练流程分为两个阶段。第一阶段独立训练DeepEncoder,采用Vary方法,训练数据涵盖OCR1.0、OCR2.0以及从LAION数据集中采样的通用数据。模型使用AdamW优化器与余弦退火调度器,共训练2个epoch,批大小为1280,学习率5e-5,训练序列长度为4096。 在编码器完成后,第二阶段进入DeepSeek-OCR训练。此阶段在HAI-LLM平台上采用流水线并行机制,继续使用AdamW优化器与步数调度策略,初始学习率为3e-5。纯文本数据训练速度约为每日900亿token,多模态数据约700亿token,显著提升了训练效率。
实验结果与性能表现
在性能评估中,研究团队采用Fox基准数据集检验模型压缩与解压能力。结果显示,当压缩比在10×以内时,解码精度可达97%;即便在20×压缩比下,精度仍保持在约60%。 在OmniDocBench基准测试中,DeepSeek-OCR仅使用100个视觉token(640×640分辨率)即超越使用256token的GOT-OCR2.0;而在Gundam模式下,使用不足800个token的表现仍优于平均每页需6000token的MinerU2.0。不同文档类型的视觉token需求差异明显:幻灯片文档约需64个token,书籍与报告类约需100个即可取得稳定效果。 除文字外,该模型还支持图表、化学方程式解析与近百种语言识别,并具备一定的通用图像理解能力。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...