最近关于DeepSeek-OCR的讨论非常热烈,但许多解读可能误判了其成功的核心原因。| 原文

将文本渲染成图像以压缩Token,并非全新或唯一的思路。DeepSeek-OCR的成功不应简单归功于图像表示法的魔力。实际上,问题的关键不在于表示形式是文本还是图像。

Token压缩并非新大陆:剑桥大学的研究者早已证明,通过对语言模型进行微调,使其适应“被压缩”的文本Token,可以实现高达500倍的提示词压缩。这一成果未使用任何图像转换技术,表明优化文本自身表示同样潜力巨大。

表示形式并非关键:我们可以反向操作,将图像表示为一系列文本Token(例如,代表RGB值的序列),模型依然可以正常工作,LIFT论文就证明了这一点。这说明,无论是文本还是图像,都只是一种编码信息的载体,没有哪一种具有根本性的优越性。

真正的启示:DeepSeek-OCR等工作真正揭示的核心问题是,当前大语言模型(LLM)的嵌入空间(embedding space)极其庞大,甚至可以说存在严重的冗余和浪费。我们远未充分利用这个高维空间,以及模型在推理时投入的巨大算力。

更多佐证:近期多项研究也支持这一观点。例如,有论文发现,如果在单一上下文中混合来自多个任务的示例,模型能够同时解决多个不同的上下文学习(ICL)任务。这进一步证明了模型的上下文窗口和嵌入空间拥有超乎我们当前理解的容量和灵活性。

DeepSeek-OCR是一项很酷的技术探索,值得肯定。但其实现的Token压缩效果,通过直接微调LLM处理优化的文本Token同样可以达到,甚至可能更高。
 
 
Back to Top