DeepSeek AI представила DeepSeek-OCR 2 — систему для OCR и понимания документов, которая читают страницы в последовательности, похожей на визуальный скан человека. В отличие от классических моделей, эта система сохраняет причинный визуальный поток, что значительно улучшает распознавание сложных макетов — многостолбцов, таблиц и смешанных языков.
Главная инновация — DeepEncoder V2 на базе трансформера, который превращает 2D-страницу в 1D последовательность визуальных токенов, следуя учебной логике чтения. В отличие от моделей вроде CLIP ViT, новый энкодер использует асимметричное внимание: визуальные токены учитывают все, а causal flow — только предыдущие и текущие. Это помогает системе учиться, как организовать информацию по сути.
Обучение проходит в три этапа: предварительный тренинг с небольшим декодером, совместное улучшение запросов с мульти-кропами и финальная настройка без изменения энкодера. В тренировках используется много OCR-данных, примерно 80%, совместно с формулами и таблицами, всего около 160 GPU.
На тесте на benchmark OmniDocBench-v1.5, включающем 1355 страниц на китайском и английском, DeepSeek-OCR 2 показывает 91.09 балла — лучше исходных 87.36 и Gemini-3 Pro. Кроме того, улучшается качество распознавания порядка чтения (средняя edit distance снизилась с 0.085 до 0.057), а точность структурного анализа выросла.
Особенно заметен прогресс в научных статьях и книгах, где правильное понимание структуры критично. Правда, плотные газеты требуют ещё доработки из-за высокой плотности страниц и ограниченных данных. В целом, causal visual flow кодирует больше смысловой информации, делая автоматизацию понимания документов реальностью.
В индустрии уже начинают уходить от экспериментальных проектов к практическому применению подобных систем, и ближайшие месяцы покажут, как эти архитектуры войдут в рабочие решения. Вероятно, в будущем появятся ещё более эффективные модели, умеющие работать с миллионами страниц и сложными структурами.


