[**DeepSeek-OCR: Одна картинка стоит тысячи слов** ](https://github.com/deepseek-ai/deepseek-ocr)
[**DeepSeek-OCR: Одна картинка стоит тысячи слов** ](https://github.com/deepseek-ai/deepseek-ocr)
DeepSeek выпустил OCR-модель, которая превращает документы в изображения и обрабатывает их как визуальные токены вместо классических текстовых. Говорят, это может изменить архитектуру LLM: вместо обработки текста токен за токеном, DeepSeek-OCR **рендерит его в картинку** и сжимает в визуальные токены
Один токен изображения заменяет 10-20 текстовых токенов без особых потерь качества
У меня как раз есть несколько личных проектов, где нужно OCR-ить ~300 гб pdf-ок. На днях постараюсь попробовать и написать отзыв
DeepSeek выпустил OCR-модель, которая превращает документы в изображения и обрабатывает их как визуальные токены вместо классических текстовых. Говорят, это может изменить архитектуру LLM: вместо обработки текста токен за токеном, DeepSeek-OCR **рендерит его в картинку** и сжимает в визуальные токены
Один токен изображения заменяет 10-20 текстовых токенов без особых потерь качества
У меня как раз есть несколько личных проектов, где нужно OCR-ить ~300 гб pdf-ок. На днях постараюсь попробовать и написать отзыв