Русский ИТ бизнес 👨
Подписаться
Post media
DeepSeek выпустили DeepSeek-OCR 2. Бесплатная. Открытая.

Вместо стандартного сканирования слева направо, она использует архитектуру DeepEncoder V2, имитирующую человеческое зрение: нейросеть сначала оценивает общую структуру документа, а затем считывает информацию в логическом порядке. Это позволяет модели корректно обрабатывать сложные макеты, такие как таблицы и многоколончатая верстка, где традиционные алгоритмы часто «ломаются».

Заявлено, что новая модель размером в 3 миллиарда параметров превосходит Gemini 3 Pro в задачах визуального понимания документов. Инструмент уже доступен для разработчиков: веса выложены на Hugging Face...

Русский ИТ бизнес

Комментарии (3)

  • zerohold
    для 3 ярдов параметров в 7 Гигов база как то слабенькая. В целом да, ее можно вертеть на видеокартах легко.
  • rogachevdv
    мы тут один проект пилим как раз по распознованию разной информации с этикеток / пдф и прочего. проблематика - если язык ру / en все +- окей. Как только дошли до таджикского, узбекского, и кз - нейронки сдаются :) интересно будет попробовать дипсик, мож у него с языками по лучше
    • GroupAnonymousBot
      Поделитесь плиз потом опытом