Русский ИТ бизнес
Русский ИТ бизнес
Post media

DeepSeek выпустили DeepSeek-OCR 2. Бесплатная. Открытая

DeepSeek выпустили DeepSeek-OCR 2. Бесплатная. Открытая.

Вместо стандартного сканирования слева направо, она использует архитектуру DeepEncoder V2, имитирующую человеческое зрение: нейросеть сначала оценивает общую структуру документа, а затем считывает информацию в логическом порядке. Это позволяет модели корректно обрабатывать сложные макеты, такие как таблицы и многоколончатая верстка, где традиционные алгоритмы часто «ломаются».

Заявлено, что новая модель размером в 3 миллиарда параметров превосходит Gemini 3 Pro в задачах визуального понимания документов. Инструмент уже доступен для разработчиков: веса выложены на Hugging Face...

Русский ИТ бизнес

Комментарии (3)

  • Тающий Носорог
    Тающий Носорог
    для 3 ярдов параметров в 7 Гигов база как то слабенькая. В целом да, ее можно вертеть на видеокартах легко.
  • Циничный Партизан
    Циничный Партизан
    мы тут один проект пилим как раз по распознованию разной информации с этикеток / пдф и прочего. проблематика - если язык ру / en все +- окей. Как только дошли до таджикского, узбекского, и кз - нейронки сдаются :) интересно будет попробовать дипсик, мож у него с языками по лучше
    • Автор канала
      Автор канала
      Поделитесь плиз потом опытом