Русский ИТ бизнес 👨
Подписаться
Post media
Вышла новая версия могучий библиотеки Kreuzberg. Мы что-то подобное будем использовать в проекте poisk.im для выделения сущностей из разных форматов файлов.

Цитирую:

"Kreuzberg is a document intelligence library that extracts structured data from 56+ formats, including PDFs, Office docs, HTML, emails, images and many more. Built for RAG/LLM pipelines with OCR, semantic chunking, embeddings, and metadata extraction."


Легко найдете на гите - лицензия MIT. Можно применять в РФ.

Русский ИТ бизнес

Комментарии (0)

  • maxicms
    Уже использую ее для формализации резюме и вакансии на проекте справляется довольно неплохо