Русский ИТ бизнес
Русский ИТ бизнес
Post media

Вышла новая версия могучий библиотеки Kreuzberg. Мы что-то подобное будем использовать в проекте poisk.im для выделения сущностей из разных форматов файлов.

Цитирую:

"Kreuzberg is a document intelligence library that extracts structured data from 56+ formats, including PDFs, Office docs, HTML, emails, images and many more. Built for RAG/LLM pipelines with OCR, semantic chunking, embeddings, and metadata extraction."


Легко найдете на гите - лицензия MIT. Можно применять в РФ.

Русский ИТ бизнес
  • Дымящийся Гриб
    Дымящийся Гриб
    Уже использую ее для формализации резюме и вакансии на проекте справляется довольно неплохо