Еще один интересный инструмент, который готовит данные для ИИ. Называется замысловато Kreuzberg. Вот здесь. На картинке сравнение с другими сервисами.
Если вы делаете что-то типа RAG, то это просто must have. На вход даете массу разного в разных видах, на выходе структурированный материал.
Русский ИТ бизнес
-
Можно пример что значит "на выходе структурированный материал." ?-
markdown вытащенный из pdf/jpg-
а качество этого markdown ?-
для ИИ не очень важно. так то.-
ну то что на выходе оно же не для ИИ, ведь так?-
у нас для ИИ. получаем некий фарш из текста, дальше ИИ делает уже семантический разбор
-
-
-
-
-
-
А еще google недавно выкатил search tool, которая вообще любую неструктурированную инфу конвертит в структурированную для RAG, к примеру. Ну, хранение, естественно, платное-
Хотя пишут, что бесплатное, плата только за векторизацию. Нужно, короче, пробовать. Я видел информацию, что хранение тоже платное. А так выглядит круто конечно
-
-
https://ai.google.dev/gemini-api/docs/file-search?hl=ru -
это стартап из берлина, и кройцерб один из его центровых районов. не удивлен если они в нем и офис имеют -
попробую этот тул, у нас свои кастомные парсеры и док билдеры есть, может этот как раз удобнее 🔍
