Русский ИТ бизнес 👨
Подписаться
За два месяца автор построил собственную поисковую систему с нуля, используя 3 миллиарда эмбеддингов. Коротко что он сделал в моем пересказе...

На пике производительности кластер из 200 GPU (!) генерировал по 100 тысяч эмбеддингов в секунду, база данных охватила 280 миллионов страниц, индекс располагался на 82 ТБ SSD, а время отклика по запросу держалось в районе 500 миллисекунд.

Для хранения данных применялся RocksDB с распределением по 64 шардам, что позволило обрабатывать до 200 тысяч операций записи в секунду с тысяч клиентов.

Все это при среднем использовании GPU в 90 процентов - дело было не только круто, но и эффективно.

Важная часть проекта - краулер на Node.js, который умел обходить сайты со сложной логикой и ограничениями, и продвинутая сегментация текста, сохраняющая контекст и смысл. Вместо простого разбиения на куски система понимала вложенные заголовки, таблицы и даже логику зависимостей предложений - для того, чтобы поисковик не путался и выдавал содержательные ответы на сложные вопросы. Вместо банального подбора ключевых слов - попытка понять запрос целиком, с возможностью находить скрытые смыслы и неочевидные связи.

Зачем? Ответа нет. Хобби :)

Русский ИТ бизнес

Комментарии (0)

  • EugenePeshkov
    дорогое хобби...
  • dr_sgs
    Железо чье?
    • dmitry236
      Да это сын маминой подруги, которая пашет в Perplexity
  • Channel_Bot
    Даже интересно, какой порядок расходов у него
  • kolbert
    200гпу на помойке нашел?🤔😁
  • yury_webscraping
    Для нормального охвата нужно не 280млн страниц а раз хотя бы в 500 больше. Затраты на это колоссальные... Ну прикольно что в одиночку можно развернуть аналог Гугла.
  • P_Zakharevich
    Пост сгенерирован ии )
  • mtrnkwas
    Не так давно я считал эмбеддинги для 5 миллиардов поисковых запросов. Модель MiniLM, 384 признака float32. Карта 3080ti - 1 штука. 1 миллион эмбеддингов считался 4 минуты, общее время 14 суток. Специально для этого был куплен диск NVMe на 8 терабайт, который забит почти полностью. Теперь собираюсь все это пихать в Qdrant, но надо будет ещё докупить дисков. На очереди ещё около 8 миллиардов запросов. Под проект собран сервер на Supermicro H12DSI на два процессора 64 ядра, 512 Гб памяти.
  • daiver77
    Ну всё, сейчас напишу всем своим старым клиентам, которые приходили с запросом: Сделай мне аналог яндекса за 5 тыщ, а че, там ведь на странице всего лишь логотип и строка поиска. Дел то на день
    • yobsss
      Ну так а что, жалко чтоли.
      Да ещё и пять тыщ! 🔥