Русский ИТ бизнес 👨

20.08.2025 07:05

За два месяца автор построил собственную поисковую систему с нуля, используя 3 миллиарда эмбеддингов. Коротко что он сделал в моем пересказе...

На пике производительности кластер из 200 GPU (!) генерировал по 100 тысяч эмбеддингов в секунду, база данных охватила 280 миллионов страниц, индекс располагался на 82 ТБ SSD, а время отклика по запросу держалось в районе 500 миллисекунд.

Для хранения данных применялся RocksDB с распределением по 64 шардам, что позволило обрабатывать до 200 тысяч операций записи в секунду с тысяч клиентов.

Все это при среднем использовании GPU в 90 процентов - дело было не только круто, но и эффективно.

Важная часть проекта - краулер на Node.js, который умел обходить сайты со сложной логикой и ограничениями, и продвинутая сегментация текста, сохраняющая контекст и смысл. Вместо простого разбиения на куски система понимала вложенные заголовки, таблицы и даже логику зависимостей предложений - для того, чтобы поисковик не путался и выдавал содержательные ответы на сложные вопросы. Вместо банального подбора ключевых слов - попытка понять запрос целиком, с возможностью находить скрытые смыслы и неочевидные связи.

Зачем? Ответа нет. Хобби :)

Русский ИТ бизнес

0/16 Открыть в Telegram

Комментарии (0)

EugenePeshkov
2025-08-20 07:07

дорогое хобби...
dr_sgs
2025-08-20 07:35

Железо чье?
- dmitry236
  2025-08-20 07:36
  
  Да это сын маминой подруги, которая пашет в Perplexity
Channel_Bot
2025-08-20 07:52

Даже интересно, какой порядок расходов у него
kolbert
2025-08-20 08:05

200гпу на помойке нашел?🤔😁
yury_webscraping
2025-08-20 08:23

Для нормального охвата нужно не 280млн страниц а раз хотя бы в 500 больше. Затраты на это колоссальные... Ну прикольно что в одиночку можно развернуть аналог Гугла.
P_Zakharevich
2025-08-20 08:29

Пост сгенерирован ии )
mtrnkwas
2025-08-20 13:03

Не так давно я считал эмбеддинги для 5 миллиардов поисковых запросов. Модель MiniLM, 384 признака float32. Карта 3080ti - 1 штука. 1 миллион эмбеддингов считался 4 минуты, общее время 14 суток. Специально для этого был куплен диск NVMe на 8 терабайт, который забит почти полностью. Теперь собираюсь все это пихать в Qdrant, но надо будет ещё докупить дисков. На очереди ещё около 8 миллиардов запросов. Под проект собран сервер на Supermicro H12DSI на два процессора 64 ядра, 512 Гб памяти.
daiver77
2025-08-20 13:26

Ну всё, сейчас напишу всем своим старым клиентам, которые приходили с запросом: Сделай мне аналог яндекса за 5 тыщ, а че, там ведь на странице всего лишь логотип и строка поиска. Дел то на день
- yobsss
  2025-08-20 13:31
  
  Ну так а что, жалко чтоли.
  Да ещё и пять тыщ! 🔥