Так там способов 1км, от сокращателей ссылок, до редиретков или хитрых iframe.
Лохматый Осьминог
Началось.
Рассвет эпохи дотрэфов 🤣
раскрыть ветку (1)
Лохматый Осьминог
Прогрев же
Раздражительный Жираф
чё-то давно новостей про tapki не было
раскрыть ветку (24)
Автор канала
а там тухляк. ничего не происхдит
раскрыть ветку (23)
Раздражительный Жираф
оно у тебя нигде не происходит, но ты умудряешься высасывать повод. Признайся уже, охладел в детищу и переключился на другого фаворита
раскрыть ветку (22)
Автор канала
да. надо признать что проект не взлетел. не страшно. он работает, просто развития нет. мы его не отключаем.
раскрыть ветку (21)
Сквознячный Судья
раскрыть ветку (20)
Раздражительный Жираф
это мне кажется проблема многих. Сделать хороший поиск это очень сложная задача. И на мой взгляд, туда вообще не надо идти. Надо было сразу нарезать всё на категории и давать возможность двигаться по уже сформированным группам/кластерам/категориям. Поиск прятать/убирать
Тогда ты
а) всегда можешь оценить качество нарезанных групп/категорий
б) не ебешь мозги с этим поиском, потому что на таком числе документов недостаточно получить вхождение, нужна ещё релевантность, веса, в общем это сложно
иначе пользователь что-то просил, а результат говно
раскрыть ветку (19)
Автор канала
Все так да. Очередная ошибка
Раздражительный Жираф
это я сейчас много работаю с Claude Design, генерю фронтенд для своих SaaS в области разных данных. И он очень часто на первый же экран херачит поисковую строку для пользователя.
И я всегда думаю, бля, поисковая строка под собой это что? Это опять поднимать эластик, это думать что там будет в результатах, это ебала. Я убираю этот поиск и иду по пути категорийной/кластерной механики, потому что понимаю, что поиск будет убогим (в том числе потому что пользователь спрашивает хуй пойми как)
Но может так только у меня в силу отсутствия опыта в поиске
раскрыть ветку (17)
Автор канала
Я думаю надо и так и так. Как хочешь так и ищи
Пряный Единорог
Почему не сделать векторный поиск?
раскрыть ветку (14)
Раздражительный Жираф
мне кажется под этим кроется не один геморроидальный узел
раскрыть ветку (13)
Пряный Единорог
На моих проектах работает очень хорошо. Вот буквально вчера запилил поиск на основе faiss+sqlite. Поиск по 100 миллионам поисковых фраз с метриками CPC, Search Volume, Competition Index, High Bid и т.д. Расчет индекса и формирование базы заняло где-то минут 40. Очень удобно и просто получилось.
раскрыть ветку (12)
Раздражительный Жираф
ну гляну, сохранил в заметки. У меня с поиском плохо, поэтому пока намеренно этот функционал игнорирую.
раскрыть ветку (11)
Пряный Единорог
Поиск 36 миллисекунд
раскрыть ветку (10)
Раздражительный Жираф
так это поиск по одной строке, а если у нас карточка компании, например, то поиск будет идти по названию + описание, там совершенно другой объем
типа у нас 100 млн документов
раскрыть ветку (9)
Пряный Единорог
Зависит от того, что вы векторизуете. Можно одну фразу, можно целые параграфы. В вашем случае в вектор лучше переводить сразу название+описание. В любом случае вектор будет фиксированной длины - массив из 384, 768 или более чисел. Сам поиск по косинусной близости супер быстрый практически на любом объеме, это очень простая математическая операция. Я пробовал и на 7 миллиардах векторов, тоже работает десятки миллисекунд.
раскрыть ветку (8)
Раздражительный Жираф
тут 2 вопроса возникает
1. Нам перед векторизацией надо исходник чистить? Например, у нас была html главная страница сайта. Мы её стрипаем просто от html тегов или прогоняем через что-то типа trafilatura, чтобы извлечь только текст?
2. как быстро мы можем преобразовать 250-300 млн таких документов, ну т.е. примерно все главные страницы интернета без поддоменов?
раскрыть ветку (7)
Пряный Единорог
1. Да, надо векторизовать чистый текст. Если текст большой, его надо резать на чанки с перехлестом на 15-20%.
2. Допустим, на видеокарте 1 миллион векторов размером 384 моделью e5-small-v2 будет считаться 1 минуту. Соответственно, на 300 миллионов векторов потребуется 5 часов. На CPU будет намного дольше, это мазохизм на таких объемах.
раскрыть ветку (6)
Раздражительный Жираф
ну вот звучит уже непросто, особенно по первому пункту + обработка будет не у себя, т.е. надо будет делать это где-то. Поэтому поиск не кажется простой задачей, это не поиск по wp записям, проще убрать этот функционал и уйти в простую категоризацию, потому что поиск не дает ничего особо по сеошке и выгод коммерческих не чувствуется
раскрыть ветку (2)
Пряный Единорог
А вам, кстати, не нужны домены с живыми беклинками от Википедии, Форбс, Нью-Йорк таймс?
раскрыть ветку (1)
Раздражительный Жираф
да у нас этого добра как говна за баней) Но спасибо)
Автор канала
Главный вопрос - зачем
раскрыть ветку (2)
Раздражительный Жираф
чтобы твои головастики спустили больше бабок на железо и добавили пункт в резюме
Пряный Единорог
Поиск нужен чтобы был поиск. Как это ни странно.
Взлетающий Продюсер
Клод видимо подразумевает, что поиск ты пробросишь ему
Лохматый Осьминог
Ну надо сказать сам на прошлой неделе отдал предпочтение в размещении на баннер домена РФ а не ru или com)
Сквознячный Судья
Так ищет фигово как-то
раскрыть ветку (1)
Автор канала
Вообще оказался не нужен
Топающий Скелет
До сих пор жили не тужили и тут запретили потому что нас хотят "защитить" от недовольства своей никчемной способностью работать
Пухлый Воробей
На vk.com в первую очередь не заходим.
раскрыть ветку (2)
Лохматый Осьминог
vk.ru давно уже функционирует)
раскрыть ветку (1)
Пухлый Воробей
Попробуйте контент через поисковик к vk.ru найти, очень удивитесь, особенно видео.
Комментарии (36)
Рассвет эпохи дотрэфов 🤣
Тогда ты
а) всегда можешь оценить качество нарезанных групп/категорий
б) не ебешь мозги с этим поиском, потому что на таком числе документов недостаточно получить вхождение, нужна ещё релевантность, веса, в общем это сложно
иначе пользователь что-то просил, а результат говно
И я всегда думаю, бля, поисковая строка под собой это что? Это опять поднимать эластик, это думать что там будет в результатах, это ебала. Я убираю этот поиск и иду по пути категорийной/кластерной механики, потому что понимаю, что поиск будет убогим (в том числе потому что пользователь спрашивает хуй пойми как)
Но может так только у меня в силу отсутствия опыта в поиске
типа у нас 100 млн документов
1. Нам перед векторизацией надо исходник чистить? Например, у нас была html главная страница сайта. Мы её стрипаем просто от html тегов или прогоняем через что-то типа trafilatura, чтобы извлечь только текст?
2. как быстро мы можем преобразовать 250-300 млн таких документов, ну т.е. примерно все главные страницы интернета без поддоменов?
2. Допустим, на видеокарте 1 миллион векторов размером 384 моделью e5-small-v2 будет считаться 1 минуту. Соответственно, на 300 миллионов векторов потребуется 5 часов. На CPU будет намного дольше, это мазохизм на таких объемах.