Русский ИТ бизнес
Русский ИТ бизнес

А у нас проекты: poisk.im и telega.fm - вообще левые зоны

А у нас проекты: poisk.im и telega.fm - вообще левые зоны
А у нас проекты: poisk.im и telega.fm - вообще левые зоны. Я даже не вспомню кому они принадлежат. Острова какие-то... Волнуюсь.

🟪 MAXTG

Комментарии (36)

  • Лохматый Осьминог
    Лохматый Осьминог
    Отчасти они правы
    раскрыть ветку (1)
    • Призматический Буффало
      Призматический Буффало
      Так там способов 1км, от сокращателей ссылок, до редиретков или хитрых iframe.
  • Лохматый Осьминог
    Лохматый Осьминог
    Началось.
    Рассвет эпохи дотрэфов 🤣
    раскрыть ветку (1)
    • Лохматый Осьминог
      Лохматый Осьминог
      Прогрев же
  • Раздражительный Жираф
    Раздражительный Жираф
    чё-то давно новостей про tapki не было
    раскрыть ветку (24)
    • Автор канала
      Автор канала
      а там тухляк. ничего не происхдит
      раскрыть ветку (23)
      • Раздражительный Жираф
        Раздражительный Жираф
        оно у тебя нигде не происходит, но ты умудряешься высасывать повод. Признайся уже, охладел в детищу и переключился на другого фаворита
        раскрыть ветку (22)
        • Автор канала
          Автор канала
          да. надо признать что проект не взлетел. не страшно. он работает, просто развития нет. мы его не отключаем.
          раскрыть ветку (21)
          • Сквознячный Судья
            Сквознячный Судья
            Comment media
            раскрыть ветку (20)
            • Раздражительный Жираф
              Раздражительный Жираф
              это мне кажется проблема многих. Сделать хороший поиск это очень сложная задача. И на мой взгляд, туда вообще не надо идти. Надо было сразу нарезать всё на категории и давать возможность двигаться по уже сформированным группам/кластерам/категориям. Поиск прятать/убирать

              Тогда ты

              а) всегда можешь оценить качество нарезанных групп/категорий

              б) не ебешь мозги с этим поиском, потому что на таком числе документов недостаточно получить вхождение, нужна ещё релевантность, веса, в общем это сложно

              иначе пользователь что-то просил, а результат говно
              раскрыть ветку (19)
              • Автор канала
                Автор канала
                Все так да. Очередная ошибка
              • Раздражительный Жираф
                Раздражительный Жираф
                это я сейчас много работаю с Claude Design, генерю фронтенд для своих SaaS в области разных данных. И он очень часто на первый же экран херачит поисковую строку для пользователя.

                И я всегда думаю, бля, поисковая строка под собой это что? Это опять поднимать эластик, это думать что там будет в результатах, это ебала. Я убираю этот поиск и иду по пути категорийной/кластерной механики, потому что понимаю, что поиск будет убогим (в том числе потому что пользователь спрашивает хуй пойми как)

                Но может так только у меня в силу отсутствия опыта в поиске
                раскрыть ветку (17)
                • Автор канала
                  Автор канала
                  Я думаю надо и так и так. Как хочешь так и ищи
                • Пряный Единорог
                  Пряный Единорог
                  Почему не сделать векторный поиск?
                  раскрыть ветку (14)
                  • Раздражительный Жираф
                    Раздражительный Жираф
                    мне кажется под этим кроется не один геморроидальный узел
                    раскрыть ветку (13)
                    • Пряный Единорог
                      Пряный Единорог
                      На моих проектах работает очень хорошо. Вот буквально вчера запилил поиск на основе faiss+sqlite. Поиск по 100 миллионам поисковых фраз с метриками CPC, Search Volume, Competition Index, High Bid и т.д. Расчет индекса и формирование базы заняло где-то минут 40. Очень удобно и просто получилось.
                      раскрыть ветку (12)
                      • Раздражительный Жираф
                        Раздражительный Жираф
                        ну гляну, сохранил в заметки. У меня с поиском плохо, поэтому пока намеренно этот функционал игнорирую.
                        раскрыть ветку (11)
                        • Пряный Единорог
                          Пряный Единорог
                          Comment media
                          Поиск 36 миллисекунд
                          раскрыть ветку (10)
                          • Раздражительный Жираф
                            Раздражительный Жираф
                            так это поиск по одной строке, а если у нас карточка компании, например, то поиск будет идти по названию + описание, там совершенно другой объем

                            типа у нас 100 млн документов
                            раскрыть ветку (9)
                            • Пряный Единорог
                              Пряный Единорог
                              Зависит от того, что вы векторизуете. Можно одну фразу, можно целые параграфы. В вашем случае в вектор лучше переводить сразу название+описание. В любом случае вектор будет фиксированной длины - массив из 384, 768 или более чисел. Сам поиск по косинусной близости супер быстрый практически на любом объеме, это очень простая математическая операция. Я пробовал и на 7 миллиардах векторов, тоже работает десятки миллисекунд.
                              раскрыть ветку (8)
                              • Раздражительный Жираф
                                Раздражительный Жираф
                                тут 2 вопроса возникает

                                1. Нам перед векторизацией надо исходник чистить? Например, у нас была html главная страница сайта. Мы её стрипаем просто от html тегов или прогоняем через что-то типа trafilatura, чтобы извлечь только текст?

                                2. как быстро мы можем преобразовать 250-300 млн таких документов, ну т.е. примерно все главные страницы интернета без поддоменов?
                                раскрыть ветку (7)
                                • Пряный Единорог
                                  Пряный Единорог
                                  1. Да, надо векторизовать чистый текст. Если текст большой, его надо резать на чанки с перехлестом на 15-20%.
                                  2. Допустим, на видеокарте 1 миллион векторов размером 384 моделью e5-small-v2 будет считаться 1 минуту. Соответственно, на 300 миллионов векторов потребуется 5 часов. На CPU будет намного дольше, это мазохизм на таких объемах.
                                  раскрыть ветку (6)
                                  • Раздражительный Жираф
                                    Раздражительный Жираф
                                    ну вот звучит уже непросто, особенно по первому пункту + обработка будет не у себя, т.е. надо будет делать это где-то. Поэтому поиск не кажется простой задачей, это не поиск по wp записям, проще убрать этот функционал и уйти в простую категоризацию, потому что поиск не дает ничего особо по сеошке и выгод коммерческих не чувствуется
                                    раскрыть ветку (2)
                                    • Пряный Единорог
                                      Пряный Единорог
                                      А вам, кстати, не нужны домены с живыми беклинками от Википедии, Форбс, Нью-Йорк таймс?
                                      раскрыть ветку (1)
                                      • Раздражительный Жираф
                                        Раздражительный Жираф
                                        да у нас этого добра как говна за баней) Но спасибо)
                                  • Автор канала
                                    Автор канала
                                    Главный вопрос - зачем
                                    раскрыть ветку (2)
                                    • Раздражительный Жираф
                                      Раздражительный Жираф
                                      чтобы твои головастики спустили больше бабок на железо и добавили пункт в резюме
                                    • Пряный Единорог
                                      Пряный Единорог
                                      Поиск нужен чтобы был поиск. Как это ни странно.
                • Взлетающий Продюсер
                  Взлетающий Продюсер
                  Клод видимо подразумевает, что поиск ты пробросишь ему
  • Лохматый Осьминог
    Лохматый Осьминог
    Ну надо сказать сам на прошлой неделе отдал предпочтение в размещении на баннер домена РФ а не ru или com)
  • Сквознячный Судья
    Сквознячный Судья
    Так ищет фигово как-то
    раскрыть ветку (1)
    • Автор канала
      Автор канала
      Вообще оказался не нужен
  • Топающий Скелет
    Топающий Скелет
    До сих пор жили не тужили и тут запретили потому что нас хотят "защитить" от недовольства своей никчемной способностью работать
  • Пухлый Воробей
    Пухлый Воробей
    На vk.com в первую очередь не заходим.
    раскрыть ветку (2)
    • Лохматый Осьминог
      Лохматый Осьминог
      vk.ru давно уже функционирует)
      раскрыть ветку (1)
      • Пухлый Воробей
        Пухлый Воробей
        Попробуйте контент через поисковик к vk.ru найти, очень удивитесь, особенно видео.