Русский ИТ бизнес
Русский ИТ бизнес

Если вам интересно — вот так делаются теги для каждого поста на проекте telega.fm

Если вам интересно — вот так делаются теги для каждого поста на проекте telega.fm
Если вам интересно — вот так делаются теги для каждого поста на проекте telega.fm. ИИ работает. Чуть больше деталей:

«Так, если коротко: берем пост, очищаем от всякого мусора в виде предлогов, числительных и так далее. Берем готовые теги, если они есть в посте. Если тегов не набралось шесть, пытаемся извлечь их самостоятельно. Прогоняем текст через алгоритм TextRank, определяем вес каждого слова на основе того, кто с кем рядом стоит; слово с большим весом придает больший вес стоящим рядом словам.
С помощью векторной близости ищем похожие посты и берем оттуда два тега. Объединяем всё вместе и получаем от 0 до 6 тегов».

🟪 MAXTG

Комментарии (10)

  • Строганый Дирижер
    Строганый Дирижер
    норм тема Ответить
  • Раздражительный Жираф
    Раздражительный Жираф
    гениально! Ответить
  • Лохматый Осьминог
    Лохматый Осьминог
    И сколько токенов по итогу эта обработка пожирает? Ответить
  • Раздражительный Жираф
    Раздражительный Жираф
    а почему тег может быть только из одного слова? Ответить
    раскрыть ветку (2)
    • Автор канала
      Автор канала
      Пока хз 🤷 Ответить
      раскрыть ветку (1)
      • Раздражительный Жираф
        Раздражительный Жираф
        чё-то мне кажется алгоритм говно, по одному слову он надергает фигни и группировать по ним — это не группировать по теме Ответить
  • Романтичный Попугай
    Романтичный Попугай
    TextRank - алгоритм 2004 года, считает важность слов по графу соседства. Однословные теги это его потолок. Самая интересная часть тут - векторная близость, она компенсирует слабость TextRank заимствуя теги из похожих постов. Но если честно - прогнать пост через LLM стоит доли цента а качество тегирования на порядок выше. Для масштаба telega.fm может быть накладно, зато теги будут осмысленные а не набор отдельных слов Ответить
  • Благословенный Робот
    Благословенный Робот
    Барбос прочитал и считай уже прогер... Ответить
  • Длинный Огнетушитель
    Длинный Огнетушитель
    Макс, красава! Поиск уже доделали, пора другой хернёй страдать! Ответить
    раскрыть ветку (1)
    • Длинный Огнетушитель
      Длинный Огнетушитель
      Обидеть не хотел, если что. Это фигура речи такая, когда галопом по Европам прыгаешь. Ответить