Русский ИТ бизнес 👨
Подписаться
Post media
Не знаю, зачем это надо людям, но вопрос интересный. К слову, многие каналы (и мой) имеют веб-версию и без комментариев можно без особых проблем собирать контент. С комментарими сложнее, уже нужен бот- пользователь.

Русский ИТ бизнес

Комментарии (0)

  • ilya22197
    Вообще за этотбан
  • KTarasov
    Так эти сервисы принадлежат самой Телеге (опосредовано), они часть рекламной инфраструктуры. Без наличия статистики, как рекламодателей-то привлекать.
    • aashmig
      Бред
  • igor_yakushev
    делал подобное, это фермы (но не из сотен тысяч) + люди сами шарят стату (например бота tgstat добавляют в админку)
  • gari_potnyi
    Вообще, там, в телегам, api есть специальное. Не факт что не дадут бан, но есть. 😁
  • Channel_Bot
    Публичные каналы можно парсить через web через t.me, всякое такое: https://tgviewer.github.io/?channel=bezsmuzi&post=13291
    • DADementr
      без проблем через api клиента telethon
      Вон Макс хотел свой канал парсить, набросал за день https://gitverse.ru/DADementr/tg_parser_mdb
  • Channel_Bot
    Есть же API официальное. Или там лимиты какие-то, кто сталкивался?
    • DADementr
      все хватает если не наглеть
  • jubiks
    Создаю подобный сервис, массово собираю информацию с тысячи каналов. Для этого использую небольшую ферму из юзерботов, для старта, только так можно собрать информацию, если проект крупный и уже известный как тгстат, то добавляя их бота в канал вы уменьшите запросы на мониторинг каналов, но незнакомого бота ни кто добавлять не будет. Лимиты даже на чтение каналов есть, часто нарываюсь на ошибку по флуду, т.к. один канал это 2-3 запроса, если получать полную информацию, история сообщений, каждые 200 сообщений 1 запрос, получить вложение в сообщение, на каждое вложение 1 запрос. Итого 500-1000 запросов и бан на несколько часов, обычно от 12 часов бан. Если юзерботы еще пишут сообщения, то лимиты строже, по хорошему что бы не попадать в бан, приложение не должно делать однотипные запросы постоянно, нужен умный бот. Как это сделать пока не знаю. Часто пишут что менять нужно IP, работать через прокси, это не помогает, работаю на одних и тех же ip бана по ним нет.
    • GroupAnonymousBot
      А какая конечна цель?
      • jubiks
        Основная цель создать органический трафик из веба в телегу. Работаю над глобальным поиском по открытым каналам, очень большой объем данных требуется проиндексировать, но хотя бы ру сегмент для начала охватить.
        Так же на базе этих данных можно построить и другие сервисы, которые могут дать так же трафик, упростить ведение каналов и бизнеса внутри телеграм, в целом дать бизнес-инструменты. Телеграм стремиться стать супераппом, как WeChat, так что мешает развиваться вместе с ним и стать частью этой системы. Но это пока планы, но первый камушек уже заложен.
        • GroupAnonymousBot
          Мне кажется мы даже слегка конкурируем
          • jubiks
            если с telega.fm, то немного да, я разработал tggo.me (пока отключил, меняю архитектуру) он почти полностью повторяет оригинал t.me, но обнаружил столько мусора который начал в индекс поисковиков попадать и пока прикрыл все это что бы не попасть под блокировки, и это самый проблемный этап, модерация каналов, сейчас у меня в базе 800k+ каналов и много мусора
            • GroupAnonymousBot
              Вы не волнуйтесь что нарушаете авторские права?
              • jubiks
                а в чем нарушение авторских прав, я себе не присваиваю контент, сервис является только агрегатором, все ссылки ведут куда нужно, сам контент не меняется, любой пост ведет на пост в канале, если только то что публикуя контент автор канала знал что его контент будет в t.me, а не на других агрегаторах, а он там всплыл, то в этом вопросе возможно есть риск, но есть техническая возможность отключить канал быстро, если возникнут проблемы с этим и тогда сайт просто будет по старым ссылка перенаправлять сразу к источнику, но сколько таких агрегаторов нарушают это авторское право, тот же TGStat и другие, тут палка о двух концах, если автор канала хочет внешний трафик привлечь, то мирится с этим, если нет, то отключаем его канал от системы
    • raviluse
      зачем ферму ботов создавать, парси просто из веба текст, так дело пойдет быстрей
      • jubiks
        Веб дает очень ограниченную информацию в отличии от API, для простого получения постов да пойдет, веб не отдает ID канала, а только username, но у канала может быть несколько username, или если он сменится, описание каналов в вебе обрезанное, много недостатков
        • raviluse
          для получения инфо о канале можно ботов использовать, но текст парсить ботом геморойно из-за лимитов
          • jubiks
            1 запрос и 200 сообщений канала получил + различная мета-информация сообщения, в целом получить историю канала только разово, рассчитать переодичность выхода постов в канале и можно построить алгоритм через какие промежутки делать запросы истории последних 200 сообщений, если обновлять еще все реакции и просмотры, то чаще, все зависит какие данные нужны
            а каждый бот это отдельный аккаунт, а это отдельный номер телефона, а сейчас проблемы с регистрацией на себя множества номеров, и это все нужно поддерживать и не дать заблочиться, есть геморой конечно, но создать такую систему было интересно
            • DADementr
              А фрагмент что? Или тоже уже номера телефонов требуют?
              • jubiks
                а причем тут фрагмент, это же аукцион имен. Для парсинга канала, если нужна история сообщений, нужен userbot (т.е. реальный аккаунт телеграм управляемый скриптом), а для его регистрации нужен номер телефона, на один номер не создать 2 аккаунта, обычный тг бот не сможет получить историю канала, либо парсить веб версию
                • DADementr
                  Не только аукцион имен. но и псевдо номер для телеги +888
                  • jubiks
                    о, это интересно, надо изучить, спасибо за подсказку
                    • DADementr
                      Ну фрагмент вообще полезный, особенно для ботоводов🙃