Не знаю, зачем это надо людям, но вопрос интересный. К слову, многие каналы (и мой) имеют веб-версию и без комментариев можно без особых проблем собирать контент. С комментарими сложнее, уже нужен бот- пользователь.
Русский ИТ бизнес
0
👍 0
0
Рассудительный Гепард
Вообще за этотбан
Танцующий Единорог
Так эти сервисы принадлежат самой Телеге (опосредовано), они часть рекламной инфраструктуры. Без наличия статистики, как рекламодателей-то привлекать.
Худой Ягуар
Бред
Трендовый Выдра
делал подобное, это фермы (но не из сотен тысяч) + люди сами шарят стату (например бота tgstat добавляют в админку)
Раздражительный Барс
Вообще, там, в телегам, api есть специальное. Не факт что не дадут бан, но есть. 😁
Лохматый Осьминог
Публичные каналы можно парсить через web через t.me, всякое такое: https://tgviewer.github.io/?channel=bezsmuzi&post=13291
Добрый Павлин
без проблем через api клиента telethon
Вон Макс хотел свой канал парсить, набросал за день https://gitverse.ru/DADementr/tg_parser_mdb
Лохматый Осьминог
Есть же API официальное. Или там лимиты какие-то, кто сталкивался?
Добрый Павлин
все хватает если не наглеть
Метафизический Чайник
Создаю подобный сервис, массово собираю информацию с тысячи каналов. Для этого использую небольшую ферму из юзерботов, для старта, только так можно собрать информацию, если проект крупный и уже известный как тгстат, то добавляя их бота в канал вы уменьшите запросы на мониторинг каналов, но незнакомого бота ни кто добавлять не будет. Лимиты даже на чтение каналов есть, часто нарываюсь на ошибку по флуду, т.к. один канал это 2-3 запроса, если получать полную информацию, история сообщений, каждые 200 сообщений 1 запрос, получить вложение в сообщение, на каждое вложение 1 запрос. Итого 500-1000 запросов и бан на несколько часов, обычно от 12 часов бан. Если юзерботы еще пишут сообщения, то лимиты строже, по хорошему что бы не попадать в бан, приложение не должно делать однотипные запросы постоянно, нужен умный бот. Как это сделать пока не знаю. Часто пишут что менять нужно IP, работать через прокси, это не помогает, работаю на одних и тех же ip бана по ним нет.
Автор канала
А какая конечна цель?
Метафизический Чайник
Основная цель создать органический трафик из веба в телегу. Работаю над глобальным поиском по открытым каналам, очень большой объем данных требуется проиндексировать, но хотя бы ру сегмент для начала охватить.
Так же на базе этих данных можно построить и другие сервисы, которые могут дать так же трафик, упростить ведение каналов и бизнеса внутри телеграм, в целом дать бизнес-инструменты. Телеграм стремиться стать супераппом, как WeChat, так что мешает развиваться вместе с ним и стать частью этой системы. Но это пока планы, но первый камушек уже заложен.
Автор канала
Мне кажется мы даже слегка конкурируем
Метафизический Чайник
если с telega.fm, то немного да, я разработал tggo.me (пока отключил, меняю архитектуру) он почти полностью повторяет оригинал t.me, но обнаружил столько мусора который начал в индекс поисковиков попадать и пока прикрыл все это что бы не попасть под блокировки, и это самый проблемный этап, модерация каналов, сейчас у меня в базе 800k+ каналов и много мусора
Автор канала
Вы не волнуйтесь что нарушаете авторские права?
Метафизический Чайник
а в чем нарушение авторских прав, я себе не присваиваю контент, сервис является только агрегатором, все ссылки ведут куда нужно, сам контент не меняется, любой пост ведет на пост в канале, если только то что публикуя контент автор канала знал что его контент будет в t.me, а не на других агрегаторах, а он там всплыл, то в этом вопросе возможно есть риск, но есть техническая возможность отключить канал быстро, если возникнут проблемы с этим и тогда сайт просто будет по старым ссылка перенаправлять сразу к источнику, но сколько таких агрегаторов нарушают это авторское право, тот же TGStat и другие, тут палка о двух концах, если автор канала хочет внешний трафик привлечь, то мирится с этим, если нет, то отключаем его канал от системы
Полосатый Павлин
зачем ферму ботов создавать, парси просто из веба текст, так дело пойдет быстрей
Метафизический Чайник
Веб дает очень ограниченную информацию в отличии от API, для простого получения постов да пойдет, веб не отдает ID канала, а только username, но у канала может быть несколько username, или если он сменится, описание каналов в вебе обрезанное, много недостатков
Полосатый Павлин
для получения инфо о канале можно ботов использовать, но текст парсить ботом геморойно из-за лимитов
Метафизический Чайник
1 запрос и 200 сообщений канала получил + различная мета-информация сообщения, в целом получить историю канала только разово, рассчитать переодичность выхода постов в канале и можно построить алгоритм через какие промежутки делать запросы истории последних 200 сообщений, если обновлять еще все реакции и просмотры, то чаще, все зависит какие данные нужны
а каждый бот это отдельный аккаунт, а это отдельный номер телефона, а сейчас проблемы с регистрацией на себя множества номеров, и это все нужно поддерживать и не дать заблочиться, есть геморой конечно, но создать такую систему было интересно
Добрый Павлин
А фрагмент что? Или тоже уже номера телефонов требуют?
Метафизический Чайник
а причем тут фрагмент, это же аукцион имен. Для парсинга канала, если нужна история сообщений, нужен userbot (т.е. реальный аккаунт телеграм управляемый скриптом), а для его регистрации нужен номер телефона, на один номер не создать 2 аккаунта, обычный тг бот не сможет получить историю канала, либо парсить веб версию
Добрый Павлин
Не только аукцион имен. но и псевдо номер для телеги +888
Метафизический Чайник
о, это интересно, надо изучить, спасибо за подсказку
Добрый Павлин
Ну фрагмент вообще полезный, особенно для ботоводов🙃
Вон Макс хотел свой канал парсить, набросал за день https://gitverse.ru/DADementr/tg_parser_mdb
Так же на базе этих данных можно построить и другие сервисы, которые могут дать так же трафик, упростить ведение каналов и бизнеса внутри телеграм, в целом дать бизнес-инструменты. Телеграм стремиться стать супераппом, как WeChat, так что мешает развиваться вместе с ним и стать частью этой системы. Но это пока планы, но первый камушек уже заложен.
а каждый бот это отдельный аккаунт, а это отдельный номер телефона, а сейчас проблемы с регистрацией на себя множества номеров, и это все нужно поддерживать и не дать заблочиться, есть геморой конечно, но создать такую систему было интересно