Не знаю, зачем это надо людям, но вопрос интересный. К слову, многие каналы (и мой) имеют веб-версию и без комментариев можно без особых проблем собирать контент. С комментарими сложнее, уже нужен бот- пользователь.
Русский ИТ бизнес
Так эти сервисы принадлежат самой Телеге (опосредовано), они часть рекламной инфраструктуры. Без наличия статистики, как рекламодателей-то привлекать. Ответить
Создаю подобный сервис, массово собираю информацию с тысячи каналов. Для этого использую небольшую ферму из юзерботов, для старта, только так можно собрать информацию, если проект крупный и уже известный как тгстат, то добавляя их бота в канал вы уменьшите запросы на мониторинг каналов, но незнакомого бота ни кто добавлять не будет. Лимиты даже на чтение каналов есть, часто нарываюсь на ошибку по флуду, т.к. один канал это 2-3 запроса, если получать полную информацию, история сообщений, каждые 200 сообщений 1 запрос, получить вложение в сообщение, на каждое вложение 1 запрос. Итого 500-1000 запросов и бан на несколько часов, обычно от 12 часов бан. Если юзерботы еще пишут сообщения, то лимиты строже, по хорошему что бы не попадать в бан, приложение не должно делать однотипные запросы постоянно, нужен умный бот. Как это сделать пока не знаю. Часто пишут что менять нужно IP, работать через прокси, это не помогает, работаю на одних и тех же ip бана по ним нет. Ответить
Основная цель создать органический трафик из веба в телегу. Работаю над глобальным поиском по открытым каналам, очень большой объем данных требуется проиндексировать, но хотя бы ру сегмент для начала охватить.
Так же на базе этих данных можно построить и другие сервисы, которые могут дать так же трафик, упростить ведение каналов и бизнеса внутри телеграм, в целом дать бизнес-инструменты. Телеграм стремиться стать супераппом, как WeChat, так что мешает развиваться вместе с ним и стать частью этой системы. Но это пока планы, но первый камушек уже заложен. Ответить
если с telega.fm, то немного да, я разработал tggo.me (пока отключил, меняю архитектуру) он почти полностью повторяет оригинал t.me, но обнаружил столько мусора который начал в индекс поисковиков попадать и пока прикрыл все это что бы не попасть под блокировки, и это самый проблемный этап, модерация каналов, сейчас у меня в базе 800k+ каналов и много мусора Ответить
раскрыть ветку (2)
Автор канала
Вы не волнуйтесь что нарушаете авторские права? Ответить
раскрыть ветку (1)
Метафизический Чайник
а в чем нарушение авторских прав, я себе не присваиваю контент, сервис является только агрегатором, все ссылки ведут куда нужно, сам контент не меняется, любой пост ведет на пост в канале, если только то что публикуя контент автор канала знал что его контент будет в t.me, а не на других агрегаторах, а он там всплыл, то в этом вопросе возможно есть риск, но есть техническая возможность отключить канал быстро, если возникнут проблемы с этим и тогда сайт просто будет по старым ссылка перенаправлять сразу к источнику, но сколько таких агрегаторов нарушают это авторское право, тот же TGStat и другие, тут палка о двух концах, если автор канала хочет внешний трафик привлечь, то мирится с этим, если нет, то отключаем его канал от системы Ответить
Полосатый Павлин
зачем ферму ботов создавать, парси просто из веба текст, так дело пойдет быстрей Ответить
раскрыть ветку (8)
Метафизический Чайник
Веб дает очень ограниченную информацию в отличии от API, для простого получения постов да пойдет, веб не отдает ID канала, а только username, но у канала может быть несколько username, или если он сменится, описание каналов в вебе обрезанное, много недостатков Ответить
раскрыть ветку (7)
Полосатый Павлин
для получения инфо о канале можно ботов использовать, но текст парсить ботом геморойно из-за лимитов Ответить
раскрыть ветку (6)
Метафизический Чайник
1 запрос и 200 сообщений канала получил + различная мета-информация сообщения, в целом получить историю канала только разово, рассчитать переодичность выхода постов в канале и можно построить алгоритм через какие промежутки делать запросы истории последних 200 сообщений, если обновлять еще все реакции и просмотры, то чаще, все зависит какие данные нужны
а каждый бот это отдельный аккаунт, а это отдельный номер телефона, а сейчас проблемы с регистрацией на себя множества номеров, и это все нужно поддерживать и не дать заблочиться, есть геморой конечно, но создать такую систему было интересно Ответить
раскрыть ветку (5)
Добрый Павлин
А фрагмент что? Или тоже уже номера телефонов требуют? Ответить
раскрыть ветку (4)
Метафизический Чайник
а причем тут фрагмент, это же аукцион имен. Для парсинга канала, если нужна история сообщений, нужен userbot (т.е. реальный аккаунт телеграм управляемый скриптом), а для его регистрации нужен номер телефона, на один номер не создать 2 аккаунта, обычный тг бот не сможет получить историю канала, либо парсить веб версию Ответить
раскрыть ветку (3)
Добрый Павлин
Не только аукцион имен. но и псевдо номер для телеги +888 Ответить
раскрыть ветку (2)
Метафизический Чайник
о, это интересно, надо изучить, спасибо за подсказку Ответить
раскрыть ветку (1)
Добрый Павлин
Ну фрагмент вообще полезный, особенно для ботоводов🙃 Ответить
Вон Макс хотел свой канал парсить, набросал за день https://gitverse.ru/DADementr/tg_parser_mdb
Так же на базе этих данных можно построить и другие сервисы, которые могут дать так же трафик, упростить ведение каналов и бизнеса внутри телеграм, в целом дать бизнес-инструменты. Телеграм стремиться стать супераппом, как WeChat, так что мешает развиваться вместе с ним и стать частью этой системы. Но это пока планы, но первый камушек уже заложен.
а каждый бот это отдельный аккаунт, а это отдельный номер телефона, а сейчас проблемы с регистрацией на себя множества номеров, и это все нужно поддерживать и не дать заблочиться, есть геморой конечно, но создать такую систему было интересно