Фантастика... Яндекс Пэй поделились архитектурой своей аналитической платформы, которая обрабатывает 100+ ТБ в сутки.
Что у них в облаке:
10-12 ТБ данных ежедневно через Kafka и Debezium
1 ПБ в Object Storage - сырые данные
Greenplum + ClickHouse - основные хранилища
pache Spark + DataSphere - для аналитиков
Крутые фишки:
DataSphere - единое окно для аналитиков с соблюдением банковской безопасности
Spark-кластеры - распределённые вычисления для 100+ ТБ данных
DataLens - дашборды для продуктовых команд
Проблемы, которые решили:
Безопасность - ролевая модель через IAM
Производительность - ушли от устаревших версий Spark
Удобство - аналитики работают в ноутбуках, а не в консоли
У нас есть база 1 Тб для парсинга. Чистим регулярно, обычный MS SQL (лицензионный, замечу).
Русский ИТ бизнес
Русский ИТ бизнес 👨
Подписаться

Комментарии (0)
этот тип архитектуры издревле называется "палп фикшен"
элементы здесь скрепляются дешевыми текстами с перечнем актуальных в сезоне брендов
не носишь бренд не станешь своим, значт не получишь повышение работу и всяческое признание в тусовке
т.е. "у нас есть" и речь идет не о категории, а о бренде. Это потребление
У нас есть ксерокс. Это ещё бренд, или просто копир.
здесь и сейчас автор канала восстановил социальный порядок, заявив что он не хуже других, предьявив в качестве обоснования обладание брендом
Про потребление - это когда я пользуюсь Маком и андроиды говно. При этом в маке нет даже разъема для флешки от всего интернета.
Kafka, Debezium, Object Storage, Greenplum, ClickHouse, Apache Spark, DataSphere, DataLens,IAM
но что дает простое перечисленние кроме того, что они это "имеют"?
И почему не указали эксель, ворд и файловый менеджер? Неужели не юзают?
поэтому им нужно сильно стараться, чтобы не отпугнуть специалистов
просто в обществе потребления нельзя просто написать бабло-бадло