ANG Platform
Proposal № 2026-04 / Confidential
Data Platform Proposal · ГК Интерлизинг

Строим платформу данных
с учётом текущих задач
и кратного роста.

Архитектура изначально закладывается с учётом масштабирования. Стартовый контур решает задачи управленческой аналитики и регуляторной отчётности; последующие этапы расширяют платформу без изменения базовых принципов.

Объём данных
~1.5 ТБ
Этапы внедрения
3 фазы
Time-to-Production
10–12 нед.
Размещение
On-premise
01 — Контекст

Бизнес-контекст и приоритеты

Лизинговая компания — договорный бизнес с длинным циклом, сложным скорингом и плотной регуляторной отчётностью. Платформа должна одинаково эффективно поддерживать операционные процессы, управленческую аналитику и взаимодействие с регулятором.

Управленческая аналитика

Портфель, платежи, просрочка, маржинальность сделок, эффективность менеджеров и филиалов — с единой логикой расчёта показателей.

SUPERSET · CLICKHOUSE · JUPYTERHUB

Регуляторная отчётность

ЦБ РФ, ФНС, МСФО — прослеживаемость, версионирование и воспроизводимость данных с точностью до транзакции.

AUDIT · LINEAGE · REPLAY

Data Science и риск

Среда для работы аналитиков и Data Science: скоринговые модели, оценка портфельного риска, сегментация клиентов и предметов лизинга.

JUPYTERHUB · SPARK
Архитектурный принцип

Соразмерность решений текущему объёму данных

На текущем объёме данных (~1.5 ТБ) мы не навязываем избыточные решения, такие как Greenplum или сложные Lakehouse-архитектуры. Стартовый контур подобран так, чтобы закрыть задачи управленческой аналитики и регуляторной отчётности с первых недель эксплуатации.

При этом архитектура изначально закладывается с учётом масштабирования: расширение до полноценной платформы данных происходит последовательно, по мере роста объёмов, количества источников и появления новых задач.

02 — Архитектура

Три этапа: MVP, расширение, зрелость

Каждый следующий этап добавляет компоненты к предыдущему — ни один компонент не исчезает. Переключайте табы, чтобы увидеть целевой контур на каждом этапе.

01 · Sources
Источники
Kafka optional
Debezium optional
NiFi optional
02 · Ingestion
Доставка
Airflow orchestration
03 · Storage / Compute
Хранение / обработка
ClickHouse DWH
Spark optional
04 · Consumption
Потребление
Superset BI
JupyterHub Data Science
ClickHouse JDBC
обязательный компонент
optional — подключается по составу источников
MVP-принцип: минимальный контур, необходимый для запуска аналитики и регуляторной отчётности. Состав компонентов в блоке Sources определяется по результатам discovery: если источники поддерживают CDC — используется Kafka + Debezium; если требуется интеграция через файлы/API — NiFi.
01 · Sources
Источники
ERP
CRM sales
API external
Kafka streaming
02 · Ingestion
Доставка
Kafka event bus
NiFi optional
Airflow orchestration
03 · Data Platform
Платформа данных
ClickHouse DWH
Iceberg + S3 MinIO
Spark processing
Trino query engine
Data Catalog metadata
04 · Consumption
Потребление
Superset BI
JupyterHub Data Science
Принцип развития: все компоненты MVP сохраняются. Добавляются новые источники, Kafka переходит в роль основной шины событий, платформа данных пополняется Iceberg + S3 (MinIO), Trino и Data Catalog. Это создаёт условия для работы с историческими данными, федеративными запросами и централизованного управления метаданными.
01 · Sources
Источники
Internal systems unified
Partners API b2b
Events digital
02 · Streaming / Orchestration
Доставка
Kafka cluster
Airflow orchestration
03 · Data Platform
Платформа данных
ClickHouse cluster
Iceberg + S3 storage
Spark processing
Trino query engine
Data Catalog metadata
ML Platform modeling
04 · Products
Продуктовое потребление
Superset BI
JupyterHub Data Science
API Gateway optional
Зрелая платформа данных как внутренний продукт компании. Все компоненты предыдущих этапов сохраняются, ClickHouse и Kafka переходят в кластерный режим, добавляется ML-платформа. Платформа поддерживает работу нескольких команд, единый каталог данных и стандартизированные data-контракты.
03 — Стек MVP

Роль компонентов MVP

По каждому компоненту — функция в контуре Интерлизинга и типовые сценарии применения. Компоненты optional подключаются по результатам discovery.

ClickHouse
Analytical Core

Ядро платформы на этапе MVP. Колоночная СУБД, обеспечивающая хранение DWH, витрин и аналитических моделей с предсказуемой производительностью на миллиардных таблицах.

Сценарии в лизинге
Витрины портфеля, платежей, просрочек
Аналитические модели для Superset и JupyterHub
Прямой JDBC-доступ для пользовательских приложений
Airflow
Orchestration

Единый оркестратор процессов: расписания, зависимости, retries, SLA, алерты. Все регулярные процессы — загрузки, трансформации, формирование отчётности — управляются из одной точки с прозрачным логированием.

Сценарии в лизинге
Регламентные загрузки справочников и агрегатов
Формирование регуляторной отчётности (ЦБ, МСФО)
SLA-контроль готовности витрин
Kafka
Event Bus · optional MVP

Шина событий для интеграции систем. На MVP подключается при наличии источников с поддержкой CDC (через Debezium) либо при требовании near-real-time потоков. На этапе расширения становится обязательным компонентом.

Сценарии в лизинге
CDC из АБС и смежных систем
События от CRM и цифровых каналов
Основа для интеграции без прямых связок
Spark
Processing · optional MVP

Spark является промышленным стандартом для обработки данных и Data Science и закладывает основу для масштабирования и будущих сценариев. В контуре MVP применяется для тяжёлых трансформаций и работы аналитиков через JupyterHub.

Сценарии применения
Сложные трансформации и реконсиляция
Data Science-пайплайны в JupyterHub
Работа с Iceberg-данными на последующих этапах
04 — Дорожная карта

План внедрения MVP

Три фазы в рамках 10–12 недель. Базовая оценка в 6–8 недель соответствовала развёртыванию инфраструктуры. После детального изучения требований заказчика срок уточнён до 10–12 недель: это срок достижения production-результата — работающих витрин, BI и регламентных процессов.

01
Недели 1–4

Discovery и фундамент

→ инфраструктура · модели · соглашения

Аудит источников и приоритетных доменов. Развёртывание окружений DEV/PROD на инфраструктуре заказчика. Согласование data-контрактов и моделей ключевых сущностей: договоры, платежи, клиенты, предметы лизинга.

Kubernetes / Helm-стенды
CI/CD для DAG и SQL
Data-contracts v1
Мониторинг и алерты
02
Недели 5–9

Ingestion и ядро DWH

→ Airflow · ClickHouse · Kafka (по составу источников)

Реализация регулярных загрузок через Airflow. При наличии CDC-источников — потоки через Kafka + Debezium. В ClickHouse — raw / stage / core-слои для 3–5 приоритетных доменов, построенные витрины управленческой отчётности.

ClickHouse DWH (3 слоя)
Production-поток загрузок
Витрины портфеля и платежей
Регламентные DAG в Airflow
03
Недели 10–12

BI, среда DS и передача в эксплуатацию

→ Superset · JupyterHub · документация

Развёртывание Superset и JupyterHub, подготовка дашбордов для бизнеса, формирование регламентов эксплуатации, обучение команды заказчика. Платформа выходит в production и переходит под совместное сопровождение.

Дашборды Superset
JupyterHub для аналитиков
Runbook'и и SLA
Передача в эксплуатацию
05 — Бизнес-ценность

Эффект для бизнеса

Платформа задаёт единую логику работы с данными и меняет качество управленческих решений. Ниже — ключевые эффекты, которые получает компания.

01

Повышение качества управленческой отчётности

Достоверные, своевременные и прослеживаемые данные становятся основой для всех управленческих решений — от уровня филиала до правления.

02

Единая логика расчёта показателей

Все подразделения работают с одними и теми же определениями KPI, портфеля, просрочки и маржинальности — закреплёнными в коде платформы.

03

Устранение расхождений между подразделениями

Финансы, риск-менеджмент, продажи и операции оперируют согласованными цифрами. Время на сверку и объяснение разниц в отчётах сокращается кратно.

04

Ускорение принятия решений

Данные перестают быть узким местом: дашборды и аналитические срезы доступны в режиме близком к real-time, без зависимости от ИТ для каждого нового запроса.

06 — Подход ANG

Работаем как архитектор заказчика

Мы строим платформу, которой ваша команда управляет как собственным активом с первого дня эксплуатации.

— 01

Репозиторий в инфраструктуре заказчика

Репозиторий проекта разворачивается в инфраструктуре заказчика (GitLab). Helm-чарты, Terraform, DAG и SQL ведутся по стандартам команды, CI/CD настраивается в периметре клиента.

— 02

Опыт enterprise-контура

Работаем в периметре банков, государственных структур и производств. Понимаем требования к on-premise-размещению, закрытому контуру, сертифицированному ПО и процедурам информационной безопасности.

— 03

Передача знаний и документации

Каждая фаза сопровождается документацией, регламентами и обучением команды заказчика. К концу MVP ваша команда самостоятельно расширяет модель данных, ведёт эксплуатацию и управляет развитием платформы.

Следующий шаг

Двухчасовая discovery-сессия с ИТ-командой и бизнес-заказчиком ГК Интерлизинг. Уточняем перечень источников, приоритеты доменов и требования к отчётности. По результатам — детальный план работ и смета за 5 рабочих дней.

ceo@argumentdata.ru → написать