Данный репозиторий предназначен для обучения работе с Cloud Spark от VK Cloud.
Cloud Spark — решение на базе Apache Spark Operator и PaaS Kubernetes от VK Cloud.
Оно позволяет развернуть Spark внутри Kubernetes для работы с S3, ClickHouse, GreenPlum в облаке.
Запустите cloud_spark_tutorial.ipynb и следуйте инструкциям.
Для успешной работы с данной тетрадкой необходимо создать инстанс Spark k8s в ML Platform и получить токен в ЛК VK Cloud в разделе Токены ML Platform.
Далее необходимо установить клиентскую библиотеку для работы с сервисом. Инструкция как установить библиотеку внутри cloud_spark_tutorial.ipynb
Документация:
https://cloud.vk.com/docs/ru/ml/spark-to-k8s