Інтеграція PySpark Streaming з AWS EMR та Step Functions для обробки великих даних в реальному часі
DOI:
https://doi.org/10.31713/MCIT.2025.039Keywords:
AWS, PySpark, BigDataAbstract
У статті розглядається інтеграція PySpark Streaming з AWS EMR та Step Functions для обробки великих даних в реальному часі. Описано рішення двох ключових проблем, що виникають при запуску та оновленні потокових обробок даних: забезпечення безперервної роботи стрім-джоб без downtime і автоматичне оновлення версій PySpark Streaming jobs. Для вирішення цих завдань пропонується використання AWS Step Functions для оркестрації запуску і зупинки джоб, а також S3 Bucket для визначення лідера, що гарантує запуск тільки однієї активної джоби. Окрім того, у статті розглянуто механізм автоматичного перезапуску джоб у разі помилок та створення подій для оновлення версій завдань. Такий підхід дозволяє забезпечити безперервну і масштабовану обробку потокових даних, мінімізуючи ризики downtime та забезпечуючи автоматизацію процесів на всіх етапах.
This article examines the integration of PySpark Streaming with AWS EMR and Step Functions for real-time big data processing. It describes solutions to two key challenges that arise when running and updating streaming data jobs: ensuring continuous execution of streaming jobs without downtime and enabling automatic version updates of PySpark Streaming jobs. To address these challenges, the article proposes using AWS Step Functions to orchestrate job start and stop operations, as well as an S3 bucket to determine the leader, ensuring that only one active job runs at a time. Additionally, the article discusses mechanisms for automatically restarting jobs in case of failures and generating events to trigger job version updates. This approach enables continuous and scalable streaming data processing while minimizing downtime risks and automating processes across all stages.
Downloads
Published
How to Cite
Issue
Section
License
Copyright (c) 2025 Modeling, Control and Information Technologies: Proceedings of International scientific and practical conference

This work is licensed under a Creative Commons Attribution 4.0 International License.
All materials are distributed under the terms of the Creative Commons Attribution 4.0 International License, which allows others to distribute the work with attribution to the authorship of this work and the first publication in this journal.