tsumiki-media logo

tsumiki-media

Command Palette

Search for a command to run...

AWSサービス比較
約14分
中級
6/10
2025年9月24日

AWS DEA-C01 対策 Glue vs Step Functions

AWS GlueとStep Functionsのワークフロー管理とデータ処理サービスの違いを理解し、ETL処理とオーケストレーション要件に応じて適切なサービスを選択するための完全ガイド。実践的な問題を通じて使い分けのポイントを解説します。

この記事のポイント

  • 1
    GlueとStep Functionsの基本的な違いを理解する
  • 2
    各オーケストレーションサービスの適用場面と選択基準を把握する
  • 3
    実践的な問題を通じて使い分けのポイントを理解する

目次

AWS Glue vs Step Functions

AWS GlueとStep Functionsは、どちらもワークフロー管理を実現するAWSサービスですが、特化領域適用場面が大きく異なります。

GlueETLデータ処理に特化し、Step Functions汎用ワークフローオーケストレーションに特化した設計となっています。

2つのオーケストレーションサービスの違い

GlueとStep Functionsは、ワークフロー管理という同じ目的を持ちながら、処理対象統合サービス運用モデルにおいて重要な違いがあります。

指定されたサービス/設定が見つかりません: stepfunctions

🔍サーバーレスワークフロー

サーバーレスワークフローは、インフラ管理不要でビジネスロジックに集中できるアーキテクチャです。AWS Step Functionsはサーバーレスで複数のLambda関数やAWSサービスを連携させ、条件分岐並列処理エラー処理再試行を組み込み機能として提供します。AWS Glueワークフローは主にETL処理に特化し、データ変換に最適化されています。

GlueとStep Functionsの選択は、処理内容の性質統合要件の複雑さ運用負荷の許容度を総合的に評価して決定する必要があります。

判断基準

Lambda関数の連携汎用ワークフローが必要な場合はStep Functionsを選択し、ETLデータ処理Apache Sparkが必要な場合はGlueを選択します。

ベストプラクティス

CSVファイル処理の4ステップをLambda関数で順次実行しエラー時に自動再試行する要件では、サーバーレスワークフロー管理組み込みエラー処理機能最小運用オーバーヘッドのためStep Functionsが最適解となります。

ベストプラクティス

XMLデータの処理効率化とストレージコスト削減には、Apache Spark ETL処理列指向フォーマット変換自動圧縮機能のためAWS Glueが最適解となります。ORC変換により50-80%のストレージコスト削減を実現できます。

実践問題で確認

前セクションで学んだ内容を、実践的な問題で確認してみましょう。ここでは、GlueとStep Functionsの使い分けに関する理解を深めるための問題を3つのカテゴリに分けて解説します。

各問題では、処理要件と運用制約を正しく分析し、最適解を導出する思考プロセスを体験できます。

AWS認定データエンジニア - アソシエイト

練習問題

あるデータ分析企業は、クライアントから提供されるCSVファイルを処理するデータパイプラインを自動化したいと考えています。ファイルが専用のAmazon S3バケットにアップロードされると、このパイプラインは次のステップを順次実行する必要があります: 1. CSVファイルの検証 2. データの変換処理 3. 結果の別のS3バケットへの保存 4. クライアントへの処理完了通知の送信 各ステップはAWS Lambdaで実装され、エラーが発生した場合は自動的に再試行する機能が必要です。 最小限の運用オーバーヘッドでこの自動化ワークフローを実装するために、どのサービスを選択すべきですか?

AWS認定データエンジニア - アソシエイト

練習問題

ある医療研究機関が、センサーデータ、患者レコード、および臨床試験結果を含む多様なデータセットを処理するための分析パイプラインを構築しています。このパイプラインは、異なるタイプのETLジョブを複数組み合わせ、エラー処理能力と適切な監査証跡が必要です。組織では以下の要件を満たすオーケストレーションソリューションを検討しています: - 複数のETLステップを含む複雑なワークフローの実行 - 異なるタイプのエラーに対する洗練された対応メカニズム - 実行状態の視覚化とワークフローの履歴追跡 - 適切な承認のためのセキュリティ統制の適用 - 条件付き分岐に基づいた動的なパイプライン実行 この医療研究機関のデータパイプラインのオーケストレーションに最適なAWSサービスはどれですか?

AWS認定データエンジニア - アソシエイト

練習問題

あるメディア企業は、大量の動画分析データを処理しています。このデータは現在、XMLフォーマットでAmazon S3に保存されており、毎日の分析ジョブでAmazon EMRクラスターによって処理されています。しかし、XMLフォーマットの処理は計算コストが高く、クエリも遅いことが問題となっています。企業はデータ処理の効率を上げつつ、S3ストレージコストも削減したいと考えています。 この要件を満たすための最適なアプローチはどれですか?

まとめ

AWSワークフロー管理サービスの選択では、GlueStep Functionsの特性の違いを理解した適切な判断が成功の鍵となります。

Lambda関数連携サーバーレスオーケストレーション複雑な条件分岐エラー処理と再試行必要な場合に最適です。CSVファイル処理の自動化や医療研究機関の複雑なワークフローに適しています。サーバーレスアーキテクチャにより、最小限の運用オーバーヘッドで高度なワークフロー管理を実現します。

Apache Spark ETLデータフォーマット変換大量データ処理ストレージ最適化必要な場合に最適です。XMLからORC形式への変換により大幅なコスト削減を実現し、クエリパフォーマンスを向上させます。データ処理に特化したワークフロー管理を提供します。

処理内容(Lambda関数連携→Step Functions、データ変換→Glue)、統合要件(汎用サービス→Step Functions、データソース→Glue)、運用負荷(最小化→Step Functions、ETL特化→Glue)を主要な判断軸とし、要件に応じて適切なサービスを選択します。

これらの判断基準を理解し、処理内容→統合要件→運用負荷の順で論理的に分析することで、適切なワークフロー管理サービス選択ができます。

理解度チェック

Lambda関数の連携が必要な場合、どちらを選択すべきか?

大量データのフォーマット変換が必要な場合、どちらを選択すべきか?

柔軟なエラー処理と再試行が必要な場合、どちらを選択すべきか?

ETL処理に特化したワークフローが必要な場合、どちらを選択すべきか?

他の問題も解いてみませんか?

tsumikiでは、AWS認定試験の合格に必要な知識を体系的に学習できます。実践的な問題を通じて、AWSスキルを身につけましょう。