分野まとめ記事

約25分

マスター

10/10

2025年9月23日

AWS DEA-C01 分野別完全攻略データの取り込みと変換

AWS Certified Data Engineer - Associate (DEAC01) 試験の最重要分野である「データの取り込みと変換」を完全網羅。Kinesis Data StreamsとFirehoseによるリアルタイムデータ取り込み、AWS Glueによる高性能データ変換とETL最適化、Lambda関数によるサーバーレス処理、Step FunctionsとRedshift活用による包括的なデータパイプライン構築まで、AWSの主要なデータエンジニアリングサービスを横断的に解説し、実践的な問題を通じて合格に必要な知識を体系的に習得します。

この記事のポイント

1
リアルタイムストリーミング、バッチETL、サーバーレス処理の主要パターンを理解する
2
データ特性に応じて最適なAWSサービスを選択する能力を養う
3
主要サービスの設計パターンとパフォーマンス最適化を習得する

「データの取り込みと変換」の全体像

AWS Certified Data Engineer - Associate (DEAC01) 試験において、データの取り込みと変換は、現代のデータエンジニアリングに不可欠な中核的スキルを問う分野です。この分野では、リアルタイムストリーミングデータからバッチ処理、サーバーレスアーキテクチャまで、多様なデータパターンに対応できる設計・実装能力が問われます。

本記事では、データの取り込みと変換を"リアルタイムストリーミング処理"、"バッチETL処理と最適化"、"サーバーレスデータ処理"、"データウェアハウス処理"の4つの柱に分け、Kinesis、AWS Glue、Lambda、Step Functions、Redshiftなど17の重要トピックを網羅し、実践的な問題とともに解説します。

試験で重要な4つの柱

リアルタイムストリーミング処理

Kinesis Data StreamsとData Firehoseの使い分け、リアルタイムアナリティクス、ストリーミングデータのフィルタリング・変換、および大量データの効率的な取り込み戦略。

バッチETL処理と最適化

AWS Glueによる大規模データ変換、Python ShellとPySparkの選択基準、データフォーマット変換、パフォーマンス最適化、並列処理による高速化。

サーバーレスデータ処理

Lambda関数による軽量データ処理、同時実行制限のトラブルシューティング、大容量ファイル処理、SAMによる効率的な開発・デプロイメント。

データウェアハウス処理

Redshiftストアドプロシージャによるデータベース内処理、Step Functionsとの組み合わせによるワークフロー管理、データマイグレーション戦略。

リアルタイムストリーミング処理

現代のデータエンジニアリングでは、IoTデバイス、Webアプリケーション、モバイルアプリから生成される大量のリアルタイムデータを効率的に取り込み、処理する能力が不可欠です。AWS Kinesisファミリーは、毎秒数千件から数百万件のデータレコードを処理する高スループットストリーミング処理を実現します。

AWS認定データエンジニア - アソシエイト

練習問題

ある企業が自動車の走行データを収集して分析するアプリケーションを開発しています。データの速度は1分あたり約1GBで、分析モデルを構築するために最も重要な属性のみを抽出してフィルタリングする必要があります。データはリアルタイムで処理され、効率的な保存と分析が求められています。データエンジニアとして、インフラストラクチャの保守作業が最小限で、かつコスト効率の高いソリューションを構築するにはどうすればよいでしょうか？

AWS認定データエンジニア - アソシエイト

練習問題

ある小売業者がPOSシステムのトランザクションデータをAmazon Kinesis Data Streamsに送信し、異常な購買パターンの検出や在庫更新のためにリアルタイム処理する必要があります。最も効率的でスケーラブルな設計はどれですか？

AWS認定データエンジニア - アソシエイト

練習問題

小売業の企業が、複数の実店舗からの販売トランザクションデータをリアルタイムで収集し、データウェアハウスに保存して分析したいと考えています。データエンジニアリングチームは、各店舗のPOSシステムからのトランザクションデータを直接データリポジトリにストリーミングするソリューションを求めています。また、必要に応じてSQLベースのデータ変更も可能であることが要件です。ソリューションは可能な限り早く実装する必要があり、最小限の管理オーバーヘッドで複雑な分析クエリを実行できる必要があります。さらに、販売異常や在庫レベルをハイライトするビジネスインテリジェンスダッシュボードも必要です。このシナリオに最適なソリューションはどれですか？

リアルタイムストリーミング処理では、データの特性とビジネス要件に応じてKinesisサービスを適切に選択することが重要です。Data Firehoseによる簡単なデータ取り込み、Data Streamsによる高度なストリーミング制御、Lambdaとの組み合わせによるリアルタイム処理など、用途に応じた最適なアーキテクチャを構築できます。

以下の記事では、各Kinesisサービスの詳細な実装方法と効果的な設計パターンを学習できます。

MSK vs Kinesis サービス比較

MSKとKinesisの特性の違いとリアルタイム処理における使い分け

Command Palette

目次

AWS認定データエンジニア - アソシエイト 試験構成

「データの取り込みと変換」の全体像

試験で重要な4つの柱

リアルタイムストリーミング処理

バッチETL処理と最適化

サーバーレスデータ処理

データウェアハウス処理

リアルタイムストリーミング処理

AWS認定データエンジニア - アソシエイト

AWS認定データエンジニア - アソシエイト

AWS認定データエンジニア - アソシエイト

MSK vs Kinesis サービス比較

Kinesis リアルタイムアナリティクス

Kinesis vs SQS サービス比較

Kinesis Data Streams vs Data Firehose

バッチETL処理と最適化

AWS認定データエンジニア - アソシエイト

AWS認定データエンジニア - アソシエイト

AWS認定データエンジニア - アソシエイト

AppFlow vs Glue サービス比較

EMR vs Glue サービス比較

Glue Python Shell vs PySpark

Glue データフォーマット変換最適化

Glue パフォーマンス最適化

サーバーレスデータ処理

AWS認定データエンジニア - アソシエイト

AWS認定データエンジニア - アソシエイト

AWS認定データエンジニア - アソシエイト

Lambda 同時実行制限トラブルシューティング

Lambda 大容量ファイル処理

SAM サーバーレスアプリケーションモデル

データウェアハウス処理

AWS認定データエンジニア - アソシエイト

AWS認定データエンジニア - アソシエイト

AWS認定データエンジニア - アソシエイト

DMS データベースマイグレーション

Redshift S3バルクロード

Glue vs Step Functions

Redshift ストアドプロシージャ

Data API RDS・Redshift

まとめ

tsumikiで学習する

他の問題も解いてみませんか？

AWS認定データエンジニア - アソシエイト試験構成