AWS設定比較

約15分

上級

7/10

2025年9月22日

AWS DEA-C01 対策 AWS Glue データフォーマット変換最適化

AWS GlueによるCSV/XML/JSONから列指向フォーマット（Parquet/ORC/Avro）への変換最適化を理解し、クエリパフォーマンス向上とストレージコスト削減による適切なフォーマット選択基準を把握する。実践的な問題を通じて使い分けのポイントを解説します。

この記事のポイント

1
列指向フォーマット（Parquet/ORC/Avro）の特徴と適用場面を理解する
2
クエリパフォーマンスとストレージコストに応じた最適なフォーマット選択基準を把握する
3
実用的なデータ変換シナリオにおける50-80%のコスト削減実装を確認する

AWS Glue データフォーマット変換とは

AWS Glueは、行指向フォーマット（CSV、XML、JSON）から列指向フォーマット（Parquet、ORC、Avro）への変換により、クエリパフォーマンスの大幅向上とストレージコストの50-80%削減を実現できるサーバーレスETLサービスです。

資格試験では、データ特性と分析要件に基づく適切なフォーマット選択が重要な判断ポイントとなります。

列指向フォーマットの特徴と選択基準

列指向フォーマットの最も重要な特徴は、列単位での効率的なデータアクセスと圧縮率の向上にあります。この比較表は、主要な列指向フォーマットの特性と使用シナリオの違いを示しています。

Parquet

最適化対象

Amazon Athena

圧縮率

高（60-80%削減）

クエリ性能

列選択に最適

スキーマ進化

限定的

データ型

ネストした構造対応

主要用途

データレイク分析

ORC

最適化対象

Apache Hive/Spark

圧縮率

最高（70-85%削減）

クエリ性能

集計処理に最適

スキーマ進化

限定的

データ型

複雑な型対応

主要用途

データウェアハウス

Avro

最適化対象

ストリーミング処理

圧縮率

中程度（40-60%削減）

クエリ性能

スキーマ進化対応

スキーマ進化

完全サポート

データ型

動的スキーマ

主要用途

機械学習パイプライン

Parquet

ORC

Avro

最適化対象

Amazon Athena

Apache Hive/Spark

ストリーミング処理

圧縮率

高（60-80%削減）

最高（70-85%削減）

中程度（40-60%削減）

クエリ性能

列選択に最適

集計処理に最適

スキーマ進化対応

スキーマ進化

限定的

完全サポート

データ型

ネストした構造対応

複雑な型対応

動的スキーマ

主要用途

データレイク分析

データウェアハウス

機械学習パイプライン

上記の比較表に示すように、ParquetフォーマットはAmazon Athenaでの分析に最適化されており、列選択クエリで最高のパフォーマンスを発揮します。特に20列のデータセットから3-4列のみを使用する分析では、60-80%のストレージコスト削減と大幅なクエリ高速化を実現できます。

ORCフォーマットはApache Hive/Sparkでの処理に最適化されており、集計処理と複雑なデータ型に対して70-85%の最高圧縮率を提供します。EMRクラスターでの大規模データ処理に最適です。

Avroフォーマットはスキーマ進化の完全サポートにより、機械学習パイプラインや下流システム連携に最適化されています。動的スキーマ変更に対応し、ストリーミング処理環境で真価を発揮します。

🔍列指向ストレージ

列指向ストレージは、同じ列のデータを物理的に近い場所に格納する方式です。行指向ストレージ（CSV、JSONなど）とは異なり、特定の列のみにアクセスする分析クエリにおいて、不要な列データの読み取りを回避できます。さらに、同じデータ型の値が連続して格納されるため、圧縮効率が大幅に向上し、ストレージコストを50-80%削減できます。Parquet、ORC、Avroなどが代表的な列指向フォーマットです。

フォーマット選択の判断基準

選択の基準は分析エンジンとデータアクセスパターンによって決まります。Athenaでの列選択分析ならParquet、EMRでの集計処理ならORC、機械学習やスキーマ変更対応ならAvroが適切です。

用途別フォーマット最適化戦略

データの用途と分析要件に応じて、最適なフォーマット変換戦略を選択することで、コスト効率とクエリパフォーマンスを最大化できます。

データレイク分析（Athena）

CSV/JSONからParquet形式への変換。列指向アクセスにより、20列中3-4列のみの分析で大幅なコスト削減。パーティション化とカラムプルーニングで最適化。

データウェアハウス（EMR/Hive）

XML/CSVからORC形式への変換。最高圧縮率（70-85%）による大幅なストレージコスト削減。複雑な集計処理と結合操作に最適化。

機械学習パイプライン

JSON/CSVからAvro形式への変換。スキーマ進化対応により、機械学習モデルの入力データフォーマット変更に柔軟対応。下流システム連携を円滑化。

ベストプラクティス

AWS Glue ETLジョブによる自動変換パイプラインにより、S3イベント通知をトリガーとしたリアルタイム変換を実現できます。新しいデータファイルが到着するたびに、適切な列指向フォーマットへの変換を自動実行し、継続的なコスト最適化を維持できます。

UNLOAD文による効率的なフォーマット変換

Amazon AthenaのUNLOAD文は、クエリ結果を直接Parquet、ORC、Avro形式でS3に出力できる強力な機能です。新しいテーブル作成が不要で、最小限の労力による列指向フォーマット変換を実現できます。

実践問題で確認

ここまで学んだデータフォーマット変換の最適化戦略を、実践的な問題で確認しましょう。各問題は実際の企業シナリオに基づいており、適切なフォーマット選択と変換実装の能力を評価します。

AWS認定データエンジニア - アソシエイト

練習問題

健康管理アプリケーション企業のデータエンジニアは、CSV形式のユーザーの健康・運動データをAmazon S3データレイクに取り込む必要があります。CSVファイルには、ユーザーID、タイムスタンプ、身長、体重、血圧、心拍数、歩数、運動時間、睡眠時間、カロリー消費量、食事記録、水分摂取量など、合計で20の列があります。データサイエンスチームは、主にユーザーIDと運動関連データ（歩数、運動時間、カロリー消費量）の3〜4列のみに対してAmazon Athenaを使用したクエリを実行する予定で、全列に対するクエリは稀です。これらの要件を最もコスト効率よく満たすソリューションはどれですか？

AWS認定データエンジニア - アソシエイト

練習問題

あるメディア企業は、大量の動画分析データを処理しています。このデータは現在、XMLフォーマットでAmazon S3に保存されており、毎日の分析ジョブでAmazon EMRクラスターによって処理されています。しかし、XMLフォーマットの処理は計算コストが高く、クエリも遅いことが問題となっています。企業はデータ処理の効率を上げつつ、S3ストレージコストも削減したいと考えています。この要件を満たすための最適なアプローチはどれですか？

AWS認定データエンジニア - アソシエイト

練習問題

製造業企業のデータ分析チームは、IoTセンサーから収集されたデータを分析するためのパイプラインを構築しています。データはJSON形式でAmazon S3バケットに保存されており、分析チームはこのデータをAmazon Athenaを使用してクエリする予定です。さらに、分析結果をAvro形式に変換してS3に保存し、下流の機械学習システムで利用する要件があります。データエンジニアには、新しいAthenaテーブルを作成せずにこれを実現するよう指示されました。最小限の労力でこの要件を満たすためには、どのような方法が最適ですか？

まとめ

AWS Glueのデータフォーマット変換最適化は、列指向フォーマットの特性理解と用途別の適切な選択により、クエリパフォーマンスとストレージコストの大幅な改善を実現できます。適切なフォーマット選択により、様々な分析要件に対応できます。

列選択クエリで最高のパフォーマンスを発揮。20列中3-4列のみの分析で60-80%のストレージコスト削減。データレイク分析とAthenaでの集計処理に最適化されています。

Apache Hive/Sparkでの処理に最適化され、70-85%の最高圧縮率を実現。XMLなどの複雑なデータ構造の効率的変換により、計算コストとストレージコストを大幅削減できます。

スキーマ進化の完全サポートにより、機械学習パイプラインや下流システム連携を円滑化。UNLOADステートメントで最小限の労力による変換を実現できます。

これらのフォーマット変換戦略を適切に組み合わせることで、健康管理アプリの列選択分析、メディア企業の大容量XMLデータ処理、製造業IoTの機械学習連携など、業界固有の要件に対応した最適化されたデータパイプラインを実装できます。

理解度チェック

Parquet（Athena最適）、ORC（EMR最適、最高圧縮）、Avro（スキーマ進化対応）の特徴と適用場面を説明できるか？

列指向フォーマットによる60-80%のストレージコスト削減と列選択クエリの効率化メカニズムを理解しているか？

AWS Glue ETL、UNLOADステートメント、S3イベント通知による自動変換パイプラインの使い分けを説明できるか？

データレイク分析、データウェアハウス処理、機械学習パイプラインに応じた最適なフォーマット選択を判断できるか？

tsumiki-media

AWS DEA-C01 対策 AWS Glue データフォーマット変換最適化

この記事のポイント

目次

AWS Glue データフォーマット変換とは

列指向フォーマットの特徴と選択基準

Parquet

ORC

Avro

用途別フォーマット最適化戦略

データレイク分析（Athena）

データウェアハウス（EMR/Hive）

機械学習パイプライン

実践問題で確認

AWS認定データエンジニア - アソシエイト

AWS認定データエンジニア - アソシエイト

AWS認定データエンジニア - アソシエイト

まとめ

Parquet - Athena分析に最適

ORC - EMR処理で最高圧縮

Avro - 機械学習連携対応

理解度チェック

他の問題も解いてみませんか？

tsumiki-media

Command Palette

目次

AWS Glue データフォーマット変換とは

列指向フォーマットの特徴と選択基準

Parquet

ORC

Avro

用途別フォーマット最適化戦略

データレイク分析（Athena）

データウェアハウス（EMR/Hive）

機械学習パイプライン

実践問題で確認

AWS認定データエンジニア - アソシエイト

AWS認定データエンジニア - アソシエイト

AWS認定データエンジニア - アソシエイト

まとめ

Parquet - Athena分析に最適

ORC - EMR処理で最高圧縮

Avro - 機械学習連携対応

理解度チェック

他の問題も解いてみませんか？