はじめに
AWS Certified Cloud Practitioner(CLF-C02)では、分析系サービスそのものを深く設計・実装する力よりも、「どのサービスが何に向くか」を用途ベースで見分ける力が重要です。特にデータ分析の分野では、Amazon Athena、AWS Glue、Amazon Redshift、Amazon QuickSight、Amazon Kinesis、Amazon EMR、Amazon OpenSearch Serviceの役割の違いを整理しておくと、選択問題で迷いにくくなります。
この記事では、初心者でも流れで理解できるように、まず全体像を整理し、その後に各サービスの役割と試験での見分け方を説明します。
試験対策として最初に押さえるべきこと
Cloud Practitionerの試験では、AWS公式の試験ガイドで「Cloud Technology and Services」が主要な出題領域のひとつとされており、分析カテゴリのサービスも学習対象に含まれています。したがって、分析サービスは細かい設定よりも、用途・特徴・他サービスとの違いを押さえる学習が有効です。
データ分析の全体像
データ分析は、試験向けには次の流れで覚えると理解しやすくなります。
- データを集める
アプリのログ、データベースの記録、クリック履歴、センサー情報などを収集します。 - データをためる
まずはまとめて保管します。AWSではAmazon S3がデータレイクの基盤としてよく使われます。 - データを整える
形式をそろえたり、不要なデータを除いたりします。ここでよく出るのがETLです。 - データを分析する
SQLで集計したり、大量データを分散処理したりします。 - 見やすく可視化する
グラフやダッシュボードにして、意思決定に使える形にします。
まず覚えたい重要用語
| 用語 | 意味 | 初心者向けのイメージ |
|---|---|---|
| データレイク | さまざまな形式のデータをまとめて保存する場所 | 整理前のデータも含めて大きな貯蔵庫に集めるイメージ |
| ETL | Extract(抽出)→ Transform(変換)→ Load(格納) | バラバラのデータを使いやすい形に整えて分析先へ渡す作業 |
| BI | Business Intelligence。分析結果をグラフやダッシュボードで見せる仕組み | 数字の羅列を「見れば分かる」形にする道具 |
| データウェアハウス | 分析しやすいよう整理されたデータを蓄積する仕組み | 分析専用に整理整頓された倉庫 |
図で理解する基本パイプライン
参考書でよく出る図は、次のような流れを示しています。
- ログファイル、アプリ、データベースなどからデータが発生する
- まずAmazon S3に集めてデータレイクを作る
- AWS Glueでデータを見つけやすくし、必要に応じてETLを行う
- Amazon AthenaやAmazon Redshiftで分析する
- Amazon QuickSightで可視化する
- リアルタイム分析ならAmazon Kinesis、超大規模処理ならAmazon EMR、検索やログ分析ならAmazon OpenSearch Serviceを使う
この流れを理解しておくと、問題文に「S3に保存されたログをSQLで直接分析したい」「ダッシュボードで可視化したい」「リアルタイムに取り込みたい」と書かれたときに、どのサービスが適切かを判断しやすくなります。
各サービスの役割を一気に整理
| サービス | 主な役割 | 一言で覚えるなら | 試験での典型キーワード |
|---|---|---|---|
| Amazon S3 | データ保存、データレイクの基盤 | まずためる場所 | 大容量、耐久性、データレイク、ログ保存 |
| AWS Glue | データ統合、ETL、Data Catalog | 整える・見つけやすくする | ETL、サーバーレス、データカタログ、クローラー |
| Amazon Athena | S3上のデータをSQLで直接分析 | S3をそのままSQLで読む | サーバーレス、標準SQL、S3、アドホック分析 |
| Amazon Redshift | クラウドのデータウェアハウス | 分析用に整理された倉庫 | データウェアハウス、大規模分析、高速集計 |
| Amazon QuickSight | BIダッシュボード、可視化 | グラフで見せる | BI、ダッシュボード、可視化 |
| Amazon Kinesis | ストリーミングデータのリアルタイム取り込みと処理 | 流れてくるデータをすぐ扱う | リアルタイム、ストリーミング、ログ、クリックストリーム |
| Amazon EMR | HadoopやSparkなどで大規模分散処理 | 重いビッグデータ処理 | Hadoop、Spark、ビッグデータ、分散処理 |
| Amazon OpenSearch Service | 検索、ログ分析、分析用検索基盤 | 検索とログ探索 | 検索、ログ分析、OpenSearchクラスタ |
初心者向けの具体例
たとえば、あるWebサイトのアクセス状況を分析したいとします。
- アクセスログを保存する → Amazon S3
- ログ形式を整える → AWS Glue
- 「昨日よく読まれた記事」をSQLで調べる → Amazon Athena
- 経営層向けにグラフ化する → Amazon QuickSight
- アクセスが急増した瞬間をリアルタイムで把握する → Amazon Kinesis
- 何TBものデータをHadoopやSparkでまとめて処理する → Amazon EMR
- エラーログを検索して原因を探す → Amazon OpenSearch Service
このように、同じ「分析」でも目的によって使うサービスが変わります。
試験で混同しやすい組み合わせ
Athena と Redshift の違い
| 比較 | Amazon Athena | Amazon Redshift |
|---|---|---|
| 基本用途 | S3上のデータを直接SQLで分析 | 分析用に整理したデータを高速に集計 |
| 特徴 | サーバーレスで始めやすい | データウェアハウスとして使う |
| 試験での見分け方 | 「S3」「すぐSQL」「サーバーレス」ならAthena | 「DWH」「大規模分析基盤」ならRedshift |
Glue と Athena の違い
| 比較 | AWS Glue | Amazon Athena |
|---|---|---|
| 基本用途 | データの発見、整形、ETL | SQLによる分析 |
| 一言でいうと | 分析の前準備 | 分析そのもの |
Kinesis と EMR の違い
| 比較 | Amazon Kinesis | Amazon EMR |
|---|---|---|
| 基本用途 | リアルタイムのデータ取り込みと処理 | 大規模バッチ処理や分散分析 |
| 試験での見分け方 | 「リアルタイム」「ストリーミング」ならKinesis | 「Hadoop」「Spark」「ビッグデータ処理」ならEMR |
QuickSight と OpenSearch Service の違い
| 比較 | Amazon QuickSight | Amazon OpenSearch Service |
|---|---|---|
| 基本用途 | ダッシュボードやグラフによる可視化 | 検索やログ分析 |
| 試験での見分け方 | 「BI」「可視化」「ダッシュボード」ならQuickSight | 「全文検索」「ログ探索」ならOpenSearch Service |
メモにあるKafka関連の補足
Kafkaに関する知識は実務では重要ですが、Cloud Practitioner対策としては優先順位を整理して学ぶのが効率的です。
(1)確実に言えること
- Amazon MSKは、Apache Kafkaを使ったストリーミングアプリケーションを構築・実行するためのフルマネージドサービスです。
- AWS Certified Cloud Practitioner(CLF-C02)の公式試験ガイドで分析カテゴリの in-scope AWS Services として明示されているのは、Amazon Athena、Amazon EMR、AWS Glue、Amazon Kinesis、Amazon OpenSearch Service、Amazon QuickSight、Amazon Redshiftです。
- したがって、試験対策としてまず優先して覚えるべき分析サービスは、公式ガイドに明記されたこれらのサービスです。
(2)推測
- Amazon MSKはCloud Practitionerで最優先テーマではない可能性が高いです。根拠は、公式試験ガイドの分析カテゴリにサービス名として明示されていないためです。
- ただし、公式ガイドのin-scope AWS Services一覧は「non-exhaustive(網羅的ではない)」とされているため、名前がないことだけで完全に対象外と断定はできません。
(3)不明点
- 個別の本試験でAmazon MSKがどの程度問われるかは、公開情報だけでは断定できません。
- そのため、Cloud Practitioner対策としては、まずAmazon Kinesisとの違いを軽く把握する程度にとどめ、学習時間は公式ガイドに明記された分析サービスへ優先配分するのが無難です。
試験直前に覚えたい要点
- S3 はデータレイクの保存先としてよく使う。
- AWS Glue はETLとデータカタログ。
- Amazon Athena はS3上のデータを標準SQLで直接分析する。
- Amazon Redshift はデータウェアハウス。
- Amazon QuickSight はBI可視化。
- Amazon Kinesis はリアルタイムストリーミング。
- Amazon EMR はHadoopやSparkによる大規模分散処理。
- Amazon OpenSearch Service は検索やログ分析。
参考情報(AWS公式)
- https://docs.aws.amazon.com/aws-certification/latest/examguides/aws-certified-cloud-practitioner.html
- https://docs.aws.amazon.com/pdfs/aws-certification/latest/cloud-practitioner-02/cloud-practitioner-02.pdf
- https://aws.amazon.com/jp/certification/certified-cloud-practitioner/
- https://docs.aws.amazon.com/athena/latest/ug/what-is.html
- https://docs.aws.amazon.com/glue/latest/dg/what-is-glue.html
- https://docs.aws.amazon.com/redshift/latest/mgmt/welcome.html
- https://docs.aws.amazon.com/quicksight/latest/developerguide/welcome.html
- https://docs.aws.amazon.com/streams/latest/dev/introduction.html
- https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-what-is-emr.html
- https://docs.aws.amazon.com/opensearch-service/latest/developerguide/what-is.html
- https://docs.aws.amazon.com/msk/latest/developerguide/what-is-msk.html
- https://docs.aws.amazon.com/ja_jp/whitepapers/latest/building-data-lakes/amazon-s3-data-lake-storage-platform.html
