MENU

【AWS Certified Cloud Practitioner】データ分析サービスを初心者向けに整理して理解する

目次

はじめに

AWS Certified Cloud Practitioner(CLF-C02)では、分析系サービスそのものを深く設計・実装する力よりも、「どのサービスが何に向くか」を用途ベースで見分ける力が重要です。特にデータ分析の分野では、Amazon Athena、AWS Glue、Amazon Redshift、Amazon QuickSight、Amazon Kinesis、Amazon EMR、Amazon OpenSearch Serviceの役割の違いを整理しておくと、選択問題で迷いにくくなります。

この記事では、初心者でも流れで理解できるように、まず全体像を整理し、その後に各サービスの役割と試験での見分け方を説明します。

試験対策として最初に押さえるべきこと

Cloud Practitionerの試験では、AWS公式の試験ガイドで「Cloud Technology and Services」が主要な出題領域のひとつとされており、分析カテゴリのサービスも学習対象に含まれています。したがって、分析サービスは細かい設定よりも、用途・特徴・他サービスとの違いを押さえる学習が有効です。

データ分析の全体像

データ分析は、試験向けには次の流れで覚えると理解しやすくなります。

  1. データを集める
    アプリのログ、データベースの記録、クリック履歴、センサー情報などを収集します。
  2. データをためる
    まずはまとめて保管します。AWSではAmazon S3がデータレイクの基盤としてよく使われます。
  3. データを整える
    形式をそろえたり、不要なデータを除いたりします。ここでよく出るのがETLです。
  4. データを分析する
    SQLで集計したり、大量データを分散処理したりします。
  5. 見やすく可視化する
    グラフやダッシュボードにして、意思決定に使える形にします。

まず覚えたい重要用語

用語意味初心者向けのイメージ
データレイクさまざまな形式のデータをまとめて保存する場所整理前のデータも含めて大きな貯蔵庫に集めるイメージ
ETLExtract(抽出)→ Transform(変換)→ Load(格納)バラバラのデータを使いやすい形に整えて分析先へ渡す作業
BIBusiness Intelligence。分析結果をグラフやダッシュボードで見せる仕組み数字の羅列を「見れば分かる」形にする道具
データウェアハウス分析しやすいよう整理されたデータを蓄積する仕組み分析専用に整理整頓された倉庫

図で理解する基本パイプライン

参考書でよく出る図は、次のような流れを示しています。

  1. ログファイル、アプリ、データベースなどからデータが発生する
  2. まずAmazon S3に集めてデータレイクを作る
  3. AWS Glueでデータを見つけやすくし、必要に応じてETLを行う
  4. Amazon AthenaやAmazon Redshiftで分析する
  5. Amazon QuickSightで可視化する
  6. リアルタイム分析ならAmazon Kinesis、超大規模処理ならAmazon EMR、検索やログ分析ならAmazon OpenSearch Serviceを使う

この流れを理解しておくと、問題文に「S3に保存されたログをSQLで直接分析したい」「ダッシュボードで可視化したい」「リアルタイムに取り込みたい」と書かれたときに、どのサービスが適切かを判断しやすくなります。

各サービスの役割を一気に整理

サービス主な役割一言で覚えるなら試験での典型キーワード
Amazon S3データ保存、データレイクの基盤まずためる場所大容量、耐久性、データレイク、ログ保存
AWS Glueデータ統合、ETL、Data Catalog整える・見つけやすくするETL、サーバーレス、データカタログ、クローラー
Amazon AthenaS3上のデータをSQLで直接分析S3をそのままSQLで読むサーバーレス、標準SQL、S3、アドホック分析
Amazon Redshiftクラウドのデータウェアハウス分析用に整理された倉庫データウェアハウス、大規模分析、高速集計
Amazon QuickSightBIダッシュボード、可視化グラフで見せるBI、ダッシュボード、可視化
Amazon Kinesisストリーミングデータのリアルタイム取り込みと処理流れてくるデータをすぐ扱うリアルタイム、ストリーミング、ログ、クリックストリーム
Amazon EMRHadoopやSparkなどで大規模分散処理重いビッグデータ処理Hadoop、Spark、ビッグデータ、分散処理
Amazon OpenSearch Service検索、ログ分析、分析用検索基盤検索とログ探索検索、ログ分析、OpenSearchクラスタ

初心者向けの具体例

たとえば、あるWebサイトのアクセス状況を分析したいとします。

  • アクセスログを保存する → Amazon S3
  • ログ形式を整える → AWS Glue
  • 「昨日よく読まれた記事」をSQLで調べる → Amazon Athena
  • 経営層向けにグラフ化する → Amazon QuickSight
  • アクセスが急増した瞬間をリアルタイムで把握する → Amazon Kinesis
  • 何TBものデータをHadoopやSparkでまとめて処理する → Amazon EMR
  • エラーログを検索して原因を探す → Amazon OpenSearch Service

このように、同じ「分析」でも目的によって使うサービスが変わります。

試験で混同しやすい組み合わせ

Athena と Redshift の違い

比較Amazon AthenaAmazon Redshift
基本用途S3上のデータを直接SQLで分析分析用に整理したデータを高速に集計
特徴サーバーレスで始めやすいデータウェアハウスとして使う
試験での見分け方「S3」「すぐSQL」「サーバーレス」ならAthena「DWH」「大規模分析基盤」ならRedshift

Glue と Athena の違い

比較AWS GlueAmazon Athena
基本用途データの発見、整形、ETLSQLによる分析
一言でいうと分析の前準備分析そのもの

Kinesis と EMR の違い

比較Amazon KinesisAmazon EMR
基本用途リアルタイムのデータ取り込みと処理大規模バッチ処理や分散分析
試験での見分け方「リアルタイム」「ストリーミング」ならKinesis「Hadoop」「Spark」「ビッグデータ処理」ならEMR

QuickSight と OpenSearch Service の違い

比較Amazon QuickSightAmazon OpenSearch Service
基本用途ダッシュボードやグラフによる可視化検索やログ分析
試験での見分け方「BI」「可視化」「ダッシュボード」ならQuickSight「全文検索」「ログ探索」ならOpenSearch Service

メモにあるKafka関連の補足

Kafkaに関する知識は実務では重要ですが、Cloud Practitioner対策としては優先順位を整理して学ぶのが効率的です。

(1)確実に言えること

  • Amazon MSKは、Apache Kafkaを使ったストリーミングアプリケーションを構築・実行するためのフルマネージドサービスです。
  • AWS Certified Cloud Practitioner(CLF-C02)の公式試験ガイドで分析カテゴリの in-scope AWS Services として明示されているのは、Amazon Athena、Amazon EMR、AWS Glue、Amazon Kinesis、Amazon OpenSearch Service、Amazon QuickSight、Amazon Redshiftです。
  • したがって、試験対策としてまず優先して覚えるべき分析サービスは、公式ガイドに明記されたこれらのサービスです。

(2)推測

  • Amazon MSKはCloud Practitionerで最優先テーマではない可能性が高いです。根拠は、公式試験ガイドの分析カテゴリにサービス名として明示されていないためです。
  • ただし、公式ガイドのin-scope AWS Services一覧は「non-exhaustive(網羅的ではない)」とされているため、名前がないことだけで完全に対象外と断定はできません。

(3)不明点

  • 個別の本試験でAmazon MSKがどの程度問われるかは、公開情報だけでは断定できません。
  • そのため、Cloud Practitioner対策としては、まずAmazon Kinesisとの違いを軽く把握する程度にとどめ、学習時間は公式ガイドに明記された分析サービスへ優先配分するのが無難です。

試験直前に覚えたい要点

  • S3 はデータレイクの保存先としてよく使う。
  • AWS Glue はETLとデータカタログ。
  • Amazon Athena はS3上のデータを標準SQLで直接分析する。
  • Amazon Redshift はデータウェアハウス。
  • Amazon QuickSight はBI可視化。
  • Amazon Kinesis はリアルタイムストリーミング。
  • Amazon EMR はHadoopやSparkによる大規模分散処理。
  • Amazon OpenSearch Service は検索やログ分析。

参考情報(AWS公式)

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
目次