【AIF-C01】SageMaker関連サービスを体系的に理解しよう！（勉強ログ#25）

※本記事はAIF-C01の資格試験対策用に私が勉強した内容を備忘録として残したものです。想定問題を解いていて重要だ、ここは忘れそうだと感じた部分をまとめています。網羅的な解説記事ではありませんのでご容赦ください。

はじめに

さて今回は、AIF-C01（AWS Certified AI Practitioner）の資格試験対策として、SageMaker関連サービスについてまとめたいと思います。

SageMaker関連サービスって色々ありすぎて混乱しますよね・・・。私は理解するのに苦労しました。

とまぁそんな経緯もあり、せっかくなら体系的にまとめておくかと思いいたった次第です。皆さんのお役に少しでも立てれば嬉しいです！

注意点として、本記事は資格試験に受かることだけを目的に、ポイントだけ抑えただけの記事となっていますので、気になった個所はより深く調べてみてくださいね。

それでは見ていきましょ～。

オススメ試験対策

試験対策にオススメなUdemy講座も載せておきますね。

基本的には過去問のみです。

とにかく問題を解きまくる！分からないところは私の勉強ログで知識を補填する。このようなサイクルで回してもらえるとすごく嬉しいです～。

目指せ試験合格！

AIF-C01 / AWS Certified AI Practitioner 対策テスト4回＋補足問題

【AIF-C01】AWSトップ講師によるAWS認定AIプラクティショナー模擬試験問題集（4回分260問）

基盤プラットフォーム & IDE

Amazon SageMaker

Amazon SageMakerは、機械学習モデルの構築、トレーニング、デプロイをワンストップで実施できるフルマネージドプラットフォームです。

統合開発環境であるSageMaker Studioを用いれば、データの前処理からモデル構築、実験、トレーニング、デプロイまでをスムーズに進められます。

主要な機械学習フレームワークや組み込みアルゴリズムをサポートし、自動チューニング機能も搭載しているため、最適なモデルの作成が効率的に行えます。

さらに、スケーラブルなリソース管理とMLOps機能により、本番環境での運用や再現性の高い開発が実現されます。

Amazon SageMaker Studio Classic

SageMaker Studio Classicは、Jupyter Labベースの統合開発環境（IDE）を提供し、データの前処理、モデル開発、トレーニング、デプロイまでの全工程をシームレスに実施できる環境です。

直感的なUIと強力なバックエンドにより、機械学習プロジェクトの効率的な実行を支援します。

プロトタイピング・データ準備

Amazon SageMaker JumpStart

Amazon SageMaker JumpStartは、Amazon SageMakerの拡張機能として、事前学習済みモデルやソリューションテンプレート、サンプルコードなどを一元的に提供するライブラリです。

このサービスを利用することで、ユーザーは画像分類や自然言語処理など、さまざまな機械学習タスクに対して最新の研究成果に基づいたモデルをすぐに利用することができます。

転移学習を通じて、提供される事前学習済みモデルを独自データに迅速に適応させ、モデルの最適化を効率化できます。

また、SageMaker Studioとの連携により、直感的なインターフェイスを通じてワンクリックでテンプレートやサンプルを探索・導入できるため、プロジェクトの初期セットアップやプロトタイピングの時間を大幅に短縮します。

最新の業界トレンドや研究成果に合わせてライブラリが定期的にアップデートされるため、常に最先端の技術を活用することが可能です。

Amazon SageMaker Canvas

Amazon SageMaker Canvasは、プログラミング知識がなくても分類、回帰、時系列予測などの機械学習（ML）モデルを構築できるノーコードツールです。

特徴として、内部で自動的に特徴量の選定やモデルのチューニングを実施し、ユーザーが簡単に正確な予測を得られるよう支援します。

直感的なドラッグ＆ドロップのインターフェースを提供し、ユーザーはデータのインポート、可視化、前処理、モデル作成をポイント＆クリックで行えるのが強みですね。

画像認識や物体検出、自然言語処理（NLP）に特化したモデル（例えば、テキスト生成や感情分析など）等は直接サポートしていないので注意です。

また、SageMaker Studioとの統合により、プロトタイピングから本番運用までスムーズに移行できる点も大きな魅力です。

これにより、ビジネスアナリストやドメイン専門家が、コーディング不要で機械学習の利点を活用し、意思決定に必要な洞察を迅速に導出できます。

Amazon SageMaker Data Wrangler

Amazon SageMaker Data Wranglerは、データの前処理、変換、特徴量エンジニアリングを効率化するための総合的なツールです。

直感的なビジュアルインターフェースを備えており、さまざまなデータソースからデータをインポートし、探索的データ分析を行うことができます。

300以上の組み込み変換機能を活用して、コードを書かずにデータのクリーニングや正規化、変換を実施でき、作業時間を大幅に短縮します。

また、生成された変換スクリプトは再利用可能で、下流のSageMakerの機械学習パイプラインにシームレスに統合することが可能です。

これにより、データサイエンティストはデータの前処理にかかる手間を削減し、より本質的なモデル開発に集中できるようになります。

Amazon SageMaker Ground Truth

SageMaker Ground Truthは、ラベル付きデータセットを高精度に構築するためのサービスです。

アクティブラーニング機能や外部のラベリングワークフォースを活用し、効率的かつ正確なデータラベル付けのプロセスを自動化します。

Amazon SageMaker Processing

SageMaker Processingは、データ前処理、後処理、またはモデル評価といったバッチ処理をフルマネージドで実行するための機能です。

ユーザーはスクリプトを定義するだけで、分散処理環境上で大規模データの処理や評価ジョブを実行でき、計算リソースのプロビジョニングやスケーリングを自動で管理できます。

モデル管理・運用

Amazon SageMaker Model Registry

SageMaker Model Registryは、トレーニング済みのモデルやそのメタデータ（パラメータ、評価結果、バージョン情報など）を自動的に記録・管理する仕組みです。

これにより、モデルの履歴管理や再利用、運用中の変更管理がシステマティックに行えます。

Registry：保管場所

Amazon SageMaker Model Cards

SageMaker Model Cardsは、機械学習モデルの設計、トレーニング、評価、デプロイに関する情報を自動的に集約し、文書化するツールです。

モデルの開発履歴、使用したデータセット、評価指標、環境情報などを整理して提示することで、内部関係者や監査担当者に対してモデルの透明性を確保します。

Amazon SageMaker Model Monitor

SageMaker Model Monitorは、本番環境にデプロイされたモデルの推論結果や入力データの変化をリアルタイムで監視し、データドリフトや異常を検知するサービスです。

内蔵のしきい値設定とCloudWatch連携により、問題発生時に自動で通知する仕組みが備わっています。

Amazon SageMaker Model Dashboard

SageMaker Model Dashboardは、SageMakerコンソール上で、各種モデルの運用状況（エンドポイント、トレーニングジョブ、バッチジョブなど）をグラフィカルに表示するツールです。

視覚的なダッシュボードにより、モデルの状態やパフォーマンスを一目で把握することが可能です。

ワークフロー自動化・最適化

Amazon SageMaker Pipelines

SageMaker Pipelinesは、機械学習ワークフロー全体を定義し、オーケストレーションするためのサービスです。

データ前処理からモデルデプロイ、継続的な学習サイクルまで、再現性のあるパイプラインを自動化して管理する仕組みを提供し

Amazon SageMaker 自動モデルチューニング（AMT）

この機能は、指定されたハイパーパラメータの範囲内で複数のトレーニングジョブを自動実行し、最適なパラメータの組み合わせを探索します。

大量の実験を自動で実施し、人的な調整作業を大幅に削減する点が特徴です。

主にハイパーパラメータ範囲と評価指標の設定が重要なので覚えておきましょう。

Amazon SageMaker Experiments

SageMaker Experimentsは、各種トレーニングジョブや実験の結果、設定、パラメータなどを一元管理するツールです。

これにより、過去の実験結果を容易に比較・分析でき、モデル改善のための意思決定を支援します。

Experiment：実験

Amazon SageMaker ML Lineage Tracking

SageMaker ML Lineage Trackingは、機械学習プロジェクトにおけるトレーニング、実験、バッチ処理などの各工程の履歴と関連性をグラフィカルに追跡できるツールです。

これにより、モデルの再現性や監査性が向上し、将来の改善やトラブルシューティングが容易になります。

“ML”は機械学習：Machine Learningのこと

モデル評価・公正性

Amazon SageMaker Clarify

SageMaker Clarifyは、トレーニングデータやモデルの出力に潜むバイアスを自動検出し、説明可能性を評価するツールです。

これにより、モデルの公正性や透明性を担保し、信頼性の高いAIシステムの構築をサポートします。

トレーニング前（データの前処理後）、トレーニング後（モデルの予測結果を評価）の2つのタイミングでバイアスを検出します。

Clarify：明らかにする

データ管理

Amazon SageMaker Feature Store

SageMaker Feature Storeは、モデルの入力となる特徴量とそのメタデータを中央管理するためのリポジトリです。

これにより、特徴量の再利用や一貫性のあるデータ供給が可能となり、モデルのトレーニングや推論の効率が向上します。

中でもオンラインストアは高頻度かつ低レイテンシーが重要なユースケース向けのサービスとなります。

Feature：特徴

Store：貯蔵所

推論

Amazon SageMaker Neo

Amazon SageMaker Neoは、機械学習モデルを自動的に最適化し、モデル精度を維持しながら推論速度を向上させる機能です。

Neoはモデルのコンパイルを行い、特定のハードウェア（エッジデバイス、組み込みシステムなど）向けに最適化された実行コードを生成します。

これにより、遅延を低減し、リソース消費を最小限に抑えた高速推論が可能になります。

Amazon SageMaker Inference

SageMaker Inferenceは、トレーニング済みの機械学習モデルを利用してリアルタイムまたはバッチ推論を行う機能です。

自動スケーリングや低レイテンシなエンドポイントの管理が組み込まれており、モデルのデプロイ後も安定した推論性能を提供します。

これにより、アプリケーションやサービスにおけるリアルタイムな予測が容易になります。

まとめ

基盤プラットフォーム & IDE
- SageMaker：MLプラットフォーム。モデル構築からデプロイまでを統合的にサポート。
- SageMaker Studio Classic：Jupyter Notebookベースの統合開発環境。
プロトタイピング・データ準備
- SageMaker JumpStart：事前学習済みモデルやテンプレートで初期プロジェクトを迅速化。
- SageMaker Canvas：ノーコードで直感的にモデル作成可能。
- SageMaker Data Wrangler：データの前処理や変換を効率化。
- SageMaker Ground Truth：ラベル付きデータセットを高精度に構築。
- SageMaker Processing：データ前処理、後処理、またはモデル評価のバッチ処理
モデル管理・運用
- SageMaker Model Registry：トレーニング済みモデルのバージョン管理と記録。
- SageMaker Model Cards：モデルの詳細情報や評価結果を文書化。
- SageMaker Model Monitor：本番環境でのモデル推論を継続的に監視。
- SageMaker Model Dashboard：複数のモデル運用状況を視覚的に管理。
ワークフロー自動化・最適化
- SageMaker Pipelines：MLワークフロー（前処理〜デプロイまで）の自動化。
- SageMaker 自動モデルチューニング（AMT）：ハイパーパラメータの最適化を自動実行。
- SageMaker Experiments：実験結果の追跡と比較。
- SageMaker ML Lineage Tracking：モデルの系統情報（どのデータ・設定で実験したか）を追跡。
モデル評価・公正性
- SageMaker Clarify：モデルのバイアス検出や説明性を評価し、透明性を向上。
データ管理
- SageMaker Feature Store：モデル学習用の特徴量を一元管理し、再利用性を高める。
推論
- SageMaker Neo：機械学習モデルを自動的に最適化し、推論速度を向上。
- SageMaker Inference：トレーニング済みモデルでリアルタイムまたはバッチ推論を行う。