【AIF-C01】データ前処理・ETL・ラベリング関連知識まとめ（勉強ログ#16）

※本記事はAIF-C01の資格試験対策用に私が勉強した内容を備忘録として残したものです。想定問題を解いていて重要だ、ここは忘れそうだと感じた部分をまとめています。網羅的な解説記事ではありませんのでご容赦ください。

はじめに
オススメ試験対策
データ前処理・ETL・ラベリング
AIF-C01合格体験記
最後に

はじめに

さて今回は、AIF-C01（AWS Certified AI Practitioner）の資格試験対策として、データ前処理・ETL・ラベリングについてまとめたいと思います。

資格試験に受かることだけを目標に、ポイントだけ抑えた記事となっていますので、気になった個所はより深く調べてみてくださいね。

それでは見ていきましょ～。

オススメ試験対策

試験対策にオススメなUdemy講座も載せておきますね。

基本的には過去問のみです。

とにかく問題を解きまくる！分からないところは私の勉強ログで知識を補填する。このようなサイクルで回してもらえるとすごく嬉しいです～。

目指せ試験合格！

AIF-C01 / AWS Certified AI Practitioner 対策テスト4回＋補足問題

【AIF-C01】AWSトップ講師によるAWS認定AIプラクティショナー模擬試験問題集（4回分260問）

データ前処理・ETL・ラベリング

Amazon SageMaker Canvas

Amazon SageMaker Canvasは、プログラミング知識がなくても分類、回帰、時系列予測などの機械学習（ML）モデルを構築できるノーコードツールです。

特徴として、内部で自動的に特徴量の選定やモデルのチューニングを実施し、ユーザーが簡単に正確な予測を得られるよう支援します。

直感的なドラッグ＆ドロップのインターフェースを提供し、ユーザーはデータのインポート、可視化、前処理、モデル作成をポイント＆クリックで行えるのが強みですね。

画像認識や物体検出、自然言語処理（NLP）に特化したモデル（例えば、テキスト生成や感情分析など）等は直接サポートしていないので注意です。

また、SageMaker Studioとの統合により、プロトタイピングから本番運用までスムーズに移行できる点も大きな魅力です。

これにより、ビジネスアナリストやドメイン専門家が、コーディング不要で機械学習の利点を活用し、意思決定に必要な洞察を迅速に導出できます。

Amazon SageMaker Data Wrangler

Amazon SageMaker Data Wranglerは、データの前処理、変換、特徴量エンジニアリングを効率化するための総合的なツールです。

直感的なビジュアルインターフェースを備えており、さまざまなデータソースからデータをインポートし、探索的データ分析を行うことができます。

300以上の組み込み変換機能を活用して、コードを書かずにデータのクリーニングや正規化、変換を実施でき、作業時間を大幅に短縮します。

また、生成された変換スクリプトは再利用可能で、下流のSageMakerの機械学習パイプラインにシームレスに統合することが可能です。

これにより、データサイエンティストはデータの前処理にかかる手間を削減し、より本質的なモデル開発に集中できるようになります。

Amazon SageMaker Feature Store

SageMaker Feature Storeは、モデルの入力となる特徴量とそのメタデータを中央管理するためのリポジトリです。

これにより、特徴量の再利用や一貫性のあるデータ供給が可能となり、モデルのトレーニングや推論の効率が向上します。

中でもオンラインストアは高頻度かつ低レイテンシーが重要なユースケース向けのサービスとなります。

Feature：特徴

Store：貯蔵所

Amazon SageMaker 自動モデルチューニング（AMT）

この機能は、指定されたハイパーパラメータの範囲内で複数のトレーニングジョブを自動実行し、最適なパラメータの組み合わせを探索します。

大量の実験を自動で実施し、人的な調整作業を大幅に削減する点が特徴です。

主にハイパーパラメータ範囲と評価指標の設定が重要なので覚えておきましょう。

Amazon SageMaker Experiments

SageMaker Experimentsは、各種トレーニングジョブや実験の結果、設定、パラメータなどを一元管理するツールです。

これにより、過去の実験結果を容易に比較・分析でき、モデル改善のための意思決定を支援します。

Experiment：実験

Amazon SageMaker Processing

SageMaker Processingは、データ前処理、後処理、またはモデル評価といったバッチ処理をフルマネージドで実行するための機能です。

ユーザーはスクリプトを定義するだけで、分散処理環境上で大規模データの処理や評価ジョブを実行でき、計算リソースのプロビジョニングやスケーリングを自動で管理できます。

バイアスとバリアンス

バイアスは、モデルが持つ系統的な誤差を意味し、学習データの代表性が不足している場合やモデルが過度に単純な場合に発生します。バイアスが高い場合、モデルは学習データの真のパターンを十分に捉えられず、モデルの表現力不足（過剰な単純化）を引き起こし、アンダーフィッティング（過小適合）の原因となります。

バリアンスは、モデルが学習データのノイズに過剰に適合してしまい、学習データに対しては高い精度を示すが、新たなデータに対しては精度が低下する状態を示します。バリアンスが高い場合、モデルは訓練データのノイズまで過剰に学習し、訓練データに対しては高い精度を示すが、新たなデータに対しては予測が大きく変動（過学習：オーバーフィッティング）してしまいます。

バイアスは「モデルが単純すぎて十分に表現できない」ことによる系統的な誤差、バリアンスは「モデルが複雑すぎて訓練データのノイズに敏感になる」ことによる誤差です。機械学習においては、これらのバランス（バイアス・バリアンストレードオフ）を適切に調整することが、良いモデルの構築において非常に重要なポイントとなります。