Trusted identity propagationでAmazon SageMaker Studioのアクセス制御と監査をシンプルにする

Amazon: YubiKey 5C NFC セキュリティキー
楽天: YubiKey 5C NFC セキュリティキー

概要：SageMaker Studioのアクセス制御と監査、なぜ難しい？

データサイエンスや機械学習の現場では、Amazon SageMaker Studio上でノートブックや実験環境を素早く立ち上げ、Amazon S3などのデータレイクにアクセスするのが一般的です。しかし、ユーザーごと・チームごとに最小権限で安全にデータへアクセスさせ、かつ操作履歴を「誰が」「何をしたか」というエンドユーザー単位で追跡するのは容易ではありません。従来はStudioの実行ロールがAPIを呼び出すため、CloudTrailなどの監査ログからは実際の操作者が見えづらい、ロールの増殖で運用が複雑になる、といった課題がありました。

Trusted identity propagation（TIP）とは

Trusted identity propagationは、企業のアイデンティティ（IAM Identity Centerや外部IdPと連携したユーザー情報）を、SageMaker StudioからのAWSサービス呼び出しに信頼できる形で引き継ぐ仕組みです。これにより、S3や他のAWSサービスへのデータプレーン操作にユーザーのコンテキストが反映され、以下が実現します。

最小権限の徹底：ユーザーやグループ属性に基づくきめ細やかなアクセス制御（ABAC）
明確な監査：CloudTrailなどの監査ログで、実ロールだけでなくエンドユーザーを特定できる
運用の簡素化：ロールの乱立や例外対応を減らし、ポリシー管理を属性ベースに一本化

アーキテクチャのイメージ

SageMaker StudioのドメインをIAM Identity Centerと統合し、TIPを有効化すると、ユーザーがStudioにサインインしてノートブックからS3などを操作する際、ユーザーの属性がセッションタグ等としてAWSに引き継がれます。これを前提に、

IAMポリシーでセッションタグを条件にした許可（例：部署、ユーザー名、プロジェクトID）
S3バケットポリシーでaws:PrincipalTagを使ったプレフィックスレベルの絞り込み
CloudTrailでユーザーコンテキストを含むイベント監査

といった制御・監査が可能になります。結果として、たとえば「marketingグループはs3://data/marketing/配下のみ読み取り可」「aliceはs3://data/users/alice/配下への書き込み可」といった分離を、グループやユーザー属性を軸に自然に表現できます。

セットアップの流れ（概要）

具体的な手順は環境により異なりますが、全体像は次の通りです。

IAM Identity Centerの準備：社内IdP（Okta、Azure ADなど）と連携し、ユーザー/グループと属性（例：department、project、username）を整備します。属性は「アクセス制御に使う属性」として有効化しておくと、セッションタグとして伝播させやすくなります。
SageMaker Studioドメインの作成/設定：ドメインをIAM Identity Centerモードで構成し、TIP（trusted identity propagation）を有効化します。ユーザープロファイルを作成し、必要に応じてデフォルト実行ロールやネットワーク設定を見直します。
アクセス制御の設計（ABAC）：IAMポリシーでaws:PrincipalTag（例：department、username）に基づく許可条件を記述し、S3のバケットポリシーでも同様の条件を使ってプレフィックスやオブジェクト単位の制御を行います。ロールやポリシーは「属性に紐づいて拡張」されるため、ユーザー追加時の運用コストが大きく下がります。
監査の有効化：CloudTrailやCloudWatch Logs、S3アクセスログなどを構成し、ユーザーコンテキストが記録されていることを確認します。イベントの検索やダッシュボード化により、「誰がいつどのデータにアクセスしたか」をすぐに追跡できる体制を整えます。
動作確認：Studioのノートブックからboto3などでS3操作を行い、許可パスでは成功、禁止パスでは明示的に拒否されること、そして監査ログにユーザーが反映されていることを確認します。

TIPがもたらす運用メリット

セキュリティの一貫性：人の属性に合わせて権限が自動で最小化され、横展開や異動にも強い。
コンプライアンス対応の容易化：エンドユーザーの識別ができる監査ログにより、内部統制や外部監査に求められるエビデンスを迅速に提示可能。
データ民主化の推進：アクセス制御の複雑さが軽減され、必要な人が必要なデータへ早く安全に到達できる。

設計のヒントとベストプラクティス

属性設計を最初に決める：department、project、environment（prod/dev）、usernameなど、運用で安定して使えるキーを選び、IdP側でも正規化しておきます。
プレフィックス命名規約：S3のフォルダ構成（例：s3://lake/projects/{project}/users/{username}/）と属性を対応させるとポリシーがシンプルになります。
段階的ロールアウト：まずは読み取り専用データセットから適用し、影響範囲や監査レポートの見え方を確認してから書き込み権限や運用系ジョブへ拡張します。
可観測性の強化：CloudTrailのイベントをAthenaやCloudTrail Lakeで分析できるようにして、アラートや定期レポートに落とし込みます。
人と非人の分離：バッチやパイプラインなどの機械アカウントは、TIPのユーザーセッションとは分離し、明確なロール設計と監査で管理します。

よくある疑問

既存のStudio環境でも使える？：Identity Center統合のドメインが前提です。移行時は小さなプロジェクトから検証し、段階的に切り替えましょう。
どのサービスで効果がある？：S3のようなデータレイクはもちろん、関連するデータ/分析サービスや暗号鍵の管理（KMS）などでもユーザーコンテキストに基づいた制御・監査の価値が高まります。
パフォーマンスや開発体験への影響は？：開発者は通常どおりStudioを使い、裏側でユーザーのアイデンティティが伝播されます。開発体験を変えずにセキュリティと監査精度を高められる点が利点です。

まとめ：ガバナンスとスピードを両立するために

Trusted identity propagationにより、SageMaker Studioのアクセス制御と監査は、ユーザー属性を軸にした自然で拡張性の高い形に整理されます。チームのオンボーディングも、属性を付与するだけで適切な権限が付与され、監査ログでは誰が何をしたかを明確に追えるようになります。これは、データガバナンスを崩さずにイノベーションスピードを維持したい多くの組織にとって、大きな前進です。まずは小さく適用して成果を測り、段階的に広げていきましょう。