災害復旧計画

ステータス： 有効 日付： 2026-02-26

エグゼクティブサマリー

このドキュメントは、KYRA AI MDRプラットフォームの復旧時間目標（RTO）、復旧ポイント目標（RPO）、災害復旧手順、ロールバック基準を定義します。DR戦略は、すべてのサービスティアにわたる顧客データ保護、サービス可用性、コンプライアンス要件を優先します。

重要要件：

Enterpriseティア： RTO 15分以下、RPO 5分以下
Professionalティア： RTO 30分以下、RPO 15分以下
Standardティア： RTO 60分以下、RPO 30分以下
文書化されたランブック付きの四半期DRドリル
テナント設定、インシデント、監査ログのデータ損失ゼロ

復旧目標

サービスごとのRTO/RPO

サービス	Enterprise RTO	Enterprise RPO	Professional RTO	Professional RPO	Standard RTO	Standard RPO
カスタマーポータル / API	5分	0分	10分	5分	15分	10分
イベント取り込み	5分	1分	10分	5分	20分	15分
AI分析	10分	0分	15分	5分	30分	15分
分析＆レポート	15分	30分	30分	60分	60分	2時間
プライマリデータベース	10分	0分	15分	1分	30分	5分
キャッシュレイヤー	2分	5分	5分	10分	10分	30分
イベント処理	8分	1分	15分	5分	25分	15分

複合サービス可用性目標

サービスティア	全体RTO	全体RPO	月次SLA	年間ダウンタイム
Enterprise	15分	5分	99.95%	4.38時間
Professional	30分	15分	99.9%	8.76時間
Standard	60分	30分	99.5%	43.8時間

クリティカルパス復旧順序

テナントアクセスのための最小サービス復旧順序：

プライマリデータベース（テナント認証とデータ）
キャッシュレイヤー（セッション管理）
IDプロバイダーまたは緊急管理者バイパス
カスタマーポータル / API
イベント取り込み（データ収集の再開）
イベント処理パイプライン
AI分析
分析とレポート

インフラストラクチャレジリエンス

マルチリージョンアーキテクチャ

マルチアベイラビリティゾーンデプロイメントのプライマリリージョン
スタンバイインフラストラクチャのDRリージョン
テナントごとのデータ所在地コンプライアンス強制
重要サービスのクロスリージョンデータレプリケーション

高可用性

アベイラビリティゾーンにまたがる重要サービスに最低3レプリカ
単一障害点を防ぐアンチアフィニティルール
負荷メトリクスに基づく水平オートスケーリング
メンテナンス中の可用性を維持するポッド中断予算

データベースレジリエンス

同期スタンバイによるマルチAZデプロイメント
プライマリおよびDRリージョンの読み取りレプリカ
7日間のポイントインタイムリカバリ付き自動日次バックアップ
自動フェイルオーバー（60〜120秒）

外部依存関係

依存関係	目的	フォールバック戦略
IDプロバイダー	SSO認証	緊急管理者アクセス
プライマリAIプロバイダー	AI脅威分析	セカンダリプロバイダーにフォールバック、次にセルフホスト
セカンダリAIプロバイダー	バックアップAI分析	プライマリプロバイダーにフォールバック、次にセルフホスト
セルフホストAI	エアギャップAIフォールバック	外部依存なし
暗号化キー管理	キー管理	クロスリージョンキーレプリケーション
可観測性プラットフォーム	モニタリング	オンプレミスモニタリングインスタンス

バックアップスケジュール

データタイプ	頻度	保持	復旧方法
データベース（継続）	継続	7日	ポイントインタイムリストア
データベース（完全）	日次	30日	完全リストア
キャッシュスナップショット	日次	7日	スナップショットからインポート
分析データ	日次	90日	バックアップからリストア
アプリケーション設定	変更時	90日	設定再適用
シークレット	日次	30日	シークレットマネージャーリストア

クロスリージョンフェイルオーバー

自動トリガー

3分以上すべてのプライマリリージョンエンドポイントでヘルスチェック失敗
SLA違反前の手動トリガーによるRTO違反の可能性
クラウドプロバイダーが確認したリージョン全体の障害

フェイルオーバー手順（目標30分）

DRリージョンデータベースレプリカをプライマリに昇格
DRリージョンへのDNSルーティング更新
DRリージョンサービスのスケールアップ
IDプロバイダーのコールバックURL更新
すべてのコンポーネントのサービスヘルスを検証

フェイルバック手順

すべてのサービスにわたるプライマリリージョンヘルスの確認
DRからプライマリへのデータ再同期（必要な場合）
段階的なトラフィック移行（20% / 40% / 60% / 80% / 100%）
24時間のモニタリング期間後にDRリージョンをスケールダウン

四半期DRドリル

スケジュールとスコープ

頻度： 90日ごと（3月、6月、9月、12月） 期間： 4時間の計画ウィンドウ 影響： 本番サービスへの中断なし（テスト環境シミュレーション）

ドリルタイプ（ローテーション）：

Q1： リージョンフェイルオーバーシミュレーション
Q2： データベース破損とポイントインタイムリカバリ
Q3： セキュリティインシデント対応（シミュレートされた侵害）
Q4： 完全なインフラストラクチャ再構築

ドリル検証チェックリスト

すべてのAPIサービスが目標RTO内で利用可能
データ整合性確認（データ損失ゼロ）
AI分析ワークフローが20分以内に再開
イベント取り込みが10分以内に復旧
分析処理が25分以内に再開
顧客影響が5分未満のサービス劣化
すべてのモニタリングアラートが2分未満の検出で正しく発火
ランブック精度が文書化された手順から10%以内の偏差

デプロイメントロールバック基準

自動ロールバックトリガー（5分以内）

サービスインスタンスの50%以上がヘルスチェック失敗
2分間持続でエラーレートが5%超
データベースマイグレーション失敗またはタイムアウト
IDプロバイダー統合の破損（成功率90%未満）
メモリ使用量が90%超で上昇傾向
クリティカル依存関係が利用不可

パフォーマンスベースロールバック（15分以内）

API P95レイテンシが10分間ベースラインの2倍超
イベント取り込みレートが容量の50%未満
AIワークフローの20%以上がSLA超過
データベース接続プール使用率が80%超
分析処理ラグが30分超

手動ロールバック決定マトリクス

重大度	検出時間	決定権限	ロールバックウィンドウ
P0 - サービス停止	0〜2分	オンコールエンジニア（自動）	5分
P1 - 劣化	2〜10分	エンジニアリングマネージャー	15分
P2 - パフォーマンス	10〜30分	プロダクトオーナー＋エンジニアリング	30分
P3 - 軽微な問題	30分以上	スケジュールされたメンテナンスウィンドウ	計画通り