【第2回】BashスクリプトとAIの融合：Apacheログの異常検知とIP自動ブロックの構築

前回の「【第1回】ChatGPT・Gemini・Claudeの徹底比較とCLI連携基盤」では、AlmaLinux 9環境において、ターミナルから直接生成AIのAPIを呼び出す基盤となるコマンド（ai-query）を構築しました。今回はその基盤をフル活用し、インフラエンジニアの業務の中でも特に重要かつ負荷の高い「サーバーのログ監視とセキュリティ対策」を自動化する実践的なアプローチに踏み込みます。

Webサーバー（ApacheやNginx）のアクセスログには、日々膨大な数のサイバー攻撃の痕跡が記録されています。従来は grep や awk を駆使した正規表現でこれらを検知していましたが、攻撃手法が高度化・多様化する現代において、静的なルールベースの検知には限界があります。本記事では、生成AIの「文脈理解能力」を利用して未知の脅威を検知し、Bashスクリプトと連携させて不正なIPアドレスを自動的にブロックする防御システムを構築します。

📚 関連シリーズのアーカイブ

リナックス先生！前回作った ai-query コマンド、すごく便利で毎日使ってます。でも、毎回手動でログを流し込むのは面倒になってきました。これ、Cronとかを使って完全に自動化することはできないんですか？

良い着眼点ね、コウ君。手動でコマンドを叩いているうちは、まだ「AIをツールとして使っている」レベル。スクリプトの中でAIに「判断」を委ね、その結果を元にOSのファイアウォール設定を動的に書き換える。これがインフラ自動化の新しい形よ。今日はApacheのアクセスログを題材に、自律型の防衛スクリプトを組んでみるわ！

1. ログ監視において「正規表現」から「生成AI」へ移行する理由
- 1-1. 従来のルールベース検知（Fail2ban等）の限界
- 1-2. AIによる「意味論的」な異常検知の圧倒的優位性
2. アーキテクチャ設計：AIとBashによる自動防御フロー
- 2-1. システム構成と処理の流れ
- 2-2. APIコストを抑えるための前処理（Pre-filtering）
3. 実践：AIログアナライザースクリプトの実装
- 3-1. AIにJSONフォーマットで回答させるプロンプト設計
- 3-2. スクリプト本体のコーディング（jqによるパースとfirewalld連携）
4. 運用とチューニングのベストプラクティス
- 4-1. Cronによる定期実行と状態管理
- 4-2. ログ解析に最適な軽量AIモデルの比較（コストと速度）
5. 第2回の総まとめと次回予告

📚 関連シリーズのアーカイブ

1. ログ監視において「正規表現」から「生成AI」へ移行する理由
1. 1-1. 従来のルールベース検知（Fail2ban等）の限界
2. 1-2. AIによる「意味論的」な異常検知の圧倒的優位性
2. アーキテクチャ設計：AIとBashによる自動防御フロー
1. 2-1. システム構成と処理の流れ
2. 2-2. APIコストを抑えるための前処理（Pre-filtering）
3. 実践：AIログアナライザースクリプトの実装
1. 3-1. AIにJSONフォーマットで回答させるプロンプト設計
2. 3-2. スクリプト本体のコーディング（jqによるパースとfirewalld連携）
4. 運用とチューニングのベストプラクティス
1. 4-1. Cronによる定期実行と状態管理
2. 4-2. ログ解析に最適な軽量AIモデルの比較（コストと速度）
5. 第2回の総まとめと次回予告
1. ▼ インフラ環境を構築してAI自動化を試そう ▼

1. ログ監視において「正規表現」から「生成AI」へ移行する理由

サーバーをインターネットに公開していると、1日も経たないうちに世界中からBotやスクリプトによる脆弱性スキャン、パスワードリスト攻撃、SQLインジェクションの試行が飛んできます。Linuxエンジニアはこれまで、これらの脅威とどう戦ってきたのでしょうか。

1-1. 従来のルールベース検知（Fail2ban等）の限界

最も一般的な防御策は、Fail2ban のようなログ監視ツールを導入することです。Fail2banは「特定の正規表現にマッチするエラーログが、N分間にX回発生したらIPをブロックする」という非常に強力なツールです。

しかし、この手法には明確な弱点があります。それは「既知のパターン（シグネチャ）しか検知できない」ということです。例えば、攻撃者がUser-Agentを微妙に偽装したり、SQLインジェクションのペイロードを難読化したり、分散型IPからゆっくりと（Slowレートで）攻撃を仕掛けてきた場合、事前に定義した正規表現の網をすり抜けてしまいます。また、新しい脆弱性（ゼロデイ攻撃）が発見されるたびに、エンジニアが手動で正規表現のルールをアップデートし続ける必要があり、運用負荷が限界に達しつつあります。

1-2. AIによる「意味論的」な異常検知の圧倒的優位性

ここで生成AIの出番です。LLM（大規模言語モデル）は、ログを「文字列の羅列」としてではなく、「人間の意図が反映された行動履歴（文脈）」として読み解きます。

比較項目	従来のルールベース（正規表現）	生成AI（LLM）による解析
検知の仕組み	事前に定義された文字列パターンとの完全・部分一致。	ログの構造やパラメータの不自然さを意味論的に解釈して推論。
未知の攻撃（ゼロデイ）	× 検知不可（ルールがないため）。	◎ 検知可能（「通常のアクセスとは明らかに異なる」と判断可能）。
誤検知（フォールス・ポジティブ）	多い。正常なリクエストがたまたまルールに合致すると遮断される。	少ない。前後のアクセス文脈（時間帯、他のリクエストとの関連性）を考慮できる。
運用負荷	高い。定期的なルールの見直しと追加が必須。	低い。AIモデル自体が進化するため、汎用的なプロンプトで対応可能。

なるほど！正規表現のパズルを解くような設定ファイル地獄から解放されるんですね。でも、AIが出した結果って「このIPは怪しいですね〜」みたいなテキストですよね？それをどうやってサーバーの防御に使うんですか？

そこが今回の最重要ポイントよ。AIには「人間向けのおしゃべり」を禁止して、プログラムが読み取れる「JSONフォーマット」だけで回答させるの。そのJSONを jq コマンドでパースして、OSの firewall-cmd に渡すスクリプトを組むわよ。

2. アーキテクチャ設計：AIとBashによる自動防御フロー

スクリプトを書き始める前に、システム全体の処理の流れと、実運用に向けたコスト最適化の設計を行います。

2-1. システム構成と処理の流れ

今回はAlmaLinux 9上で動作するWebサーバー（Apache）を対象とします。以下のステップで処理を自動化します。

ログの抽出： Bashスクリプトが /var/log/httpd/access_log から直近のN行を取得。
前処理（フィルタリング）： 明らかに正常なアクセス（画像ファイルの取得など）を grep -v で除外。
AIによる推論： フィルタリングされたログをAPI経由で生成AI（例：GPT-4o-mini）に送信し、悪意のあるIPアドレスをJSON形式で判定させる。
アクション（遮断）： 返ってきたJSONを jq で解析し、抽出されたIPアドレスを firewalld の drop ゾーンに追加して通信を遮断する。
通知（オプション）： 遮断したIPと理由を管理者に通知する。

2-2. APIコストを抑えるための前処理（Pre-filtering）

生成AIのAPIは「入力した文字数（トークン数）」に応じて課金されます。アクセスログを1行残らずAIに投げ続けると、あっという間にAPIの利用枠を使い切るか、高額な請求が発生してしまいます。プロのエンジニアは、AIに渡す前に「伝統的なツールでゴミを取り除く」ことを忘れません。

# 悪い例：ログをすべてAIに投げる
tail -n 1000 /var/log/httpd/access_log | ai-query ...

# 良い例：静的ファイルへの正常アクセス(200 OK)を除外し、疑わしいステータスや動的ページへのアクセスのみを抽出する
tail -n 1000 /var/log/httpd/access_log | awk '($9 != 200) || ($7 ~ /\.php|\.cgi|\?|wp-login/)' | ai-query ...

このように awk や grep を使って「グレーなログ」だけをフィルタリングしてからAIに渡すことで、トークン消費量を数十分の一に抑えつつ、分析の精度を高めることができます。

3. 実践：AIログアナライザースクリプトの実装

それでは、実際に自動防御を担うBashスクリプト ai-log-defender.sh を作成しましょう。

3-1. AIにJSONフォーマットで回答させるプロンプト設計

AIをプログラムの一部として組み込む場合、最も重要なのは「システムプロンプト」です。AIが余計な挨拶や解説を挟むと、後続のプログラムがエラーを起こします。以下のように、厳格なJSONスキーマを指定します。

Linuxで快適PCライフ [ 日向俊二 ]

価格:3080円
(2026/7/17 19:10時点)
感想(0件)

⚠️ プロンプトのポイント（JSON出力の強制）
・「出力は必ずJSONのみとし、バッククォート（“`）やその他のテキストを含めないこと」と明記する。
・どのようなキーを持つべきか、構造を具体的に指定する。

3-2. スクリプト本体のコーディング（jqによるパースとfirewalld連携）

以下のスクリプトを /usr/local/bin/ai-log-defender.sh として作成します。（※実行には第1回で設定した OPENAI_API_KEY の環境変数が必要です）

#!/bin/bash
# ==============================================================================
# Script Name: ai-log-defender.sh
# Description: ApacheログをAIで解析し、悪意のあるIPをfirewalldで自動ブロックする
# OS: AlmaLinux 9
# ==============================================================================

LOG_FILE="/var/log/httpd/access_log"
LINES_TO_ANALYZE=500
API_KEY="${OPENAI_API_KEY}" # 環境変数から取得

# APIキーの確認
if [[ -z "$API_KEY" ]]; then
    echo "[ERROR] OPENAI_API_KEY is not set." >&2
    exit 1
fi

# 1. ログの抽出と前処理 (200以外のレスポンス、またはPHP/ログイン系へのアクセスを抽出)
# ※ログファイルが存在しない場合は終了
if [[ ! -f "$LOG_FILE" ]]; then
    echo "[ERROR] Log file not found: $LOG_FILE" >&2
    exit 1
fi

FILTERED_LOGS=$(tail -n "$LINES_TO_ANALYZE" "$LOG_FILE" | awk '($9 >= 400) || ($7 ~ /\.php|\?|wp-admin|cgi-bin/)')

# 抽出結果が空なら終了
if [[ -z "$FILTERED_LOGS" ]]; then
    echo "分析対象の疑わしいログはありませんでした。"
    exit 0
fi

# 2. AIへのシステムプロンプト設定
SYSTEM_PROMPT=$(cat << 'EOF'
あなたは優秀なセキュリティエンジニアです。提供されたApacheのアクセスログを分析し、
SQLインジェクション、ディレクトリトラバーサル、総当たり攻撃、明らかな脆弱性スキャンを行っている
悪意のあるIPアドレスを特定してください。

出力は以下の構造の厳格なJSON形式のみとしてください。Markdownのコードブロック(```json ... ```)や挨拶は一切含めないでください。
{
  "malicious_ips": [
    {"ip": "192.168.x.x", "reason": "SQLインジェクションの試行"}
  ]
}
対象がない場合は {"malicious_ips": []} と出力してください。
EOF
)

# JSONペイロードの作成
JSON_PAYLOAD=$(jq -n \
    --arg model "gpt-4o-mini" \
    --arg sys "$SYSTEM_PROMPT" \
    --arg log "$FILTERED_LOGS" \
    '{
        model: $model,
        messages: [
            {role: "system", content: $sys},
            {role: "user", content: $log}
        ],
        temperature: 0.1,
        response_format: { type: "json_object" }
    }')

# 3. APIリクエストの実行
echo "AIによるログ解析を実行中..."
RESPONSE=$(curl -s -X POST "
https://api.openai.com/v1/chat/completions
api.openai.com(https://api.openai.com/v1/chat/completions)" \
    -H "Authorization: Bearer $API_KEY" \
    -H "Content-Type: application/json" \
    -d "$JSON_PAYLOAD")

# APIエラーチェック
if echo "$RESPONSE" | jq -e '.error' >/dev/null; then
    echo "[API ERROR]" >&2
    echo "$RESPONSE" | jq -r '.error.message' >&2
    exit 1
fi

# JSONテキストの抽出
AI_RESULT=$(echo "$RESPONSE" | jq -r '.choices[0].message.content')

# 4. JSONのパースとfirewalldによる遮断処理
IP_COUNT=$(echo "$AI_RESULT" | jq '.malicious_ips | length')

if [[ "$IP_COUNT" -gt 0 ]]; then
    echo "$IP_COUNT 件の悪意のあるIPを検知しました。ブロック処理を開始します。"
    
    # 抽出されたIPアドレスをループで処理
    echo "$AI_RESULT" | jq -c '.malicious_ips[]' | while read -r item; do
        TARGET_IP=$(echo "$item" | jq -r '.ip')
        REASON=$(echo "$item" | jq -r '.reason')
        
        echo "[BLOCK] IP: $TARGET_IP (理由: $REASON)"
        
        # firewalldのdropゾーンにIPを追加し、即時反映
        sudo firewall-cmd --zone=drop --add-source="${TARGET_IP}"
        sudo firewall-cmd --runtime-to-permanent
    done
else
    echo "悪意のあるIPは検知されませんでした。"
fi

echo "処理完了。"

作成後、実行権限を付与します。

sudo chmod +x /usr/local/bin/ai-log-defender.sh

おお！ response_format: { type: "json_object" } をAPIに渡すことで、AIが絶対にJSONで返してくれるように強制してるんですね！これと jq を組み合わせれば、文字列処理がめちゃくちゃ簡単になりますね。

その通り。出力が構造化（JSON化）されれば、BashだろうがPythonだろうが、システムに組み込むのは容易になるわ。さらに firewall-cmd --runtime-to-permanent を入れているから、OSを再起動してもブロック設定が永続化される実戦仕様よ。

4. 運用とチューニングのベストプラクティス

スクリプトが完成したら、本番環境で安全に稼働させるための運用設定を行います。

4-1. Cronによる定期実行と状態管理

このスクリプトを10分に1回実行させるため、cron に登録します。

sudo crontab -e

# 以下の行を追加（10分ごとに実行し、ログを記録）
*/10 * * * * /usr/local/bin/ai-log-defender.sh >> /var/log/ai_defender.log 2>&1

※注意：今回の簡易スクリプトは常に「末尾から500行」をチェックするため、重複してログを読み込む可能性があります。本格的に商用運用する場合は、読み込んだ最後の行（オフセット）をファイルに記録し、差分だけを処理する機構（例：logtail コマンドの利用）を組み込むことを推奨します。

4-2. ログ解析に最適な軽量AIモデルの比較（コストと速度）

定常的にログを解析させる場合、AIモデルの利用コストが運用費に直結します。重厚なフラッグシップモデル（GPT-4oなど）は賢いですが、毎分ログを投げると高額になります。自動化タスクには「高速・軽量・低コスト」なモデルを選ぶのがベストプラクティスです。

モデル名	コスト（入力100万トークンあたり）※目安	自動化スクリプト適性	特徴
GPT-4o-mini (OpenAI)	約 $0.150	◎ 最適	JSON出力の安定性が非常に高く、コストパフォーマンスが最強。今回のスクリプトの第一候補。
Claude 3.5 Haiku (Anthropic)	約 $1.000	〇優秀	推論速度が圧倒的。セキュリティの文脈理解に優れるが、miniよりやや高価。
Gemini 1.5 Flash (Google)	約 $0.075	◎ コスト重視	超低コストでコンテキストウィンドウが広い。JSONモードもサポートしており、大量のログ処理に最適。

⚠️ プロの視点：フォールス・ポジティブ（誤検知）への備え
完全無人の自動ブロックは、自身のアクセスや、監視サーバーからの正常なヘルスチェックをブロックして「締め出し（セルフ・ロックアウト）」を食らうリスクがあります。スクリプト内で、自社拠点の固定IPや監視サーバーのIPは grep -v で絶対に除外する（ホワイトリスト化する）設計を忘れないでください。