🤖 強化学習 — ロボット迷路探索

Q学習（Q-Learning）アルゴリズムによる自律的な経路発見

📊 学習統計

0

エピソード数

0

ステップ数

0

累積報酬

1.00

ε (探索率)

⚙️ コントロール

🎨 可視化モード

🔧 ハイパーパラメータ

学習率 α 0.1

割引率 γ 0.95

速度中

📈 報酬の推移

🗺️ 凡例

🤖 ロボット 🏁 ゴール 🚀 スタート 🧱 壁 Q値（高→赤）

各マスの矢印は4方向（↑↓←→）のQ値を示します。
矢印の長さ・明るさがQ値の大きさを表します。