🤖 強化学習 — ロボット迷路探索

Q学習(Q-Learning)アルゴリズムによる自律的な経路発見

📊 学習統計

0
エピソード数
0
ステップ数
0
累積報酬
1.00
ε (探索率)

⚙️ コントロール

🎨 可視化モード

🔧 ハイパーパラメータ

📈 報酬の推移

🗺️ 凡例

🤖 ロボット 🏁 ゴール 🚀 スタート 🧱 壁 Q値(高→赤)

各マスの矢印は4方向(↑↓←→)のQ値を示します。
矢印の長さ・明るさがQ値の大きさを表します。