Q-Learning 控制面板
训练回合
0
平均奖励
0
开始训练
暂停训练
重置状态
奖励模式:
距离加权
固定奖励
学习率 (α):
0.5
折扣因子 (γ):
0.9
探索率 (ε):
0.2
训练速度:
50
显示Q值可视化
Switch to English