Q-Learning 控制面板

训练回合

0

平均奖励

0

奖励模式:

学习率 (α): 0.5

折扣因子 (γ): 0.9

探索率 (ε): 0.2

训练速度: 50

显示Q值可视化