机器人的世界由100个正方形组成,这些正方形排列成10*10的网格,每个正方形最多只能有一个汽水罐。无论他现在在哪里,他都可以看到北、南、东、西方向上一个相邻网站的内容,以及他目前所在网站的内容。
每个单独的策略都是243个行动的列表。每个动作由以下七个选项之一组成:向北移动、向南移动、向东移动、向西移动、选择一个随机方向移动、站起来或弯腰捡起罐头。
每个行为都可能产生奖励或惩罚。
如果机器人和罐子在同一个地方并捡起来,他会得到10分的奖励。然而,如果他弯腰在没有罐头的地方捡罐头,他将被罚款1分。
如果他撞到墙上,他将被罚款5分,并跳回当前网站。
当机器人捡起尽可能多的罐子时,它的奖励会最大化,而不会撞到任何墙壁,也不会在没有罐子的时候弯腰捡起罐子。