def _get_thread_target(self, obs, last_move, alpha, beta, depth, score_dict): def _min(): _beta = beta self._last_move_list.append(last_move) if depth == 0: score_atk, score_def = self.evaluate(obs) self._last_move_list.pop() # 对于只搜一层的情况下,必须要教会AI防守活三和冲四。这里的做法是手动提高对方活三和冲四的分数 if score_def < score_3_live: if score_atk > score_def: score = score_atk - self._atk_def_ratio * score_def else: score = -score_def + self._atk_def_ratio * score_atk else: if score_def == score_3_live: if score_atk >= score_4: score = score_atk - self._atk_def_ratio * score_def else: score = -score_4 else: # 为了防止AI在对方有活四的情况下放弃治疗 if score_def >= score_4_live: score = score_5 if score_atk == score_5 else -score_5 else: score = score_5 if score_atk == score_5 else -score_4_live x, y = int(last_move[0]), int(last_move[1]) score_dict[(x, y)] = score if self._show_info: print((x, y), 'atk=', score_atk, 'def=', score_def, 'total=', score) return score
时间: 2023-06-18 17:04:23 浏览: 97
这段代码是一个博弈树搜索算法中的极小化函数,用于计算对手最优决策下的最小分数。该函数接受多个参数,包括当前的观察状态 obs、对手上一步的落子位置 last_move、当前搜索的 alpha 和 beta 值、搜索的深度 depth、以及一个分数字典 score_dict,用于记录每个位置的分数。
在函数内部,首先将对手上一步的落子位置加入到 self._last_move_list 列表中,然后根据当前搜索深度和棋盘状态 obs 计算出当前状态下的分数 score_atk 和 score_def,分别代表己方和对方的得分。接着对于不同的得分情况,手动调整对方的分数,以便能够让 AI 学会防守活三和冲四等棋局中的特殊情况。最后将当前位置的分数记录到 score_dict 中,并返回当前状态下对手的最小分数。
相关问题
# if an obs is in max layer, then the agent is supposed to select the action with max score # alpha represents the lower bound of the value of this node def _max(self, obs, last_move, alpha, beta, depth): self._last_move_list.append(last_move) if depth == 0: score_atk, score_def = self.evaluate(obs) self._last_move_list.pop() score = score_atk if score_atk > score_def else -score_def return score pos_list = self.generate(obs) for i, j in pos_list: obs[i][j] = self.color value = self._min(obs, (i, j), alpha, beta, depth - 1) if value > alpha: alpha = value obs[i][j] = 0 if alpha > beta: break self._last_move_list.pop() return alpha
这段代码是一个博弈树的最大值搜索函数,用于在博弈树中搜索最优解。在搜索过程中,函数会在当前观察到的状态中找到所有可行的动作,然后对每个动作进行模拟,并递归地调用_min函数来搜索下一层。如果找到了更优的解,就更新alpha的值。如果alpha的值大于beta,就退出搜索,返回最优解。如果已经达到搜索的最大深度,就调用评估函数来计算当前状态的分数,并返回该分数。
这段代码的逻辑是比较清晰的,可以通过递归的方式来搜索整个博弈树,找到最优解。同时,使用alpha-beta剪枝算法可以大大减少搜索的时间,提高搜索效率。
def _min(self, obs, last_move, alpha, beta, depth): self._last_move_list.append(last_move) if depth == 0: score_atk, score_def = self.evaluate(obs) self._last_move_list.pop() score = score_atk if score_atk > score_def else -score_def return score pos_list = self.generate(obs) for i, j in pos_list: obs[i][j] = -self.color value = self._max(obs, (i, j), alpha, beta, depth - 1) # print((i, j), value) if value < beta: beta = value obs[i][j] = 0 if alpha > beta: break # this indicates that the parent node (belongs to max layer) will select a node with value # no less than alpha, however, the value of child selected in this node (belongs to min layer) # will no more than beta <= alpha, so there is no need to search this node self._last_move_list.pop() return beta
这是一个博弈树搜索算法中的极小化搜索函数,用于处理在博弈树搜索过程中的“最小化”层次。在这个函数中,输入参数 obs 表示当前的观察状态,last_move 表示上一步的落子位置,alpha 和 beta 分别表示当前的最优下限和上限,depth 表示当前的搜索深度。该函数会首先对当前状态进行评估,如果已经达到了最大搜索深度或者游戏已经结束,就会返回当前状态的得分。否则,它会生成下一步可能的落子位置,并遍历每一种可能的落子方案,递归调用极大化搜索函数 _max,获取对应的得分,并根据 alpha 和 beta 剪枝。具体地,如果当前得分小于 beta,就更新 beta 为当前得分;如果 alpha 大于等于 beta,就可以直接退出循环,因为当前搜索的子树已经无法对极大值产生影响。最后,该函数返回 beta 作为当前状态的得分。
阅读全文