def _get_thread_target(self, obs, last_move, alpha, beta, depth, score_dict): def _min(): _beta = beta self._last_move_list.append(last_move) if depth == 0: score_atk, score_def = self.evaluate(obs) self._last_move_list.pop() # 对于只搜一层的情况下，必须要教会AI防守活三和冲四。这里的做法是手动提高对方活三和冲四的分数 if score_def < score_3_live: if score_atk > score_def: score = score_atk - self._atk_def_ratio * score_def else: score = -score_def + self._atk_def_ratio * score_atk else: if score_def == score_3_live: if score_atk >= score_4: score = score_atk - self._atk_def_ratio * score_def else: score = -score_4 else: # 为了防止AI在对方有活四的情况下放弃治疗 if score_def >= score_4_live: score = score_5 if score_atk == score_5 else -score_5 else: score = score_5 if score_atk == score_5 else -score_4_live x, y = int(last_move[0]), int(last_move[1]) score_dict[(x, y)] = score if self._show_info: print((x, y), 'atk=', score_atk, 'def=', score_def, 'total=', score) return score

时间: 2023-06-18 17:04:23 浏览: 97

这段代码是一个博弈树搜索算法中的极小化函数，用于计算对手最优决策下的最小分数。该函数接受多个参数，包括当前的观察状态 obs、对手上一步的落子位置 last_move、当前搜索的 alpha 和 beta 值、搜索的深度 depth、以及一个分数字典 score_dict，用于记录每个位置的分数。在函数内部，首先将对手上一步的落子位置加入到 self._last_move_list 列表中，然后根据当前搜索深度和棋盘状态 obs 计算出当前状态下的分数 score_atk 和 score_def，分别代表己方和对方的得分。接着对于不同的得分情况，手动调整对方的分数，以便能够让 AI 学会防守活三和冲四等棋局中的特殊情况。最后将当前位置的分数记录到 score_dict 中，并返回当前状态下对手的最小分数。

# if an obs is in max layer, then the agent is supposed to select the action with max score # alpha represents the lower bound of the value of this node def _max(self, obs, last_move, alpha, beta, depth): self._last_move_list.append(last_move) if depth == 0: score_atk, score_def = self.evaluate(obs) self._last_move_list.pop() score = score_atk if score_atk > score_def else -score_def return score pos_list = self.generate(obs) for i, j in pos_list: obs[i][j] = self.color value = self._min(obs, (i, j), alpha, beta, depth - 1) if value > alpha: alpha = value obs[i][j] = 0 if alpha > beta: break self._last_move_list.pop() return alpha

这段代码是一个博弈树的最大值搜索函数，用于在博弈树中搜索最优解。在搜索过程中，函数会在当前观察到的状态中找到所有可行的动作，然后对每个动作进行模拟，并递归地调用_min函数来搜索下一层。如果找到了更优的解，就更新alpha的值。如果alpha的值大于beta，就退出搜索，返回最优解。如果已经达到搜索的最大深度，就调用评估函数来计算当前状态的分数，并返回该分数。这段代码的逻辑是比较清晰的，可以通过递归的方式来搜索整个博弈树，找到最优解。同时，使用alpha-beta剪枝算法可以大大减少搜索的时间，提高搜索效率。

def _min(self, obs, last_move, alpha, beta, depth): self._last_move_list.append(last_move) if depth == 0: score_atk, score_def = self.evaluate(obs) self._last_move_list.pop() score = score_atk if score_atk > score_def else -score_def return score pos_list = self.generate(obs) for i, j in pos_list: obs[i][j] = -self.color value = self._max(obs, (i, j), alpha, beta, depth - 1) # print((i, j), value) if value < beta: beta = value obs[i][j] = 0 if alpha > beta: break # this indicates that the parent node (belongs to max layer) will select a node with value # no less than alpha, however, the value of child selected in this node (belongs to min layer) # will no more than beta <= alpha, so there is no need to search this node self._last_move_list.pop() return beta

这是一个博弈树搜索算法中的极小化搜索函数，用于处理在博弈树搜索过程中的“最小化”层次。在这个函数中，输入参数 obs 表示当前的观察状态，last_move 表示上一步的落子位置，alpha 和 beta 分别表示当前的最优下限和上限，depth 表示当前的搜索深度。该函数会首先对当前状态进行评估，如果已经达到了最大搜索深度或者游戏已经结束，就会返回当前状态的得分。否则，它会生成下一步可能的落子位置，并遍历每一种可能的落子方案，递归调用极大化搜索函数 _max，获取对应的得分，并根据 alpha 和 beta 剪枝。具体地，如果当前得分小于 beta，就更新 beta 为当前得分；如果 alpha 大于等于 beta，就可以直接退出循环，因为当前搜索的子树已经无法对极大值产生影响。最后，该函数返回 beta 作为当前状态的得分。

阅读全文

相关推荐

光学突发交换技术：OBS协议与应用调研

OBS网络中NS2模拟的调度算法实现

OPNET网络仿真：不同速度下包统计分析

obs_720p_preset:obs_720p_preset

class Actor(parl.Model): def __init__(self, obs_dim, action_dim): super(Actor, self).__init__() self.l1 = nn.Linear(obs_dim, 256) self.l2 = nn.Linear(256, 256) self.mean_linear = nn.Linear(256, action_dim) self.std_linear = nn.Linear(256, action_dim)

self.sess.run(self.v, feed_dict={self.obs:state})

def reset(self): high = np.array([np.pi, 1]) self.state = self.np_random.uniform(low=-high, high=high) self.last_u = None return self._get_obs()

最新推荐

轻松OBS录屏黑屏解决办法（原创文章请勿转载）NVENC Error:init_encoder:报错信息

Font Awesome图标字体库提供可缩放矢量图标,它可以被定制大小、颜色、阴影以及任何可以用CSS的样式

俄罗斯RTSD数据集实现交通标志实时检测

管理建模和仿真的文件

预测区间与置信区间：机器学习中的差异与联系

基于KNN通过摄像头实现0-9的识别python代码

易语言开发的文件批量改名工具使用Ex_Dui美化界面

"互动学习：行动中的多样性与论文攻读经历"

【机器学习预测区间入门】：从概念到实现

如何修改QSpinBox的文字颜色？

class Actor(parl.Model): def init(self, obs_dim, action_dim): super(Actor, self).init() self.l1 = nn.Linear(obs_dim, 256) self.l2 = nn.Linear(256, 256) self.mean_linear = nn.Linear(256, action_dim) self.std_linear = nn.Linear(256, action_dim)