立直麻将强化学习Agent：Transformer模型的应用

需积分: 5 30 浏览量更新于2024-11-10 收藏 1.22MB ZIP 举报

在当今的IT行业中，深度学习领域已经取得了许多令人瞩目的成果，特别是在自然语言处理（NLP）领域，Transformer模型已经成为了新的标准架构。而将Transformer与强化学习结合，应用到复杂的策略游戏中，如麻将，这种跨学科的创新方法展示了人工智能的极大潜力。 Transformer模型是一种基于自注意力（self-attention）机制的深度学习模型，最初由Vaswani等人在2017年提出，用于处理序列数据。它摒弃了传统的循环神经网络（RNN）和卷积神经网络（CNN）的递归结构，而是利用了并行计算的优势，能够更高效地处理长距离依赖关系。强化学习是一种学习方法，它通过与环境的交互来学习策略。在强化学习中，智能体（agent）通过执行动作并接收环境的奖励或惩罚来进行学习。成功的动作会得到正向的奖励，而失败的动作则会得到惩罚，智能体的目标是最大化长期奖励。强化学习非常适合解决具有顺序决策过程的问题，比如游戏、自动驾驶等。将Transformer模型和强化学习结合用于打麻将，意味着创建了一个能够学习麻将策略的智能体。麻将是一种涉及复杂策略、记忆和概率判断的游戏，智能体需要理解每一张牌的意义，记住已经打出的牌，预测对手的牌，并在合适的时机采取行动。在提供的文档中，描述了一种使用Transformer模型和强化学习技术训练的麻将智能体，名为“立直麻将agent”。该智能体需要通过特定的命令行交互来进行操作。用户可以通过以下命令与智能体交互： 1. csv命令：用于分析包含麻将局面的CSV文件。例如，“csv q300.csv”会分析名为q300.csv的文件中的局面，这个文件可能包含了著名麻将问题集“何切三百问”的数据。 2. tenhou命令：用于分析天凤（Tenhou）网站上的牌谱。天凤是知名的在线麻将对战平台，提供大量的麻将比赛记录。通过这种方式，用户可以分享特定的牌谱URL给智能体进行学习和分析。例如，“tenhou ***gm-00a9-0000-0a208bae 0”表示分析URL键值为***gm-00a9-0000-0a208bae的牌谱，其中0代表东一局的东风位。为了使智能体能够运行，用户需要按照文档说明进入libc目录，执行make_lib.sh脚本来编译C++库。随后，通过运行python ./main.py来启动程序。通过以上的命令行操作，用户可以与基于Transformer模型和强化学习训练的麻将智能体进行交互，分析不同来源的麻将局面和牌谱，从而探索智能体的决策过程和学习结果。文档中提及的“satori-master”是代码仓库的名称，这表明相关的代码文件可能包含在名为satori的项目中，并且用户可以通过访问该项目的master分支来获取最新的代码和研究成果。总结来说，这份文档为我们提供了一个使用先进的深度学习和强化学习方法训练的麻将智能体，这不仅是对麻将策略游戏研究的一大进展，也为深度学习在复杂决策环境中的应用提供了新的思路。此外，通过具体的操作步骤和命令，我们得以了解如何实际地使用这一智能体，以及如何与之交互分析麻将局势。这对于希望将AI技术应用于实际游戏或其他需要策略决策的场景的研究人员和开发者来说，是一个非常有价值的参考。

资源目录

收起资源包目录

立直麻将强化学习Agent：Transformer模型的应用（43个子文件）

tenhou.json 1022B

shuffle_ds.py 2KB

misc.py 9KB

val_acc.png 202KB

make_lib.sh 37B

model.py 8KB

rl_train.py 41KB

model.svg 797KB

types.hh 7KB

evaluate.hh 7KB

finetune.md 2KB

utils.cc 5KB

main.py 1KB

dist_sys.png 56KB

types.cc 396B

Makefile 140B

rawdata.hh 936B

LICENSE 9KB

utils.hh 3KB

optims.py 8KB

gen_dataset.py 28KB

supv_train.py 2KB

clear_tmp.sh 27B

api.py 7KB

engine.py 1KB

label_dist.png 48KB

rawdata.cc 2KB

main.cc 2KB

pretrain.md 2KB

evaluate.cc 17KB

points.cc 6KB

.gitignore 2KB

setup.txt 752B

efficiency.csv 188B

trainer.py 14KB

view_dataset.py 5KB

game_data.py 17KB

val_loss.png 216KB

README.md 95B

inputs.json 700B

example.png 283KB

test.py 487B

q300.csv 11KB

共 43 条

LeonDL168

粉丝: 3231

立直麻将强化学习Agent：Transformer模型的应用

Satori-transformer

大数据挖掘-基于Transformer+CNN实现的网络入侵检测系统源码+数据集.zip

bootstrapped transformer for offline reinforcement learning

Transformer++

Transformer++主要解决了Transformer的哪些问题？

transformer＋cnn

transformer+IMDB

transformer+CNN

transformer+unet

transformer＋lstm

最新资源