强化学习环境与训练策略探索

卡牌游戏强化学习与搜索优化实验

围绕一回合击杀和德州扑克场景，尝试 DQN、模仿学习、遗传算法、Beam Search、Self-play 和 NFSP 等方法。

研究原型 D:/coding/Reinforcement Learning

Reinforcement LearningDQNSelf-playNFSPGenetic Algorithm

项目简介

该目录包含两个强化学习方向的原型：一回合击杀卡牌优化，以及德州扑克训练环境。项目探索了从专家规则、搜索优化到深度强化学习的不同训练策略。

我实现或整理了卡牌环境、专家策略、DQN 训练、协同进化、模仿学习和德州扑克智能体训练脚本。

一回合击杀方向侧重组合搜索和策略优化，德州扑克方向侧重多智能体自博弈和策略逼近。项目中保留了训练、评估、可视化和 Web 交互脚本。

卡牌环境动作空间大、奖励稀疏，训练容易受性能瓶颈影响。项目文档中记录了引入专家引导、多进程 DQN、Beam Search 与遗传算法的优化思路。

这是一个适合后续整理成“强化学习实验笔记”系列的研究原型。建议补充训练曲线和策略对比表。