【强化学习】栏目(6篇文章)
2020-02-21 16:38:43.0 322
强化学习亦为机器学习范畴,其认为是与监督学习、非监督学习同级的另一个分支。强化学习主要通过智能体对环境的试探,根据所处状态及做出的动作所获得的回报来进行学习。本文主要记录(深度)强化学习有关内容。
强化学习(六):时序差分方法
# 强化学习(六):时序差分方法 时序差分(TD)方法结合了动态规划与蒙特卡洛的思想,其可以像蒙特卡洛方法一样直接从智能体与环境互动的经验中学习,而不需要知道环境的模型,其 ... [详情]
强化学习(五):蒙特卡洛采样方法
# 强化学习(五):蒙特卡洛采样方法 在[强化学习(四)](https://blog.csdn.net/qq_36426650/article/details/104998 ... [详情]
强化学习(四):基于表格型动态规划算法的强化学习
# 强化学习(四):基于表格型动态规划算法的强化学习 在有限马尔可夫决策过程中,智能体在某个状态进行决策的过程中,始终满足价值函数和动作函数的贝尔曼方程,事实上,这 ... [详情]
强化学习(三):有限马尔可夫决策与贝尔曼方程
# 强化学习(三):有限马尔可夫决策与贝尔曼方程 :贪心策略(ε-greedy & UCB)
# 强化学习(二):贪心策略(ε-greedy & UCB) 强化学习是当前人工智能比较火爆的研究内容,作为机器学习的一大分支,强化学习主要目标是让智能体学习如何在给定的一个环境状态下 ... [详情]
强化学习(一):概述
# 强化学习(一):概述 **前言:** 最近,强化学习非常的火爆,不论在科研界还是工业界,强化学习一直作为一个新兴的领域,在计算机学科范畴内发挥重要的作用。**强化学习(Reinforce ... [详情]