AI强化学习

强化学习详细操作教程

在本章中，您将详细学习使用Python进行AI强化学习的概念。

强化学习基础

这种类型的学习被用来加强或加强基于评论者信息的网络。也就是说，在强化学习下训练的网络从环境中获得一些反馈。但是，反馈是评价性的，并且不像监督式学习的情况那样具有启发性。基于这种反馈，网络将对权重进行调整以获得更好的评论信息。

这个学习过程类似于监督学习，但我们可能拥有的信息非常少。下图给出了强化学习的框图 -

构建模块:环境和代理

环境和代理是人工智能强化学习的主要构件。本节详细讨论它们 -

媒介代理

代理媒介是能够通过传感器感知其环境并通过效应器作用于该环境的任何事物。

人用媒介具有与传感器平行。诸如眼睛，耳朵，鼻子，舌头和皮肤之类的感觉器官以及用于效应器的诸如手，腿，嘴等其他器官。机器人媒介取代了传感器的摄像头和红外测距仪，以及各种效应器的马达和执行器。软件媒介已将位串编码为其程序和操作。

代理术语

以下术语在AI中的强化学习中更频繁地使用 -

代理的性能测量 - 这是决定代理成功程度的标准。 代理的行为 - 代理在任何给定的感知顺序之后执行的行为。感知 - 它是特定实例中代理的感知输入。 感知序列 - 这是代理人迄今为止所了解的所有历史。 代理功能 - 它是从训示序列到动作的映射。

环境某些程序在局限于键盘输入，数据库，计算机文件系统和屏幕上字符输出的完全人造环境中运行。

相比之下，一些软件代理(如软件机器人或软驱)存在于丰富且无限的软域中。模拟器具有非常详细和复杂的环境。软件代理需要实时从多种行为中进行选择。

例如，设计用于扫描顾客的在线偏好并向顾客展示有趣物品的软堆可在真实环境和人工环境中工作。

环境属性如下所述，环境具有多重属性 -

离散/连续 - 如果环境的数量有限且截然不同，则环境是离散的，否则它是连续的。例如，象棋是一个离散的环境，驾驶是一个连续的环境。 可观察/部分可观察 - 如果可以从知觉中确定每个时间点环境的完整状态，则可观察到; 否则它只是部分可观察的。 静态/动态 - 如果环境在代理正在执行时没有改变，那么它是静态的; 否则它是动态的。 单个代理/多个代理 - 环境可能包含其他代理，这些代理可能与代理的类型相同或不同。 可访问/不可访问 - 如果代理的传感设备可以访问完整的环境状态，则可以访问该代理的环境; 否则它是无法访问的。 确定性/非确定性 - 如果环境的下一个状态完全由当前状态和代理的行为决定，那么环境是确定性的; 否则它是非确定性的。 情节式/非情节式 - 在情节化环境中，每个情节由代理人感知并然后行动组成。其行动的质量取决于情节本身。随后的剧集不依赖于前几集中的动作。情景环境要简单得多，因为代理人不需要提前思考。环境属性

用Python构建环境

对于建设强化学习代理，将使用OpenAI Gym软件包，该软件包可使用以下命令来安装 -

# Filename : example.py
# Copyright : 2020 By Lidihuo
# Author by : www.lidihuo.com
# Date : 2020-08-26
pip install gym

OpenAI健身房有各种各样的环境可以用于各种目的。其中很少是:Cartpole-v0，Hopper-v1和MsPacman-v0。他们需要不同的引擎。 OpenAI Gym的详细文档可以在 https://gym.openai.com/docs/#environments 找到。

以下代码显示了cartpole-v0环境的Python代码示例 -

# Filename : example.py
# Copyright : 2020 By Lidihuo
# Author by : www.lidihuo.com
# Date : 2020-08-26
import gym
env = gym.make('CartPole-v0')
env.reset()
for _ in range(1000):
env.render()
env.step(env.action_space.sample())

您可以用类似的方式构建其他环境。

用Python构建一个学习代理

对于构建强化学习代理，我们将使用如下所示的OpenAI Gym包 -

# Filename : example.py
# Copyright : 2020 By Lidihuo
# Author by : www.lidihuo.com
# Date : 2020-08-26
import gym
env = gym.make('CartPole-v0')
for _ in range(20):
   observation = env.reset()
   for i in range(100):
      env.render()
      print(observation)
      action = env.action_space.sample()
      observation, reward, done, info = env.step(action)
      if done:
         print("Episode finished after {} timesteps".format(i+1))
         break

观察小推车可以平衡。

找工作要求35岁以下，35岁以上的程序员都干什么去了？

长久以来，一直有一个问题困扰着技术人——如何打破“程序员的35岁职业魔咒”，这一天迟早会到来，或早或晚。

或许是选错了行业，程序员薪水虽高，但光鲜的外表下，背后的苦衷只有自己知道。三十多岁本该是一个人事业的黄金期，但技术变化日新月异，行业竞争异常残酷，对一个企业来说，永远有比你更年轻、劳动成本更低的人可以选择，这让你的中年危机提前到来。破局的智慧可以看看这本书！>>

<< 神经网络遗传算法 >>

昵称：邮箱：