北方自动控制技术研究所 山西太原 030006
摘要:随着互联网的普及与物流行业的迅速发展,手机挑选并下单后即可送货上门的线上购物成为人们当今消费的重要方式。但是随着购物平台的快速扩容,选择变多的同时,购物的体验也在不断下降。实物与图片不符、商家态度恶劣、包裹破损丢件、退换困难等实际问题,使得消费者与商家之间的信任关系变差,耗费更多时间从已有的购买评论中甄别商品的优劣,从而做出下单的决定。
关键词:深度学习;长短期记忆;线上交易;情感分析
前言:深度分层强化学习是深度强化学习领域的一个重要研究方向,它重点关注经典深度强化学习难以解决的稀疏奖励、顺序决策和弱迁移能力等问题.其核心思想在于:根据分层思想构建具有多层结构的强化学习策略,运用时序抽象表达方法组合时间细粒度的下层动作,学习时间粗粒度的、有语义的上层动作,将复杂问题分解为数个简单问题进行求解。
1.深度分层强化学习技术
1.1概述
SMDP和时序抽象法作为DHRL方法的核心技术,是构造分层结构的基础,我们将这两种核心技术统称为分层抽象技术.当一个序列动作包含多个序列动作或多个基础动作时,可以认为前者是比后者层次更高、语义更强的动作。将这些动作以一定规则进行组合,便形成了DHRL的多层结构。与经典DRL相比,DHRL算法有更强的问题解决能力。具体来说,DHRL常用来解决以下3种问题。(1)稀疏奖励DRL的本质是利用奖励函数强化行为的过程,好的奖励函数可以反映任务的特性,引导状态和动作的价值被正确估计,进一步优化策略。但经典DRL把状态空间看成一个巨大的、平坦的搜索空间,这意味着智能体从初始状态到终止状态的路径非常长,过长的路径会产生奖励信号变弱、延迟增高等问题。一旦环境只能提供稀疏奖励信号,问题会变得更为棘手。此外,ε-贪婪策略和动作噪音作为DRL常用的探索方案,只能辅助智能体探索临近的、有限的状态空间,尤其在稀疏奖励环境下,无法为智能体提供探索更广阔状态空间的动力。反过来,探索能力又会影响算法在稀疏奖励环境中的性能。而DHRL利用分层抽象技术,可以组合多个时序扩展动作,帮助智能体实现更大范围的状态空间快速覆盖,强化探索能力;同时,也可以快速捕获外部奖励或收集内部奖励,以此克服稀疏奖励问题。(2)顺序决策许多任务的实现需要遵循一定的顺序决策过程,例如在蒙特祖玛的复仇中,需要先拿到钥匙才可以打开门。该问题有时也被看成部分可观测马尔可夫决策过程(partially observable MDP,POMDP)。因为从本质上来说,如果不给予先验知识,钥匙的获取对智能体来说是不可观测的。经典DRL往往无法记录中间过程,或找不到决策规律。DHRL的多层结构可以关注不同水平的知识结构,智能体在得到一些关键信息后切换上层策略,以实现对顺序决策信息的隐性表达。(3)弱迁移能力经典DRL通常存在策略可迁移能力不足的问题,即每一个任务都需要学习专属的网络,且一种算法往往只可以在单一或少数几个任务上取得较优结果。DHRL能够学到具有高迁移能力的option,在面对相似任务时,智能体可以快速获得学习能力。同时,DHRL充分利用状态抽象法,将不同状态转化为相似的抽象特征,建立有效的状态特征表达机制,辅助option在相似状态区域上的重用。DHRL具有较强的学习能力,可以说,DHRL对复杂问题的求解能力正是源于分层抽象技术的应用。但分层抽象技术同样也会引入一些额外问题,包括分层结构参数过多、训练时间过长、option学习过程与组合过程的矛盾、异策略分层同步训练不稳定以及子目标太远难以到达等问题。对于一些更具体的情况,我们将在后续章节于每一个核心算法的论述中进行说明,并介绍更为优秀的算法如何在前文基础上进行改进,以解决这些额外问题。
1.2常用实验环境
(1)空白房间:这是一种无障碍、只有四壁的环境,常用于训练多样性的option,评估智能体对简单环境状态空间的可覆盖能力,或用于验证智能体抵达某一目标的能力;(2)多房间格子世界:这是一种存在多种形式的离散状态-动作空间环境。Sutton等人设计了4房间任务环境,每个房间大小相同,分别由4个通道相互连接,智能体随机开始于某一位置,到达另一房间的目标位置。Fox等人修改了房间的连接通道,使走廊更长,可用于验证智能体能否学到多样的option。Rafati等人同时考虑了稀疏奖励和顺序决策问题,在4房间的基础上增加了钥匙和小车,智能体在拿到钥匙时只能得到较小奖励,拿到钥匙后再到达小车位置才算成功;(3)迷宫世界:这是一种存在多种形式的连续状态-动作空间环境。Mankowitz等人设计了一个S形跑道环境,强调环境的稀疏奖励特性。Osa等人[32]将两块区域用并排的多个障碍隔开,验证智能体能否越过不同障碍到达不同终点。Campos等人用多面墙壁不规则地切割空间,制造多个瓶颈状态区域,增加智能体的探索难度;(4)电玩游戏(arcade learning environment, ALE):作为通用的像素类游戏实验平台,提供了数百个Atari2600游戏环境接口,为DRL的无模型学习、基于模型规划和模仿学习等研究方向提供了验证环境。大部分Atari游戏属于密集奖励环境,如潜艇和打方块,这些环境更加关注智能体对当前状态的快速反应。但蒙特祖玛的复仇和pitfall包含了明显的稀疏奖励和顺序决策特点,与经典DRL相比,DHRL往往可以取得突破性成绩;(5)gym:作为OpenAI针对连续状态-动作空间任务设计的实验平台,提供了31个动力学控制任务,包括经典控制(如平衡杆)、Mujoco(如蚂蚁行走)和机械臂(如抓取)等,且兼容了ALE中的Atari游戏,为DHRL贡献了更加丰富多样且简单有效的实验环境;(6)蚂蚁迷宫:在Mujoco的基础上,为蚂蚁行走设计的3D导航任务(包括蚂蚁寻物和蚂蚁推箱),具有更苛刻的实验条件,智能体不仅需要学会多种运动模式,还需要在复杂迷宫中到达目标点,或推动箱子完成指定任务;(7)猎豹越障:在Mujoco的基础上,使用带坡度或阶梯的跑道来验证猎豹越过障碍的能力,通常作为迁移学习的目标任务,对智能体所学策略有极强的可迁移能力要求。
2.强化学习
(reinforcement learning, RL)是机器学习领域的一个重要分支,它以马尔可夫决策过程(Markov decision process, MDP)为理论基础,是一种交互式学习方法。深度强化学习(deep reinforcement learning, DRL)作为深度学习(deep learning, DL)和RL的结合算法,同时具备了DL的感知能力和RL的决策能力,初步形成从输入原始数据到输出动作控制的完整智能系统。近些年,刘全等人对DRL进行了全面的分析和解读,总结了深度Q网络(deep q-learning network, DQN)、深度确定性策略梯度(deep deterministic policy gradient, DDPG)和异步行动者-评论家(asynchronous advantage actor-critic, A3C)等经典算法,并介绍了多种前沿研究方向。分层强化学习(hierarchical reinforcement learning, HRL)作为RL的重要分支,与经典RL方法的最大区别在于:它以半马尔可夫决策过程(semi-Markov decision process, SMDP)为理论基础,基于分层抽象技术,从结构上对RL进行改进,重点关注RL难以解决的稀疏奖励、顺序决策和弱迁移能力等问题,实现了更强的探索能力和迁移能力。但是HRL仍然存在计算能力不足、无法对状态特征进行高效表达的问题,通常只能处理离散状态-动作空间任务。在DRL的成功应用后,深度分层强化学习(deep hierarchical reinforcement learning, DHRL)同样将DL方法引入HRL框架,不仅从理论层面对HRL进行了拓展,还利用深度网络实现了更强的特征提取能力和策略学习能力,构建了更有效、更灵活的分层结构,可以有效解决更复杂的任务。随着DHRL理论的发展和完善,逐步形成了以下层策略学习基础任务实现能力、上层策略学习下游任务解决方案的问题求解路线。目前,DHRL已被广泛应用于视觉导航、自然语言处理、推荐系统和视频描述生成等真实世界应用领域。
3.结束语:
综上所述,深度学习是通过算法来让模型自动学习出好的特征表示,并且其善于从数据本身寻找特征并专注于将简单特征逐渐组合成更复杂的特征,深度学习相较于传统的机器学习算法增强了其提取抽象且具有深度的特征的能力,这也是深度学习区别于传统机器学习算法的优势之一。深度学习正在逐渐成为补足机器学习在特征提取及数据量剧增情况下学习与预测能力不足的有利工具之一。
参考文献:
[1]王日宏,崔兴梅,周炜,等.改进的基于语义理解的文本情感分类方法研究[J].计算机科学,2017,44(S2):92-97.
[2]刘挺,车万翔,李生.基于最大熵分类器的语义角色标注[J].软件学报,2007(3):565-573.
[3]付博,陈毅恒,邵艳秋,等.基于用户自然标注的微博文本的消费意图识别[J].中文信息学报,2017,31(4):208-215.
[4]黄英,朱顺德.二十一世纪的口碑营销及其在中国的发展潜力[J].管理现代化,2003(6):33-36.