doc 探讨运筹学中强化学习的应用前景(运筹学论文) ㊣ 精品文档 值得下载

🔯 格式:DOC | ❒ 页数:15 页 | ⭐收藏:0人 | ✔ 可以修改 | @ 版权投诉 | ❤️ 我的浏览 | 上传时间:2023-05-06 06:37

探讨运筹学中强化学习的应用前景(运筹学论文)

聚类的学习方法来求解动态单机问题,结果表明该算法可有效地降低系统状态的维数并提高收敛速度。典型的基于的车间作业调度问题中的文献如表所示。利用的问题研究成果颇丰,已有的文献充分考虑了问题的随机性与动态性,并从单机调度逐渐向动态多目标和多机器调度发展从角度来看,研究也由单向多协同优化逐步发展,但目前大多数文献都是采用学习方法进行模型求解,并且在基于协作的方面的研究较少。表在车是机器学习的个重要分支,它是基于与环境进行交互,并从环境中获得信息奖赏并映射到动作的种学习方式,其主要思想是与环境不断交互和试错,接收反馈信号来进行优化决策。更接近于自然界生物学习的本质,因而在很多领域取得了成功的应用,包括游戏,机器人控制自然语言处理以及计算机视觉等。特别地,基于与深度学习融合的与新代围棋程序将的理论和应用研究推向了个新的高度。本文对在运筹优化领域中的应用进行文献综述,首先简单介绍的基本原理及其算法分类,其次阐述在运筹优化领域应用的研究框架,然后对在运筹优化领域的应用进行总结与评述,主要包括库存控制路径优化装箱配载以及车间作业调度等几个经典运筹学问题,最后对在该领域的应用研究进行展望,指出几个需要重点关注的研究方向。强化学习简介基本结构如图所示,在每个时间步长内,感知环境状态,并根据既定的策略采取行动,得到执行所获得的立即奖赏,同时使环境由状态转换为。的目的是让学度逐渐向动态多目标和多机器调度发展从角度来看,研究也由单向多协同优化逐步发展,但目前大多数文献都是采用学习方法进行模型求解,并且在基于协作的方面的研究较少。表在车间作业调度中的应用文献汇总基于的运筹优化传统在只能求解简单小规模的运筹优化问题,但现实中的运筹优化问题往往都比较复杂,其状态空间和动作空间维数很大,传统难以求解。近年来,随着深度学习的兴起,深度学习与强化学习的结合研究也受到了很多关注,深度强化学习将深度学习的强大感知能力融入传统算法,形成了人工智能领域新的研究热点,相比于传统低维度表格型的,融合了深度学习的优点深度学习可自动提取高维度问题的特征,可让直接在更原始的状态下进行学习深度学习可利用其强大的拟合能力对值函数或策略函数进行近似深度学习为增强了泛化能力高级别的如和等和仿真环境如等为提供了很多优秀的实验平台,并辅助些强大的硬件设施,这使得能在可以接受的探讨运筹学中强化学习的应用前景运筹学论文高速度过慢不稳定等问题。因此,可以考虑用其它启发式优化算法指导进行更有效率的学习,如遗传算法等,也可考虑在中加入人类专家领域的知识经验和高质量数据等,以此来提高的学习效率以及降低学习难度,从而使得在处理具体问题时更具准确性与稳健性。探讨运筹学中强化学习的应用前景运筹学论文。值得注意的是,等利用框架对计算集群中的问题进行了研究,并以最小化迟交率为优化目标,利用改进的算法对神经网络进行训练,仿真结果显示,当平均集群负载率为且作业规模为时,基于框架的平均迟交率为左右,远低于其它算法此后有许多学者在此基础上进行改进,拓展框架在问题上的应用研究,等将其拓展为多资源多机器问题,并在奖赏的设臵以及特征提取这两个方面对模型进行了改进,该模型所得的平均迟交率相较于文献又降低了,并当输入层使用卷积神经网络进行特征提取时,虽然平均迟交率降低幅度有所减少,但算法收敛速度有所提升。等也尝试利用优化半导体制造企业的据是独立同分布,而自举采样得到的数据之间存在时序和状态关联性,导致训练神经网络的数据不是独立同分布,在训练神经网络会出现模型不收敛不稳定的现象,会极大地影响学习的效率稳定性和收敛性。本质上是深度神经网络和学习强化学习的结合,它利用经验回放的方法来训练神经网络,即先将收集得到的数据存储到个临时数据库中,再利用均匀随机采样的方法从该数据库中抽取数据来训练神经网络,这种经验回放可以打破数据之间的关联性,最大限度地保证数据独立同分布,提高学习的稳定性此外传统中在利用神经网络进行值函数近似时,计算目标的动作值函数所用的网络参数与梯度计算中要逼近的值函数所用的网络参数相同,也容易导致数据之间存在关联性,使得训练不稳定,则利用个单独的目标网络来计算目标值,并且用于动作值函数逼近的网络单步更新,而用于计算目标值的网络则每隔固定的步数更新次,来减少目标值与当前值的相关性,进步提高模型的稳定性最后可以利用图嵌入等技术来自动提取特征,这种自动特征提取技术可以减少对专业领域知识的依赖,实现种端到种概率分布存在但无法明确预知客户的需求。学者们将前者称为动态路径优化问题,后者称为随机路径优化问题,路径优化问题也是典型的多阶段序贯决策问题,可以利用进行求解。旅行商问题已有学者运用对动态随机型问题进行研究,将基于启发式的策略应用于考虑随机旅行时间的问题,仿真表明该策略的求解结果优于循环启发式算法,等研究了随机成本的动态问题,将其建模为近似动态规划模型,提出了种价格导向的策略。然而,般算法只能解决特定的具体问题,等指出可以用神经网络与结合的框架来求解问题,并提出了基于策略梯度的两种变体方法种是带提前训练的,利用期望回报作为目标函数,使用与相类似的训练算法对指针网络进行优化,另种是主动搜索,不需要提前训练,仿真测试结果显示该方法在种不同规模下的问题均优于监督学习算法以及启发式算法,并且该方法的求解结果与最优解的差距均在以内。在此基础上,等进步指出同类型的组合优化问题具有相同的结构,只是在此外,和利用研究了由客户零售商批发商分销商和供应商构成的阶段供应链模型,在此基础上,等将供应链模型由多阶段扩展至阶段,其中第阶段为零售商,其余阶段均为供应商,提出了种多主体协同需求估计协议和分布式的动作奖赏学习技术。另外还有学者研究了供应商管理库存模式下库存控制问题,等提出了收敛速度更快的回顾性行动奖赏算法,等用学习算法选择合适的安全库存以应对非稳定性需求,同时还对需求预测过程中的牛鞭效应进行了分析。等基于研究了种由供应商保留零售商库存所有权,在零售商销售商品之前库存成本由供应商承担的补货策略。此外,等基于,库存模型对算法与策略进行了比较分析,结果表明在持有成本与缺货成本比率较高时,策略更适用于该类问题的求解。值得注意的是,等运用解决了考虑产品寿命的单阶段库存决策问题,以总库存成本最小化为目标,分别用学习算法与遗传算法进行比较分析,实验表明在客户需求变化大学者利用基于动态表格查找的算法研究,文献将动态表格查找的方法运用于多周期的中。在中的应用主要集中在紧急医疗领域,这类问题的随机服务时间主要是指救护车到达救护现场对病人进行预处理的时间,譬如文献,研究了考虑随机服务时间的救护车调度部署问题。典型的在问题中的应用文献统计如表所示。综上所述,相对传统的运筹优化方法,在解决随机动态的车辆路径问题具有定的优势。但是当前研究也存在些问题,比如对考虑单随机因素的动态问题的研究较多,但是对考虑多重随机因素的问题的研究较少,此外大多数文献并未考虑车辆的异质性,并且在算法方面,大部分文献局限于采用策略或基于表格型的算法进行研究。表在问题中的应用文献汇总装箱配载有关背包问题和装箱配载问题的研究成果颇丰,但大多都集中在精确算法以及启发式算法。背包和装箱配载也可视为序贯决策问题,等定义并研究了类具有相同物品尺寸的动态随机背包问题,随后又将其拓展至物品大小随机的背包问题,并将其建模为力机制引入了算法用于求解问题,利用算法对确定性最优策略进行训练,该方法在问题的测试结果与最优解差距分别为和,求解质量很高,并在同等条件下比文献更快收敛。总的来说,利用研究问题具有很大的潜力。能较好地克服传统运筹学建模方法的缺点在建模难建模不准确的问题方面,可以通过与环境的不断交互,学习到最优策略在传统方法难以解决高维度的问题方面,提供了包括值函数近似以及直接策略搜索等近似算法在难以求解动态与随机型问题方面,可在与环境之间的交互以及状态转移过程中加入随机因素。的这些优点使得其适合求解运筹学领域的大规模动态随机决策问题,如库存控制路径优化装箱配载以及车间作业调度等问题,为运筹优化的研究提供个新视角。强化学习在运筹学中的应用库存控制库存控制的核心内容包括订货时间订货数量以及库存水平等,其目的是在降低库存的同时保证较高的客户服务水平。实际库存控制存在很大的不确定性,如客户需求或订货提前期动态变化,特别地,在多阶段供应链库存决策中,由于供应链不组合优化问题,传统的运筹优化方法难以求解不确定性路径优化问题,路径优化问题的不确定性主要体现在信息演变和信息质量变化这两个方面。信息演变是指决策者掌握的些信息有可能会在实际中随时间发生变化,比如车辆旅行时间受实时交通路况影响随时发生变化以及在配送服务时可能有新的顾客产生新的需求等而信息质量变化是指些信息存在不确定性,比如决策者只能得知顾客的实际需求是按照种概率分布存在但无法明确预知客户的需求。学者们将前者称为动态路径优化问题,后者称为随机路径优化问题,路径优化问题也是典型的多阶段序贯决策问题,可以利用进行求解。旅行商问题已有学者运用对动态随机型问题进行研究,将基于启发式的策略应用于考虑随机旅行时间的问题,仿真表明该策略的求解结果优于循环启发式算法,等研究了随机成本的动态问题,将其建模为近似动态规划模型,提出了种价格导向的策略。然而,般算法只能解决特定的具体问题,等指出可以用神经网络与结合的框架来求践参考。与其它各类算法的结合。算法的优势在于通过交互获取环境的动态信息,从而解决大规

下一篇
探讨运筹学中强化学习的应用前景(运筹学论文)第1页
1 页 / 共 15
探讨运筹学中强化学习的应用前景(运筹学论文)第2页
2 页 / 共 15
探讨运筹学中强化学习的应用前景(运筹学论文)第3页
3 页 / 共 15
探讨运筹学中强化学习的应用前景(运筹学论文)第4页
4 页 / 共 15
探讨运筹学中强化学习的应用前景(运筹学论文)第5页
5 页 / 共 15
探讨运筹学中强化学习的应用前景(运筹学论文)第6页
6 页 / 共 15
探讨运筹学中强化学习的应用前景(运筹学论文)第7页
7 页 / 共 15
探讨运筹学中强化学习的应用前景(运筹学论文)第8页
8 页 / 共 15
探讨运筹学中强化学习的应用前景(运筹学论文)第9页
9 页 / 共 15
探讨运筹学中强化学习的应用前景(运筹学论文)第10页
10 页 / 共 15
探讨运筹学中强化学习的应用前景(运筹学论文)第11页
11 页 / 共 15
探讨运筹学中强化学习的应用前景(运筹学论文)第12页
12 页 / 共 15
探讨运筹学中强化学习的应用前景(运筹学论文)第13页
13 页 / 共 15
探讨运筹学中强化学习的应用前景(运筹学论文)第14页
14 页 / 共 15
探讨运筹学中强化学习的应用前景(运筹学论文)第15页
15 页 / 共 15
  • 内容预览结束,喜欢就下载吧!
温馨提示

1、该文档不包含其他附件(如表格、图纸),本站只保证下载后内容跟在线阅读一样,不确保内容完整性,请务必认真阅读。

2、有的文档阅读时显示本站(www.woc88.com)水印的,下载后是没有本站水印的(仅在线阅读显示),请放心下载。

3、除PDF格式下载后需转换成word才能编辑,其他下载后均可以随意编辑、修改、打印。

4、有的标题标有”最新”、多篇,实质内容并不相符,下载内容以在线阅读为准,请认真阅读全文再下载。

5、该文档为会员上传,下载所得收益全部归上传者所有,若您对文档版权有异议,可联系客服认领,既往收入全部归您。

  • 文档助手,定制查找
    精品 全部 DOC PPT RAR
换一批