DDPG强化学习模型在温度控制中的性能研究
创作时间:
作者:
@小白创作中心
DDPG强化学习模型在温度控制中的性能研究
引用
CSDN
1.
https://blog.csdn.net/m0_64583023/article/details/144817565
本文将深度确定性策略梯度(DDPG)强化学习模型控制温度的性能与比例-积分-微分(PID)控制器和恒温器控制器的性能进行比较研究。
1. 概述
深度确定性策略梯度(DDPG)算法是一种无模型、在线、离策略的强化学习方法。DDPG智能体是一种行动者-评论家(actor-critic)强化学习智能体,它计算出一个最优策略,以最大化长期奖励。
在训练过程中,DDPG智能体:
- 在学习期间的每个时间步更新行动者(actor)和评论家(critic)的属性。
- 使用循环经验缓冲区存储过去的经验。智能体从缓冲区中随机采样一个小批量经验来更新行动者和评论家。
- 在每个训练步骤中,使用随机噪声模型对策略选择的动作进行扰动。
这种方法允许智能体在探索和利用之间找到平衡,通过随机扰动动作来增加探索的多样性,同时利用经验缓冲区中的过去经验来优化策略。DDPG算法特别适用于连续动作空间的问题,因为它能够直接输出一个确定性的动作,而不是动作的概率分布。
2. 性能比较
本研究采用均方误差(Mean Squared Error, MSE)作为性能评估指标,以量化不同控制器在温度控制过程中的误差大小。MSE值越小,表示控制器的性能越好。
恒温器控制器控制温度
- 均方误差:32.7782
恒温器控制器虽然简单易懂,但在温度控制过程中存在较大的误差,难以满足高精度温度控制的需求。
PID控制器控制温度
- 均方误差:23.9247
PID控制器通过调整比例、积分和微分三个参数,实现了对温度的较为精确的控制,相比恒温器控制器,其性能有了显著提升。
DDPG RL智能体控制器控制温度
- 均方误差:26.8667
DDPG强化学习模型通过不断学习和优化策略,实现了对温度的有效控制。虽然其性能略逊于PID控制器,但作为一种自适应控制方法,DDPG模型在复杂环境中具有更强的适应性和鲁棒性。
3. 实验结果
恒温器控制器控制温度
- 均方误差:32.7782
恒温器控制器虽然简单易懂,但在温度控制过程中存在较大的误差,难以满足高精度温度控制的需求。
PID控制器控制温度
- 均方误差:23.9247
PID控制器通过调整比例、积分和微分三个参数,实现了对温度的较为精确的控制,相比恒温器控制器,其性能有了显著提升。
DDPG RL智能体控制器控制温度
- 均方误差:26.8667
DDPG强化学习模型通过不断学习和优化策略,实现了对温度的有效控制。虽然其性能略逊于PID控制器,但作为一种自适应控制方法,DDPG模型在复杂环境中具有更强的适应性和鲁棒性。
4. 重建模型步骤
为确保本研究结果的可重复性和准确性,以下是重建模型的详细步骤:
- 运行
sldemo_househeat_data.m,确保工作区中存在所需的变量。 - 打开并运行
house_thermostat.slx,生成使用普通恒温器控制的图表。 - 打开并运行
house_PID.slx,生成使用离散PID控制器控制的图表。 - 打开
ddpg_live(new).mlx实时笔记本,并逐个运行每个单元格。在运行前,请确保笔记本中的变量training设置为true,以便进行训练。
5. 注意事项
- 为成功重建这些模拟,请确保已安装以下工具箱:
- 强化学习工具箱
- 机器学习工具箱
- PID Tuner
- 在运行笔记本时,请确保计算机具有足够的计算资源和内存,以避免训练过程中出现内存不足或计算缓慢的问题。
6. 结论
本研究通过比较DDPG强化学习模型、PID控制器和恒温器控制器在温度控制方面的性能,发现PID控制器在均方误差方面表现最优,而DDPG强化学习模型虽然性能略逊于PID控制器,但作为一种自适应控制方法,其在复杂环境中具有更强的适应性和鲁棒性。未来研究可以进一步探索DDPG强化学习模型在温度控制任务中的优化方法,以提高其性能。
7. 运行结果
8. 部分代码
% -------------------------------
% converst radians to degrees
r2d = 180/pi;
% -------------------------------
% Define the house geometry
% -------------------------------
% House length = 30 m
lenHouse = 30;
% House width = 10 m
widHouse = 10;
% House height = 4 m
htHouse = 4;
% Roof pitch = 40 deg
pitRoof = 40/r2d;
% Number of windows = 6
numWindows = 6;
% Height of windows = 1 m
htWindows = 1;
% Width of windows = 1 m
widWindows = 1;
windowArea = numWindows*htWindows*widWindows;
wallArea = 2*lenHouse*htHouse + 2*widHouse*htHouse + ...
2*(1/cos(pitRoof/2))*widHouse*lenHouse + ...
tan(pitRoof)*widHouse - windowArea;
% -------------------------------
% Define the type of insulation used
% -------------------------------
% Glass wool in the walls, 0.2 m thick
% k is in units of J/sec/m/C - convert to J/hr/m/C multiplying by 3600
kWall = 0.038*3600; % hour is the time unit
LWall = .2;
RWall = LWall/(kWall*wallArea);
% Glass windows, 0.01 m thick
kWindow = 0.78*3600; % hour is the time unit
LWindow = .01;
RWindow = LWindow/(kWindow*windowArea);
% -------------------------------
% Determine the equivalent thermal resistance for the whole building
% -------------------------------
Req = RWall*RWindow/(RWall + RWindow);
% c = cp of air (273 K) = 1005.4 J/kg-K
c = 1005.4;
% -------------------------------
% Enter the temperature of the heated air
% -------------------------------
% The air exiting the heater has a constant temperature which is a heater
% property. THeater = 50 deg C
THeater = 60;
% Air flow rate Mdot = 1 kg/sec = 3600 kg/hr
Mdot = 3600; % hour is the time unit
% -------------------------------
% Determine total internal air mass = M
% -------------------------------
% Density of air at sea level = 1.2250 kg/m^3
densAir = 1.2250;
M = (lenHouse*widHouse*htHouse+tan(pitRoof)*widHouse*lenHouse)*densAir;
% -------------------------------
% Enter the cost of electricity and initial internal temperature
% -------------------------------
% Assume the cost of electricity is $0.09 per kilowatt/hour
% Assume all electric energy is transformed to heat energy
% 1 kW-hr = 3.6e6 J
% cost = $0.09 per 3.6e6 J
9. 参考文献
[1]王琪.基于联邦强化学习的综合能源系统经济调度策略研究[D].华北电力大学(北京),2023.
[2]杜牵.基于风险评估和深度强化学习的自动驾驶决策方法研究[D].齐鲁工业大学,2024.
[3]陆鹏,付华,卢万杰.基于深度确定性策略梯度与模糊PID的直流微电网VRB储能系统就地层功率控制[J].电力系统保护与控制, 2023, 51(18):94-105.
热门推荐
双11熟醉虾大放价,手把手教你选购制作
多方力量博弈致“六年禁政”失败,国民政府禁烟运动成效有限
雷神托尔:从神话到漫威的超级英雄之路
雷神索尔的心理成长:从神明到英雄的蜕变之路
《原神》2.5版本八重神子登场:神秘大巫女的双重身份
冬天非洲茉莉受冻蔫了怎么处理
职场不顺怎么办?七步教你应对职场逆境
健康烹饪油爆大虾:控制油温、减油少盐的四大秘诀
传统油爆虾+三种创新搭配,大厨教你做出餐厅级美味
50元人民币上的瀑布怎么拍?秋季摄影攻略来了
金秋壶口瀑布现壮丽景观,晋陕两省共创5A景区
天安门旁的国博:传统与现代交融的设计之美
国博镇馆之宝:万历孝敬皇后的九龙九凤嵌珠宝点翠凤冠
寒假来了,教你科学管理孩子看电视时间
搬家攻略:6大注意事项+9步入厝仪式,还有暖心送礼指南
从网络热词到文化传承,闽南话的七声调魅力
研究提醒:肾病患者过量食用山药或致病情恶化
四季更迭,如何让父母睡得更香甜?
哈尔滨滑冰热:基础技巧快速入门
花样滑冰新手速成指南:掌握基本姿势与平衡技巧
职场冲突频发?团队建设来帮忙!
职场报复频发,如何依法维权?
空椅子技巧:搞定职场冲突
从360元燃油宝纠纷看消费者维权:六大途径助力讨回“被消费”
双11维权攻略:从辨别假货到成功退款
职场冲突管理:提升团队效率的关键
职场沟通指南:从冲突到合作的实用技巧
高处作业安全指南:4级分级标准与8大管理措施
云南大理吊篮事故敲警钟,专家详解高空作业安全管理制度
EasyX入门教程:开发一个简单的连连看游戏