人工智能学院青年科研六组例会会议纪要

发布者：xxgc发布时间：2026-05-29浏览次数：12

2026年5月28日，人工智能学院在15栋302召开了科研六组例会。张芸老师汇报了课题组在强化学习与云计算交叉方向的研究进展，重点介绍了为解决动态集群资源下时变批处理作业调度不稳定、传统期望强化学习无法捕获环境随机性等问题所设计的分布式强化学习调度框架。主要内容如下：

一、论文分享

Batch Jobs Load Balancing Scheduling in Cloud Computing Using Distributional Reinforcement Learning

1.研究背景与问题

当前，云计算平台中的批处理作业负载均衡调度面临高度的复杂性与随机性，传统静态或启发式算法难以适应长期动态变化的环境。其核心挑战在于：

时变批处理作业的复杂性：作业运行时间跨度大，到达时间随机，且内部任务对多维资源的需求波动剧烈。

集群资源的动态性：数据中心由大量配置异构的机器组成，需要动态调整并分配CPU、内存和存储等多维资源以响应用户请求。

服务等级协议（SLA）约束：调度算法必须在满足SLA约束的前提下，防范违规行为并提升作业实例创建的成功率，属于复杂的多目标优化问题。

虽然基于价值的方法，如传统DQN，已被用于该领域，但其仅利用神经网络去估计累积回报的期望值，忽略了值分布所包含的完整信息，在面对高随机性环境时难以收敛到最优负载均衡策略。而策略梯度方法在处理此类高随机性环境时，容易出现估计方差过大、采样效率低或陷入局部最优的问题。

2. 提出的算法与关键技术

汇报重点阐述了利用分位数回归深度Q 网络建模累积回报值分布的动态负载均衡调度算法。

(1) 马尔可夫决策过程（MDP）系统建模：

将调度过程形式化为MDP。状态空间s融合了集群虚拟机的多维资源当前负载与当前待调度作业实例的资源需求；动作空间A 为选择特定虚拟机创建实例；奖励函数r兼顾SLA约束与负载均衡度的改善，当违反SLA时给予负惩罚（r=-1），当满足SLA 时根据机器负载与系统平均负载的差值进行正向或负向引导。

(2) 分位数分布表征

将累积回报作为随机变量，利用分布式强化学习保持完整的分位数分布信息，而非仅建模其期望。在固定分位数位置数量L的空间中，统一概率分布支撑在上（s,a），其表达式为：

算法通过分位数回归来学习网络输出的各个分位数值，从而全面捕获云计算环境中的固有随机性。

(3) 分位数Huber损失函数优化：

为解决零点处缺乏平滑性的问题，引入非对称的分位数Huber损失作为网络的优化目标：

通过最小化该损失项，使网络能够平滑且精准地拟合目标值分布，保证了强化学习Agent在高随机环境下的训练稳定性与收敛速度。

3、初步验证与应用场景

(1) 基准环境与数据集验证：

课题组搭建了能够实时处理批处理作业的集群仿真环境，并采用真实的工业级数据集——阿里巴巴集群开源追踪数据，Alibaba Cluster Traces v2018&v2020进行大规模实验评估。

(2) 实验结果与性能表现：

实验对比了Round Robin、Random、Double DQN、Dueling DQN、REINFORCE 及PPO 算法。结果表明，提出的QR-DQN 调度算法在集群累积负载均衡度、实例创建成功率以及任务平均完成时间等核心评估指标上均取得了最优表现，且在密集型密集任务流模式下展现出了更平稳的收敛曲线与极佳的横向扩展能力。

二、组员讨论

汇报结束后，与会老师与同学围绕该框架的实际可行性、潜在挑战及下一步的研究方向展开了热烈讨论。

周文娟老师提出了关于计算开销与吞吐量的关切。她指出，虽然QR-DQN 算法在负载均衡和成功率上表现突出，但在追踪数据集，特别是v2020密集模式的测试中，由于引入了额外的分位数分布建模和网络节点输出，导致算法的计算开销有所上升，吞吐量相较于传统微型价值网络偏低。建议在后续向实际生产系统落地时，探讨对分位数网络进行剪枝或优化位置数量L的动态选择策略。

范兴国老师关注多维资源不平衡下的鲁棒性问题。他注意到在Alibaba v2020数据集中，CPU 变化的随机性远大于内存，导致所有算法在CPU 维度和内存维度的累积负载均衡表现差异非常大。他提问在多目标优化中，针对这种多维资源异构且波动不一致的场景，如何更智能地动态调整奖励函数中各资源的权重。

三、会议总结

杨喆老师对本次汇报和讨论进行了总结：会议肯定了基于分位数回归的分布式强化学习算法在云计算资源管理中的创新价值，一致认为从值分布视角取代传统期望值视角是解决高随机性集群调度问题的有力路径。同时，会议明确指出当前工作虽然在离线仿真和公开数据集上表现优异，但面对高并发实时系统时仍面临模型吞吐量受限、多维资源极端不平衡下的权重调优以及复杂拓扑依赖作业支持不足等现实挑战。下一步，课题组应集中力量在模型轻量化、自适应多目标奖励分配以及图结构任务流预处理方面展开深入攻关。

图为张芸老师正在进行论文讲解

科学研究

人工智能学院青年科研六组例会会议纪要