2026年5月14日,人工智能学院在15栋302召开了科研六组例会。杨喆老师分享了一篇CCF-A类会议的学习笔记,为课题组在强化学习与微服务方向的研究进行知识分享。该论文解决了微服务系统中的根因分析(RCA)问题。相比传统只能定位到“哪个服务异常”的方法,MRCA进一步实现了“指标级”定位,能够更精准地告诉运维人员到底是哪一个指标出现问题,从而提高故障恢复效率。主要内容如下:
一、论文分享
MRCA:基于多模态数据的微服务指标级根因分析
1.研究背景与问题
(1)微服务系统结构复杂,服务数量多,调用链动态变化快,人工排查故障成本极高。
(2)传统RCA方法大多依赖单一数据源,例如仅使用日志、指标或调用链数据。
(3)现有方法多数只能定位到服务级别,无法进一步细化到具体指标。
(4)指标级因果分析虽然更精准,但会导致因果图规模迅速膨胀,计算成本极高。
因此,论文希望同时解决三个核心问题:如何利用多模态数据提升异常检测能力、如何实现指标级根因定位、以及如何降低因果图分析带来的时间消耗。
2.MRCA核心思想
MRCA整体可以理解为“多模态异常检测+ 因果分析+ 强化学习剪枝”的组合框架。
(1)从日志(Logs)和调用链(Traces)中提取特征;
(2)利用VAE模型进行异常检测,并对异常服务排序;
(3)基于Granger因果关系构建指标级因果图;
(4)利用Q-learning动态决定是否继续扩展因果图;
(5)最终输出指标级根因结果。
3.多模态特征学习
论文认为,单一数据源无法完整描述系统异常,因此同时使用日志与调用链数据。
(1)日志特征
使用Drain工具提取日志模板,并统计不同模板的频率变化。系统发生异常时,日志模板的分布通常会发生明显变化,因此可以利用频率波动判断异常。
(2)调用链特征
调用链数据主要提取延迟信息。论文使用固定时间窗口统计平均调用延迟,以此反映服务之间的性能变化与异常传播路径。
(3)数据融合
日志模板频率与调用链延迟最终会被统一成时间序列数据,作为后续VAE模型的输入,实现多模态融合。
4.异常检测:VAE模型
MRCA使用变分自编码器(VAE)进行异常检测。VAE会先利用系统正常运行时期的数据进行训练,学习“正常模式”。
在线阶段,当新的时间序列输入模型时,如果模型无法很好地重构数据,则说明当前状态偏离正常模式,系统可能出现异常。
论文使用“重构概率”作为异常分数:重构概率越低,说明异常程度越高。
相比传统阈值法,VAE具有更强的泛化能力,能够识别更多未知异常。
5.根因分析:Granger因果图
在异常检测之后,MRCA会对高异常概率服务进行因果分析。
论文采用Granger因果关系方法:如果某个指标的历史值能够显著提升另一个指标的预测效果,则认为两者存在因果关系。
通过这种方式,系统能够构建“服务-指标”之间的因果图,并追踪异常传播路径。
6.Q-learning动态剪枝
这是论文最具创新性的部分之一。
指标级因果图节点数量巨大,如果无限扩展,会导致时间成本迅速上升。
因此,作者引入Q-learning,将“是否继续扩展因果图”建模为强化学习问题。
状态:当前因果图的节点数、边数、层数等;
动作:扩展某节点或停止扩展;
奖励:同时考虑RCA准确率与图复杂度。
Q-learning的核心作用是:在保证定位准确性的前提下,避免因果图过度扩展,从而提升系统整体效率。
7.实验结果分析
论文在OnlineBoutique与TrainTicket两个微服务基准系统上进行了实验。
异常检测F1分数相比基线方法提升56.4%~115.7%;
服务级PR@1达到60.1%;
指标级PR@1达到71.9%;
PR@5达到90%以上;
剪枝策略显著降低了因果分析耗时。
实验说明,多模态融合能够有效提升异常检测效果,而强化学习剪枝则能够在保持准确率的同时显著降低分析时间。
8.论文的重要发现
论文消融实验发现:日志数据的重要性明显高于调用链数据。
在代码异常场景中,日志往往包含更多直接错误信息,而调用链延迟未必会发生明显变化。
因此,MRCA中的注意力机制更适合聚焦日志特征,而不是调用链特征。
9.论文优点与不足
优点:
提出完整的多模态RCA闭环;
实现指标级根因定位;
强化学习剪枝具有较强工程价值;
兼顾准确率与时间效率;
更接近真实生产环境需求。
不足:
依赖高质量日志、指标与调用链数据;
无法处理无可观测信号的异常;
Granger因果本质仍是统计相关;
强化学习更多是工程优化,而非理论突破。
10.总结
MRCA并不是单纯提出某一种新的算法,而是尝试构建一个真正可落地的微服务根因分析系统。它将多模态异常检测、指标级因果分析以及强化学习复杂度控制整合在一起,形成了完整的工程化RCA流程。
相比很多只关注算法精度的研究,MRCA更加关注真实生产环境中的可扩展性、实时性与工程实用性,因此具有较高的实际应用价值。
二、组员讨论
1.关于多模态数据融合的讨论
张芸观点:MRCA最大的亮点之一在于同时利用日志、调用链和指标数据。她指出,传统RCA方法往往只依赖单一数据源,因此容易遗漏异常信号。而MRCA通过多模态融合,能够从不同维度理解系统异常行为。她进一步分析:指标适合反映资源使用情况,日志更适合捕获代码异常,调用链则适合分析异常传播路径。MRCA真正的价值在于利用这些信息的互补性。同时,她提出一个问题:如果系统日志质量较差,是否会影响整个模型性能。
方文娟观点:结合论文中的消融实验进行了补充。她指出,在当前实验场景中,日志数据的重要性明显高于调用链数据。她认为,这是因为实验中的大量异常属于代码层故障,而代码异常更容易体现在日志中。如果未来场景变成网络抖动或链路拥塞,调用链数据的重要性可能会明显提高。讨论成员一致认为,不同异常场景下,多模态数据的重要性会发生动态变化。
2.关于VAE异常检测机制的讨论
别岳超观点:重点讨论了VAE异常检测机制。他认为,相比传统N-sigma等阈值方法,VAE能够学习系统正常运行的数据分布,因此具有更强的泛化能力。但他也提出疑问:如果训练数据中本身包含轻微异常,模型是否会将异常误学习为“正常模式”。
王文静观点:这实际上是所有基于“正常模式学习”的异常检测方法都会遇到的问题。她指出,论文采用离线训练方式,尽量使用无故障时期的数据进行训练,但在真实工业环境中,很难完全保证训练数据绝对干净。因此她建议,未来可以加入在线增量学习与人工反馈机制,进一步提高模型长期稳定性。
3.关于Granger因果分析的讨论
许子龙观点:重点讨论了Granger因果关系。他认为,Granger更偏向“时间序列上的预测因果”,并不等同于严格意义上的真实物理因果。因此,在复杂系统中,某些指标之间可能只是统计相关,而不一定是真正的异常传播关系。
张芸补充观点:虽然Granger存在理论局限,但其工程实用价值依然很高。因为微服务系统本身具有明显的时间传播特征,因此Granger仍然适合在线故障分析场景。讨论成员普遍认为,MRCA中的Granger更偏向工程化近似因果分析方案。
4.关于Q-learning剪枝策略的讨论
方文娟观点:强化学习部分是论文最具创新性的设计之一。她指出,指标级RCA最大的难点并不是“不准确”,而是因果图规模过大,导致时间成本难以接受。Q-learning真正解决的是复杂度与在线效率问题。
别岳超观点:Q-learning本质上是在学习“什么时候继续扩展因果图更有价值”。奖励函数同时考虑准确率与图复杂度,实际上是在做准确率与计算成本之间的动态平衡。
王文静观点:强化学习虽然提升了效率,但它并没有真正增强因果推断能力。因此,她认为Q-learning更像是一种智能搜索与剪枝策略,而不是新的因果分析理论。
三、会议总结
(1)MRCA最大的价值在于构建了完整的多模态RCA工程框架;
(2)指标级定位相比服务级定位更具有实际运维价值;
(3)强化学习剪枝显著提升了在线分析效率;
(4)日志数据在当前实验场景中的价值高于调用链数据;
(5)论文更强调工程可落地性,而不仅仅是理论创新。
通过本次讨论,小组成员进一步理解了微服务根因分析中的核心挑战,并认识到未来智能运维的发展方向将越来越强调:多模态数据融合、在线因果分析以及自动化决策。

图为杨喆老师正在进行论文讲解

