科学研究

人工智能学院青年科研六组例会会议纪要

发布者:xxgc发布时间:2026-05-15浏览次数:10

2026年5月14日,人工智能学院在15栋302召开了科研六组例会。杨喆老师分享了一篇CCF-A类会议的学习笔记,为课题组在强化学习与微服务方向的研究进行知识分享。该论文解决了微服务系统中的根因分析(RCA)问题。相比传统只能定位到“哪个服务异常”的方法,MRCA进一步实现了“指标级”定位,能够更精准地告诉运维人员到底是哪一个指标出现问题,从而提高故障恢复效率。主要内容如下:

一、论文分享

MRCA:基于多模态数据的微服务指标级根因分析

1.研究背景与问题

(1)微服务系统结构复杂,服务数量多,调用链动态变化快,人工排查故障成本极高。

(2)传统RCA方法大多依赖单一数据源,例如仅使用日志、指标或调用链数据。

(3)现有方法多数只能定位到服务级别,无法进一步细化到具体指标。

(4)指标级因果分析虽然更精准,但会导致因果图规模迅速膨胀,计算成本极高。

因此,论文希望同时解决三个核心问题:如何利用多模态数据提升异常检测能力、如何实现指标级根因定位、以及如何降低因果图分析带来的时间消耗。

2.MRCA核心思想

MRCA整体可以理解为“多模态异常检测+ 因果分析+ 强化学习剪枝”的组合框架。

(1)从日志(Logs)和调用链(Traces)中提取特征;

(2)利用VAE模型进行异常检测,并对异常服务排序;

(3)基于Granger因果关系构建指标级因果图;

(4)利用Q-learning动态决定是否继续扩展因果图;

(5)最终输出指标级根因结果。

3.多模态特征学习

论文认为,单一数据源无法完整描述系统异常,因此同时使用日志与调用链数据。

(1)日志特征

使用Drain工具提取日志模板,并统计不同模板的频率变化。系统发生异常时,日志模板的分布通常会发生明显变化,因此可以利用频率波动判断异常。

(2)调用链特征

调用链数据主要提取延迟信息。论文使用固定时间窗口统计平均调用延迟,以此反映服务之间的性能变化与异常传播路径。

(3)数据融合

日志模板频率与调用链延迟最终会被统一成时间序列数据,作为后续VAE模型的输入,实现多模态融合。

4.异常检测:VAE模型

MRCA使用变分自编码器(VAE)进行异常检测。VAE会先利用系统正常运行时期的数据进行训练,学习“正常模式”。

在线阶段,当新的时间序列输入模型时,如果模型无法很好地重构数据,则说明当前状态偏离正常模式,系统可能出现异常。

论文使用“重构概率”作为异常分数:重构概率越低,说明异常程度越高。

相比传统阈值法,VAE具有更强的泛化能力,能够识别更多未知异常。

5.根因分析:Granger因果图

在异常检测之后,MRCA会对高异常概率服务进行因果分析。

论文采用Granger因果关系方法:如果某个指标的历史值能够显著提升另一个指标的预测效果,则认为两者存在因果关系。

通过这种方式,系统能够构建“服务-指标”之间的因果图,并追踪异常传播路径。

6.Q-learning动态剪枝

这是论文最具创新性的部分之一。

指标级因果图节点数量巨大,如果无限扩展,会导致时间成本迅速上升。

因此,作者引入Q-learning,将“是否继续扩展因果图”建模为强化学习问题。

状态:当前因果图的节点数、边数、层数等;

动作:扩展某节点或停止扩展;

奖励:同时考虑RCA准确率与图复杂度。

Q-learning的核心作用是:在保证定位准确性的前提下,避免因果图过度扩展,从而提升系统整体效率。

7.实验结果分析

论文在OnlineBoutique与TrainTicket两个微服务基准系统上进行了实验。

异常检测F1分数相比基线方法提升56.4%~115.7%;

服务级PR@1达到60.1%;

指标级PR@1达到71.9%;

PR@5达到90%以上;

剪枝策略显著降低了因果分析耗时。

实验说明,多模态融合能够有效提升异常检测效果,而强化学习剪枝则能够在保持准确率的同时显著降低分析时间。

8.论文的重要发现

论文消融实验发现:日志数据的重要性明显高于调用链数据。

在代码异常场景中,日志往往包含更多直接错误信息,而调用链延迟未必会发生明显变化。

因此,MRCA中的注意力机制更适合聚焦日志特征,而不是调用链特征。

9.论文优点与不足

优点:

提出完整的多模态RCA闭环;

实现指标级根因定位;

强化学习剪枝具有较强工程价值;

兼顾准确率与时间效率;

更接近真实生产环境需求。

不足:

依赖高质量日志、指标与调用链数据;

无法处理无可观测信号的异常;

Granger因果本质仍是统计相关;

强化学习更多是工程优化,而非理论突破。

10.总结

MRCA并不是单纯提出某一种新的算法,而是尝试构建一个真正可落地的微服务根因分析系统。它将多模态异常检测、指标级因果分析以及强化学习复杂度控制整合在一起,形成了完整的工程化RCA流程。

相比很多只关注算法精度的研究,MRCA更加关注真实生产环境中的可扩展性、实时性与工程实用性,因此具有较高的实际应用价值。

二、组员讨论

1.关于多模态数据融合的讨论

张芸观点:MRCA最大的亮点之一在于同时利用日志、调用链和指标数据。她指出,传统RCA方法往往只依赖单一数据源,因此容易遗漏异常信号。而MRCA通过多模态融合,能够从不同维度理解系统异常行为。她进一步分析:指标适合反映资源使用情况,日志更适合捕获代码异常,调用链则适合分析异常传播路径。MRCA真正的价值在于利用这些信息的互补性。同时,她提出一个问题:如果系统日志质量较差,是否会影响整个模型性能。

方文娟观点:结合论文中的消融实验进行了补充。她指出,在当前实验场景中,日志数据的重要性明显高于调用链数据。她认为,这是因为实验中的大量异常属于代码层故障,而代码异常更容易体现在日志中。如果未来场景变成网络抖动或链路拥塞,调用链数据的重要性可能会明显提高。讨论成员一致认为,不同异常场景下,多模态数据的重要性会发生动态变化。

2.关于VAE异常检测机制的讨论

别岳超观点:重点讨论了VAE异常检测机制。他认为,相比传统N-sigma等阈值方法,VAE能够学习系统正常运行的数据分布,因此具有更强的泛化能力。但他也提出疑问:如果训练数据中本身包含轻微异常,模型是否会将异常误学习为“正常模式”。

王文静观点:这实际上是所有基于“正常模式学习”的异常检测方法都会遇到的问题。她指出,论文采用离线训练方式,尽量使用无故障时期的数据进行训练,但在真实工业环境中,很难完全保证训练数据绝对干净。因此她建议,未来可以加入在线增量学习与人工反馈机制,进一步提高模型长期稳定性。

3.关于Granger因果分析的讨论

许子龙观点:重点讨论了Granger因果关系。他认为,Granger更偏向“时间序列上的预测因果”,并不等同于严格意义上的真实物理因果。因此,在复杂系统中,某些指标之间可能只是统计相关,而不一定是真正的异常传播关系。

张芸补充观点:虽然Granger存在理论局限,但其工程实用价值依然很高。因为微服务系统本身具有明显的时间传播特征,因此Granger仍然适合在线故障分析场景。讨论成员普遍认为,MRCA中的Granger更偏向工程化近似因果分析方案。

4.关于Q-learning剪枝策略的讨论

方文娟观点:强化学习部分是论文最具创新性的设计之一。她指出,指标级RCA最大的难点并不是“不准确”,而是因果图规模过大,导致时间成本难以接受。Q-learning真正解决的是复杂度与在线效率问题。

别岳超观点:Q-learning本质上是在学习“什么时候继续扩展因果图更有价值”。奖励函数同时考虑准确率与图复杂度,实际上是在做准确率与计算成本之间的动态平衡。

王文静观点:强化学习虽然提升了效率,但它并没有真正增强因果推断能力。因此,她认为Q-learning更像是一种智能搜索与剪枝策略,而不是新的因果分析理论。

三、会议总结

(1)MRCA最大的价值在于构建了完整的多模态RCA工程框架;

(2)指标级定位相比服务级定位更具有实际运维价值;

(3)强化学习剪枝显著提升了在线分析效率;

(4)日志数据在当前实验场景中的价值高于调用链数据;

(5)论文更强调工程可落地性,而不仅仅是理论创新。

通过本次讨论,小组成员进一步理解了微服务根因分析中的核心挑战,并认识到未来智能运维的发展方向将越来越强调:多模态数据融合、在线因果分析以及自动化决策。

图为杨喆老师正在进行论文讲解