人工智能学院青年科研六组例会会议纪要

发布者：xxgc发布时间：2026-05-15浏览次数：10

2026年5月14日，人工智能学院在15栋302召开了科研六组例会。杨喆老师分享了一篇CCF-A类会议的学习笔记，为课题组在强化学习与微服务方向的研究进行知识分享。该论文解决了微服务系统中的根因分析（RCA）问题。相比传统只能定位到“哪个服务异常”的方法，MRCA进一步实现了“指标级”定位，能够更精准地告诉运维人员到底是哪一个指标出现问题，从而提高故障恢复效率。主要内容如下：

一、论文分享

MRCA：基于多模态数据的微服务指标级根因分析

1.研究背景与问题

（1）微服务系统结构复杂，服务数量多，调用链动态变化快，人工排查故障成本极高。

（2）传统RCA方法大多依赖单一数据源，例如仅使用日志、指标或调用链数据。

（3）现有方法多数只能定位到服务级别，无法进一步细化到具体指标。

（4）指标级因果分析虽然更精准，但会导致因果图规模迅速膨胀，计算成本极高。

因此，论文希望同时解决三个核心问题：如何利用多模态数据提升异常检测能力、如何实现指标级根因定位、以及如何降低因果图分析带来的时间消耗。

2.MRCA核心思想

MRCA整体可以理解为“多模态异常检测+ 因果分析+ 强化学习剪枝”的组合框架。

（1）从日志（Logs）和调用链（Traces）中提取特征；

（2）利用VAE模型进行异常检测，并对异常服务排序；

（3）基于Granger因果关系构建指标级因果图；

（4）利用Q-learning动态决定是否继续扩展因果图；

（5）最终输出指标级根因结果。

3.多模态特征学习

论文认为，单一数据源无法完整描述系统异常，因此同时使用日志与调用链数据。

（1）日志特征

使用Drain工具提取日志模板，并统计不同模板的频率变化。系统发生异常时，日志模板的分布通常会发生明显变化，因此可以利用频率波动判断异常。

（2）调用链特征

调用链数据主要提取延迟信息。论文使用固定时间窗口统计平均调用延迟，以此反映服务之间的性能变化与异常传播路径。

（3）数据融合

日志模板频率与调用链延迟最终会被统一成时间序列数据，作为后续VAE模型的输入，实现多模态融合。

4.异常检测：VAE模型

MRCA使用变分自编码器（VAE）进行异常检测。VAE会先利用系统正常运行时期的数据进行训练，学习“正常模式”。

在线阶段，当新的时间序列输入模型时，如果模型无法很好地重构数据，则说明当前状态偏离正常模式，系统可能出现异常。

论文使用“重构概率”作为异常分数：重构概率越低，说明异常程度越高。

相比传统阈值法，VAE具有更强的泛化能力，能够识别更多未知异常。

5.根因分析：Granger因果图

在异常检测之后，MRCA会对高异常概率服务进行因果分析。

论文采用Granger因果关系方法：如果某个指标的历史值能够显著提升另一个指标的预测效果，则认为两者存在因果关系。

通过这种方式，系统能够构建“服务-指标”之间的因果图，并追踪异常传播路径。

6.Q-learning动态剪枝

这是论文最具创新性的部分之一。

指标级因果图节点数量巨大，如果无限扩展，会导致时间成本迅速上升。

因此，作者引入Q-learning，将“是否继续扩展因果图”建模为强化学习问题。

状态：当前因果图的节点数、边数、层数等；

动作：扩展某节点或停止扩展；

奖励：同时考虑RCA准确率与图复杂度。

Q-learning的核心作用是：在保证定位准确性的前提下，避免因果图过度扩展，从而提升系统整体效率。

7.实验结果分析

论文在OnlineBoutique与TrainTicket两个微服务基准系统上进行了实验。

异常检测F1分数相比基线方法提升56.4%~115.7%；

服务级PR@1达到60.1%；

指标级PR@1达到71.9%；

PR@5达到90%以上；

剪枝策略显著降低了因果分析耗时。

实验说明，多模态融合能够有效提升异常检测效果，而强化学习剪枝则能够在保持准确率的同时显著降低分析时间。

8.论文的重要发现

论文消融实验发现：日志数据的重要性明显高于调用链数据。

在代码异常场景中，日志往往包含更多直接错误信息，而调用链延迟未必会发生明显变化。

因此，MRCA中的注意力机制更适合聚焦日志特征，而不是调用链特征。

9.论文优点与不足

优点：

提出完整的多模态RCA闭环；

实现指标级根因定位；

强化学习剪枝具有较强工程价值；

兼顾准确率与时间效率；

更接近真实生产环境需求。

不足：

依赖高质量日志、指标与调用链数据；

无法处理无可观测信号的异常；

Granger因果本质仍是统计相关；

强化学习更多是工程优化，而非理论突破。

10.总结

MRCA并不是单纯提出某一种新的算法，而是尝试构建一个真正可落地的微服务根因分析系统。它将多模态异常检测、指标级因果分析以及强化学习复杂度控制整合在一起，形成了完整的工程化RCA流程。

相比很多只关注算法精度的研究，MRCA更加关注真实生产环境中的可扩展性、实时性与工程实用性，因此具有较高的实际应用价值。

二、组员讨论

1.关于多模态数据融合的讨论

张芸观点：MRCA最大的亮点之一在于同时利用日志、调用链和指标数据。她指出，传统RCA方法往往只依赖单一数据源，因此容易遗漏异常信号。而MRCA通过多模态融合，能够从不同维度理解系统异常行为。她进一步分析：指标适合反映资源使用情况，日志更适合捕获代码异常，调用链则适合分析异常传播路径。MRCA真正的价值在于利用这些信息的互补性。同时，她提出一个问题：如果系统日志质量较差，是否会影响整个模型性能。

方文娟观点：结合论文中的消融实验进行了补充。她指出，在当前实验场景中，日志数据的重要性明显高于调用链数据。她认为，这是因为实验中的大量异常属于代码层故障，而代码异常更容易体现在日志中。如果未来场景变成网络抖动或链路拥塞，调用链数据的重要性可能会明显提高。讨论成员一致认为，不同异常场景下，多模态数据的重要性会发生动态变化。

2.关于VAE异常检测机制的讨论

别岳超观点：重点讨论了VAE异常检测机制。他认为，相比传统N-sigma等阈值方法，VAE能够学习系统正常运行的数据分布，因此具有更强的泛化能力。但他也提出疑问：如果训练数据中本身包含轻微异常，模型是否会将异常误学习为“正常模式”。

王文静观点：这实际上是所有基于“正常模式学习”的异常检测方法都会遇到的问题。她指出，论文采用离线训练方式，尽量使用无故障时期的数据进行训练，但在真实工业环境中，很难完全保证训练数据绝对干净。因此她建议，未来可以加入在线增量学习与人工反馈机制，进一步提高模型长期稳定性。

3.关于Granger因果分析的讨论

许子龙观点：重点讨论了Granger因果关系。他认为，Granger更偏向“时间序列上的预测因果”，并不等同于严格意义上的真实物理因果。因此，在复杂系统中，某些指标之间可能只是统计相关，而不一定是真正的异常传播关系。

张芸补充观点：虽然Granger存在理论局限，但其工程实用价值依然很高。因为微服务系统本身具有明显的时间传播特征，因此Granger仍然适合在线故障分析场景。讨论成员普遍认为，MRCA中的Granger更偏向工程化近似因果分析方案。

4.关于Q-learning剪枝策略的讨论

方文娟观点：强化学习部分是论文最具创新性的设计之一。她指出，指标级RCA最大的难点并不是“不准确”，而是因果图规模过大，导致时间成本难以接受。Q-learning真正解决的是复杂度与在线效率问题。

别岳超观点：Q-learning本质上是在学习“什么时候继续扩展因果图更有价值”。奖励函数同时考虑准确率与图复杂度，实际上是在做准确率与计算成本之间的动态平衡。

王文静观点：强化学习虽然提升了效率，但它并没有真正增强因果推断能力。因此，她认为Q-learning更像是一种智能搜索与剪枝策略，而不是新的因果分析理论。

三、会议总结

（1）MRCA最大的价值在于构建了完整的多模态RCA工程框架；

（2）指标级定位相比服务级定位更具有实际运维价值；

（3）强化学习剪枝显著提升了在线分析效率；

（4）日志数据在当前实验场景中的价值高于调用链数据；

（5）论文更强调工程可落地性，而不仅仅是理论创新。

通过本次讨论，小组成员进一步理解了微服务根因分析中的核心挑战，并认识到未来智能运维的发展方向将越来越强调：多模态数据融合、在线因果分析以及自动化决策。

图为杨喆老师正在进行论文讲解

科学研究

人工智能学院青年科研六组例会会议纪要