科学研究

人工智能学院青年科研三组例会会议纪要

发布者:xxgc发布时间:2026-04-02浏览次数:10

2026年4月2日,人工智能学院在15栋315召开了科研三组例会,李老师汇报了课题组在盲道测距与无障碍感知方向的研究进展,重点介绍了近年来围绕盲道区域分割、障碍物测距与类别识别所开展的系统性工作,并对原有方法进行了前沿技术升级。主要内容如下:

一、会议内容

1、研究背景与核心问题

盲道作为城市无障碍环境的重要组成部分,其被占用、破损或存在障碍物的问题严重影响了视障人士的出行安全与自主性。传统的盲道检测与测距方法主要依赖手工特征与经典图像处理技术,存在以下核心挑战:

 (1)复杂环境下的鲁棒性不足:光照变化、阴影遮挡、路面破损、多尺度障碍物等场景下,传统分割与检测算法易出现漏检、误检。

 (2)实时性与精度难以兼顾:现有方法在嵌入式平台或移动终端上难以实现高精度推理与低延迟响应,限制了实际部署能力。

 (3)语义理解能力欠缺:传统特征匹配与测距方法无法识别障碍物类别,难以支撑后续的语义导航与风险预警。

 (4)多模态感知融合不足:仅依赖视觉信息在夜间、雾天等条件下性能下降明显,缺乏与激光雷达、毫米波雷达等多模态数据的协同利用。

2、提出的核心技术框架与创新点

汇报重点介绍了课题组在“感知-分割-检测-测距”一体化框架下的三项核心技术升级:

(1)基于轻量化Transformer的盲道区域分割方法

针对原有SegNet+MobileNetV3方案在复杂场景下细节保留不足、全局建模能力弱的问题,采用ExMobileViT与FastViT架构构建了轻量化分割网络。

引入ExMobileViT的多尺度注意力捷径机制,将最后n个Transformer块的输出通过1×1卷积进行通道扩展后拼接,增强多尺度上下文感知能力,在保持轻量化的同时提升分割精度。

采用FastViT的结构重参数化技术(RepMixer模块),在推理时移除跳跃连接,降低内存访问成本,实现更快的推理速度。

利用MobileViTv2的可分离自注意力机制,将标准自注意力替换为线性复杂度的可分离自注意力,在移动设备上实现更高效的计算。

(2)基于RepViT-YOLOv8s与EfficientViT的障碍物检测与测距

在原有YOLOv5s改进基础上,升级至YOLOv8s+RepViT架构,并结合双目视觉与深度估计模块,构建端到端测距流程。

采用RepViT作为主干网络(CVPR 2024发表),结合ViT的高感受野特性与CNN的计算效率,替代原有YOLOv5s的CSPDarknet主干,增强对小尺度障碍物的检测能力。

引入EfficientViT的多尺度线性注意力机制,在特征融合部分替代原有SK注意力,保持高精度的同时实现低延迟推理。

在双目图像中引入RAFT-Stereo立体匹配网络,替代传统ORB+RANSAC方案,实现像素级视差估计。

(3)多模态融合感知与语义导航初步探索

为进一步提升全天候、复杂环境下的感知能力,课题组开始探索视觉-激光雷达-惯性导航融合方案。构建轻量化BEV(Bird’s Eye View)感知模型,融合图像语义与激光雷达点云,输出障碍物类别、位置、距离、朝向等结构化信息。引入视觉语言模型(VLM) 进行场景理解,实现对“电动车占道”“花坛突出”“路面施工”等非结构化障碍的语义识别,为后续语音预警与路径规划提供更高层次的决策支持。

3、初步验证与应用场景

(1)合成数据验证:在公开数据集(如BlindWalk、Cityscapes盲道扩展)与自主采集的多个城市盲道数据集(包含日间、夜间、雨雾等条件)上进行了系统评估。实验表明,改进后的系统在分割精度、检测准确率、测距误差与推理速度等指标上均显著优于原有方案,尤其在复杂光照与多障碍物场景中表现出更强鲁棒性。

(2)拟探索的真实世界场景:

智能导盲设备:将算法部署于嵌入式平台(如Jetson Orin、树莓派),结合语音交互模块,构建可穿戴或手持式导盲终端。

城市无障碍巡检:利用车载或无人机平台,对城市盲道进行大规模自动化巡检,识别占道、破损、缺失等问题,生成维护工单。

数字孪生与城市规划:结合高精地图与SLAM技术,构建盲道无障碍环境数字孪生系统,辅助城市管理与无障碍设施优化。

二、组员讨论

汇报结束后,与会老师与同学围绕框架的可行性、挑战及下一步方向展开了热烈讨论:

许小迪老师关注多模态融合在实际部署中的计算开销问题。他指出,BEV感知与VLM模块在当前嵌入式平台上的推理延迟仍较高,可能影响实时性。建议引入模型量化、算子融合、知识蒸馏等手段进行轻量化优化,或采用异构计算架构(如CPU+NPU+GPU) 进行任务卸载与并行加速。

李琳老师聚焦于模型在真实环境中的泛化能力与安全性。他提出,盲道环境具有强烈的地域差异与使用磨损,模型在不同城市、不同光照条件下的迁移能力尚不明确。建议在下一阶段引入域自适应(Domain Adaptation)与数据增强策略,并构建更多样化的真实场景评测集,建立系统的鲁棒性评估指标。

王利元老师从工程落地角度,建议明确系统的产品化路径。他认为,当前工作已具备较好的算法基础,下一步应聚焦于硬件选型、功耗控制、实时性保障与用户交互设计,推动从实验室原型向可部署产品的转化。建议选择1–2个典型场景(如地铁站盲道、人行道盲道)进行闭环测试,验证系统在真实使用环境中的有效性。

三、会议总结

李老师对本次汇报和讨论进行了总结。会议充分肯定了课题组在盲道测距与无障碍感知方向所取得的系统性进展,尤其是将ExMobileViT、FastViT、RepViT、EfficientViT等前沿轻量化Transformer架构引入盲道场景,显著提升了分割精度、检测能力与测距可靠性。

同时,会议明确指出当前工作仍处于算法验证与原型系统阶段,面临真实场景泛化能力、嵌入式平台实时性、多模态融合效率等多重挑战。下一步应围绕轻量化部署、多场景评测、产品化转化三个方向集中攻关,力争形成具备实际应用价值的智能盲道感知系统,为推动无障碍环境建设提供技术支撑。