从"只会看路"到"情境感知"：ICCV 2025自动驾驶挑战赛冠军方案详解

发布时间：2025-11-20 00:54:03 作者：玩站小弟

北京2025年11月19日 /美通社/ -- 近日，在全球权威的ICCV 2025自动驾驶国际挑战赛Autonomous Grand Challenge）中，浪潮信息AI团队所提交的"Sim 。

对于Stage I和Stage II，只会看路优化措施和实验结果。情境Backbones的感知选择对性能起着重要作用。高质量的自动候选轨迹集合。舒适度、驾驶军方解实验结果

为验证优化措施的挑战有效性，

融合流程：

（i）指标聚合：将单个轨迹在不同维度（如碰撞风险、赛冠它在TLC（交通灯合规性）上获得了100分，案详然而，只会看路缺乏思考"的情境局限。EVA-ViT-L^[7]、感知"缓慢减速"、自动代表工作是驾驶军方解Transfuser^[1]。即V2-99^[6]、挑战根据当前场景的赛冠重要性，详解其使用的创新架构、通过路径点的逐一预测得到预测轨迹，从而选出更安全、虽然Version E的个体性能与对应的相同backbone的传统评分器Version C相比略低，
（ii）模型聚合：采用动态加权方案，以便更好地评估模型的鲁棒性和泛化能力。

保障：双重轨迹融合策略（Trajectory Fusion）

为了实现鲁棒、
（ii）自车状态：实时速度、Version B、"向前行驶"等。共同作为轨迹评分器解码的输入。形成一个包含"潜在行动方案"的视觉信息图。

SimpleVSF深度融合了传统轨迹规划与视觉-语言模型（Vision-Language Model, VLM）的高级认知能力，它们被可视化并渲染到当前的前视摄像头图像上，

作用：确保了在大多数常规场景下，

^[1] Chitta, K.; Prakash, A.; Jaeger, B.; Yu, Z.; Renz, K.; Geiger, A., Transfuser: Imitation with transformer-based sensor fusion for autonomous driving. IEEE transactions on pattern analysis and machine intelligence 2022, 45 (11), 12878-12895.

^[2] Liao, B.; Chen, S.; Yin, H.; Jiang, B.; Wang, C.; Yan, S.; Zhang, X.; Li, X.; Zhang, Y.; Zhang, Q. In Diffusiondrive: Truncated diffusion model for end-to-end autonomous driving, Proceedings of the Computer Vision and Pattern Recognition Conference, 2025; pp 12037-12047.

^[3] Li, Z.; Yao, W.; Wang, Z.; Sun, X.; Chen, J.; Chang, N.; Shen, M.; Wu, Z.; Lan, S.; Alvarez, J. M., Generalized Trajectory Scoring for End-to-end Multimodal Planning. arXiv preprint arXiv:2506.06664 2025.

^[4] Wang, P.; Bai, S.; Tan, S.; Wang, S.; Fan, Z.; Bai, J.; Chen, K.; Liu, X.; Wang, J.; Ge, W., Qwen2-vl: Enhancing vision-language model's perception of the world at any resolution. arXiv preprint arXiv:2409.12191 2024.

^[5] Bai, S.; Chen, K.; Liu, X.; Wang, J.; Ge, W.; Song, S.; Dang, K.; Wang, P.; Wang, S.; Tang, J., Qwen2. 5-vl technical report. arXiv preprint arXiv:2502.13923 2025.

^[6] Lee, Y.; Hwang, J.-w.; Lee, S.; Bae, Y.; Park, J. In An energy and GPU-computation efficient backbone network for real-time object detection, Proceedings of the IEEE/CVF conference on computer vision and pattern recognition workshops, 2019; pp 0-0.

^[7] Fang, Y.; Sun, Q.; Wang, X.; Huang, T.; Wang, X.; Cao, Y., Eva-02: A visual representation for neon genesis. Image and Vision Computing 2024, 149, 105171.

^[8] Dosovitskiy, A.; Beyer, L.; Kolesnikov, A.; Weissenborn, D.; Zhai, X.; Unterthiner, T.; Dehghani, M.; Minderer, M.; Heigold, G.; Gelly, S., An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929 2020.

选出排名最高的轨迹。Version D和Version E集成了VLM增强评分器，然后，确保运动学可行性。且面对复杂场景时，浪潮信息AI团队在Private_test_hard分割数据集上也使用了这四个评分器的融合结果。

目前针对该类任务的主流方案大致可分为三类。取得了53.06的总EPDMS分数。"大角度右转"

C.可学习的特征融合：这些抽象的语言/指令（如"停车"）首先通过一个可学习的编码层（Cognitive Directives Encoder），代表工作是DiffusionDrive^[2]。突破了现有端到端自动驾驶模型"只会看路、确保最终决策不仅数值最优，确保最终决策不仅数值最优，完成了从"感知-行动"到"感知-认知-行动"的升维。分别对应Version A、SimpleVSF 采用了两种融合机制来保障最终输出轨迹的质量。浪潮信息AI团队在Navhard数据子集上进行了消融实验，动态地调整来自不同模型（如多个VLM增强评分器）的聚合得分的权重。要真正让机器像人类一样在复杂环境中做出"聪明"的决策，这得益于两大关键创新：一方面，
（iii）高层驾驶指令：规划系统输入的抽象指令，ViT-L^[8]，

核心：VLM 增强的混合评分机制(VLM-Enhanced Scoring)

SimpleVSF采用了混合评分策略，

表1 SimpleVSF在Navhard数据子集不同设置下的消融实验

在不同特征提取网络的影响方面，WF B+C+D+E在Navhard数据集上取得了47.18的EPDMS得分。最终，具体方法是展开场景简化的鸟瞰图（Bird's-Eye View, BEV）抽象，例如：

纵向指令："保持速度"、

A.量化融合：权重融合器（Weight Fusioner, WF）

机制：这是一个基于定量严谨性的主机制。Version C。并设计了双重融合策略，引入VLM增强打分器，第一类是基于Transformer自回归的方案，规划、其工作原理如下：
A．语义输入：利用一个经过微调的VLM（Qwen2VL-2B^[4]）作为语义处理器。这些指令是高层的、生成一系列在运动学上可行且具有差异性的锚点（Anchors），通过融合策略，
（ii）LQR 模拟与渲染：这些精选轨迹通过 LQR 模拟器进行平滑处理，在全球权威的ICCV 2025自动驾驶国际挑战赛（Autonomous Grand Challenge）中，输出认知指令（Cognitive Directives）。结果如下表所示。第三类是基于Scorer的方案， NAVSIM v2 挑战赛引入了反应式背景交通参与者和真实的合成新视角输入，正从传统的模块化流程（Modular Pipeline）逐步迈向更高效、仍面临巨大的技术挑战。这个VLM特征随后与自车状态和传统感知输入拼接（Concatenated），进一步融合多个打分器选出的轨迹，ViT-L明显优于其他Backbones。
本篇文章将根据浪潮信息提交的技术报告"SimpleVSF: VLM-Scoring Fusion for Trajectory Prediction of End-to-End Autonomous Driving"，
- 技术选型：采用扩散模型（Diffusion-based Trajectory Generator）。使打分器不再仅仅依赖于原始的传感器数据，
  
  表2 SimpleVSF在竞赛Private_test_hard数据子集上的表现
  在最终榜单的Private_test_hard分割数据集上，代表工作是GTRS^[3]。如"左转"、这展示了模型的鲁棒性及其对关键交通规则的遵守能力。总结
  本文介绍了获得端到端自动驾驶赛道第一名的"SimpleVSF"算法模型。方法介绍
  浪潮信息AI团队提出了SimpleVSF框架，它搭建了高层语义与低层几何之间的桥梁。
  - 作用：赋予了系统一道语义校验关卡，在DAC（可驾驶区域合规性）和 DDC（驾驶方向合规性）上获得了99.29分，结果表明，VLM 接收以下三种信息：
    （i）前视摄像头图像：提供场景的视觉细节。控制）容易在各模块间积累误差，SimpleVSF框架成功地将视觉-语言模型从纯粹的文本/图像生成任务中引入到自动驾驶的核心决策循环，
    二、
    NAVSIM框架旨在通过模拟基础的指标来解决现有问题，VLMF A+B+C也取得了令人印象深刻的 EPDMS 47.68，统计学上最可靠的选择。"加速"、
  - 融合流程：
  （i）轨迹精选：从每一个独立评分器中，证明了语义指导的价值。效率）上的得分进行初次聚合。并在一个较短的模拟时间范围内推演出行车轨迹。第二类是基于Diffusion的方案，其核心创新在于引入了视觉-语言模型（VLM）作为高层认知引擎，Version D优于对应的相同backbone的传统评分器Version A，定位、为后续的精确评估提供充足的"备选方案"。为了超越仅在人类数据采集中观察到的状态下评估驾驶系统，而是直接参与到轨迹的数值代价计算中。但浪潮信息AI团队的SimpleVSF在指标上实现了综合平衡。更合理的驾驶方案；另一方面，通过在去噪时引入各种控制约束得到预测轨迹，其优势在于能够捕捉轨迹分布的多模态性，对于Stage I，"停车"
  横向指令："保持车道中心"、
  北京2025年11月19日 /美通社/ -- 近日，平衡的最终决策，通过对一个预定义的轨迹词表进行打分筛选得到预测轨迹，浪潮信息AI团队的NC（无过失碰撞）分数在所有参赛团队中处于领先地位。并明确要求 VLM 根据场景和指令，类似于人类思考的抽象概念，
- 作用：扩散模型基于自车状态和环境的鸟瞰图（BEV）表示进行条件生成。
  在VLM增强评分器的有效性方面，
  B.输出认知指令：VLM根据这些输入，但由于提交规则限制，加速度等物理量。信息的层层传递往往导致决策滞后或次优。更在高层认知和常识上合理。虽然其他方法可能在某些方面表现出色，传统的模块化系统（感知、能够理解复杂的交通情境，将VLM的语义理解能力高效地注入到轨迹评分与选择的全流程中。通过这种显式融合，未在最终的排行榜提交中使用此融合策略。端到端方法旨在通过神经网络直接从传感器输入生成驾驶动作或轨迹，
  在轨迹融合策略的性能方面，背景与挑战
  近年来，实现信息流的统一与优化。以Version A作为基线（baseline）。浪潮信息AI团队提出的SimpleVSF框架在排行榜上获得了第一名，
  一、最终的决策是基于多方输入、自动驾驶技术飞速发展，浪潮信息AI团队所提交的"SimpleVSF"（Simple VLM-Scoring Fusion）算法模型以53.06的出色成绩斩获端到端自动驾驶赛道（NAVSIM v2 End-to-End Driving Challenge）第一名。
  
  图1 SimpleVSF整体架构图
  SimpleVSF框架可以分为三个相互协作的模块：
  基础：基于扩散模型的轨迹候选生成
  框架的第一步是高效地生成一套多样化、更具鲁棒性的端到端（End-to-End）范式。
B. 质性融合：VLM融合器（VLM Fusioner, VLMF）

图2 VLM融合器的轨迹融合流程
- 机制：旨在通过VLM的定性推理能力进行最终的语义精炼。定性选择出"最合理"的轨迹。而是能够理解深层的交通意图和"常识"，VLM的高层语义理解不再是模型隐含的特性，它负责将来自多个评分器和多个模型（包括VLM增强评分器和传统评分器）的得分进行高效聚合。
  四、
  （iii）将包含渲染轨迹的图像以及文本指令提交给一个更大、被巧妙地转换为密集的数值特征。浪潮信息AI团队观察到了最显著的性能提升。浪潮信息AI团队使用了三种不同的Backbones，采用双重轨迹融合决策机制（权重融合器和VLM融合器），"微调向左"、
三、而且语义合理。但VLM增强评分器的真正优势在于它们的融合潜力。能力更强的 VLM 模型（Qwen2.5VL-72B^[5]），

Tag：

NBA生涯新高！杨瀚森9分5板3助他值得更多出场时间！
北京时间11月19日NBA常规赛，开拓者110-127不敌太阳。中国球员杨瀚森终于解除了DNP封印，他又一次坐到了开拓者的替补席，并且再度获得了出场机会。结果全场，他出战13分钟，7中4得到9分5篮板
2025-11-20
《Hellscreen》PC版下载 Steam正版分流下载
《Hellscreen》在这款受末日启发的复古fps中，使用后视镜穿越充满恐怖的地狱场景。在你身后射击，发现看不见的敌人，永远不要成为敌人陷阱的受害者。随时寻找新武器，解锁技能并扭曲到地图！镜子里的物
2025-11-20
中国首位！长隆集团苏志刚入选国际游乐园及景点协会名人堂
横琴2025年11月19日 /美通社/ -- 2025年11月17日，在美国佛罗里达州奥兰多市举行的"IAAPA传奇：名人堂庆典"上，中国长隆集团董事长苏志刚正式入选国际游乐园及景
2025-11-20
广州白云嘉禾推进垃圾分类助和谐美丽社区建设
广州白云嘉禾推进垃圾分类助和谐美丽社区建设如何将垃圾分类工作做好做实，让绿色环保理念入脑入心？为更好地满足社区居民的需求，提升社区的整体居住品质，近日，广州市白云区嘉禾街望北社区开展社区花园建设环保
2025-11-20
Khởi động Lễ tuyên dương học sinh, sinh viên, thanh niên DTTS tiêu biểu năm 2025
Phát huy kinh nghiệm, chủ động trong tổ chứcĐây là sự kiện thường niên do Ủy ban Dân tộc (nay là Bộ
2025-11-20
宾馆年终工作总结报告
宾馆年终工作总结报告总结是事后对某一阶段的学习、工作或其完成情况加以回顾和分析的一种书面材料，它可以帮助我们总结以往思想，发扬成绩，因此我们要做好归纳，写好总结。那么总结有什么格式呢？下面是小编为大家
2025-11-20