Agent-Driver 为传统的感知-预测-规划框架带来革新,将大语言模型 (LLM) 引入自动驾驶领域。
摘要
实现人类水平的驾驶技术是自动驾驶的关键目标。传统自动驾驶方法虽采用感知-预测-规划框架,但未能充分发挥人类的推理能力和经验知识。本文提出一种颠覆性的思路,通过大语言模型 (LLM) 作为认知代理,将人类般的智能融入自动驾驶系统中。我们的 Agent-Driver 系统,通过集成多功能工具库(可通过函数调用访问)、拥有常识和经验知识的认知记忆,以及能进行思维推导、任务规划、运动规划和自我反思的推理引擎,为传统自动驾驶模式带来变革。借助 LLM,Agent-Driver 拥有了直观的常识和强大的推理能力,使自动驾驶更加精细和人性化。我们在大型 nuScenes 基准测试中验证了系统性能,实验证明 Agent-Driver 在自动驾驶领域有显著优势,效果远超现有顶尖方法,并在解释性和少样本学习能力方面表现出色。
方法
我们提出的 Agent-Driver,是一款由 LLM 驱动的智能体,它彻底改造了传统的感知-预测-规划框架,打造出一种既强大又灵活的、具有人类特性的自动驾驶新范式。
Agent-Driver 融合了动态感知预测工具库、人类知识认知记忆,以及模仿人类决策过程的推理引擎,这一切均由 LLM 统筹,实现更接近人类的自动驾驶过程。
在运动规划方面,Agent-Driver 的碰撞改进率超过 30%,显著超越现有最先进自动驾驶系统。在 nuScenes 基准测试中,Agent-Driver 还展示了强大的少样本学习能力和出色的解释性。
我们还提供了一系列消融研究,详细分析了提出的架构及各模块的效能,为未来相关研究提供了宝贵的参考。
项目首页:https://t.co/8gvpXxnGq2
论文:https://t.co/sjVtyG4Y8N