-
作者:Oleg Sautenkov, Yasheerah Yaqoot, Artem Lykov, Muhammad Ahsan Mustafa, Grik Tadevosyan, Aibek Akhmetkazy, Miguel Altamirano Cabrera, Mikhail Martynov, Sausar Karaf, and Dzmitry Tsetserukou
-
单位:俄罗斯斯科尔科沃科学技术研究院
-
论文标题:UAV-VLA: Vision-Language-Action System for Large Scale Aerial Mission Generation
-
论文链接:https://arxiv.org/pdf/2501.05014
-
代码链接:https://github.com/sautenich/uav-vla
主要贡献
-
论文提出UAV-VLA系统,通过集成卫星图像处理、视觉语言模型(VLM)和强大的GPT模型,使用户能够通过简单的文本请求生成通用的飞行路径和动作规划。
-
引入了UAV-VLPA-nano-30基准测试平台,旨在快速评估视觉-语言-动作系统在全球范围内的任务解决方案,用于评估UAV-VLA系统在解释语言指令和生成可执行导航规划方面的能力。
-
通过UAV-VLPA-nano-30基准测试的实验,展示了其在路径和动作生成方面的表现与人类水平相当。
-
提出了基于语言的路径规划任务,使无人机能够从自然语言输入中自动生成任务规划,增强了无人机操作的灵活性和效率,并为机器人之间的自主任务生成奠定了基础。
研究背景
研究问题
论文主要解决的问题是如何通过简单的文本请求生成大规模无人机任务的视觉-语言-动作(VLA)系统。
具体来说,该系统旨在解决人类操作员与无人机之间有效通信的问题,特别是针对复杂任务的环境。
研究难点
该问题的研究难点包括:
-
需要处理复杂的自然语言指令并将其转换为可执行的飞行路径和动作计划;
-
需要在没有大量标注数据的情况下,仅利用零样本能力进行模型训练;
-
需要提高无人机操作的效率和可访问性。
相关工作
-
Transformer发展:
-
视觉Transformer(ViT)的出现标志着能够处理和整合多种输入输出类型(包括文本、图像、视频等)的全功能模型的重大进步。
-
这些模型为多模态任务的开发和应用提供了基础。
-
-
多模态交互:
-
OpenAI推出了ChatGPT-4 Omni等模型,能够在音频、视觉和文本之间进行实时推理,实现无缝的多模态交互。这些模型在机器人应用中表现出色,特别是在对象识别和导航方面。
-
Allen Institute of AI引入了Molmo模型,能够在图像中定位请求的对象。这一进展对于机器人应用中的对象识别和导航至关重要。
-
-
视觉语言导航的发展:
-
研究人员提出了多种方法来增强机器人的视觉-语言导航能力。例如,Liu等人提出了Aerial VLN方法,并介绍了AerialVLN数据集。Fan等人描述了一个支持飞行期间对话的模拟器和VLDN系统。
-
CityNav扩展了数据集,加入了地理元信息。“EmbodiedCity构建了一个开放城市环境,使智能体能够在线执行VLA和VLN任务。
-
-
地图表示和动作生成:
-
Gao等人提出了一种方法,将地图作为矩阵提供给大型语言模型(LLM),并引入了语义拓扑度量表示(STMR)方法。
-
Google DeepMind的RT-1模型能够生成机器人操作的命令,而RT-2模型则结合了RT-1框架和视觉-语言模型,实现更高级的多模态动作生成。
-
数据与基准
卫星图像及元数据描述
-
任务目标:
-
为了评估所提出的系统的整体效果,引入了一个新的基准测试数据集UAV-VLPA-nano-30。
-
这个基准测试专为无人机任务生成设计,提供了一套标准化的测试平台,以评估UAV-VLA系统解释语言指令和生成可执行导航计划的能力。
-
-
数据集构成:
-
基准测试包含30张高分辨率的卫星图像,这些图像来自开源平台USGS EarthExplorer。
-
这些图像覆盖了美国各地的多样化环境,包括城市、郊区、农村和自然环境,如建筑物、运动场、水体、交通基础设施、田野和停车场。
-
-
图像分辨率:
-
每张卫星图像的分辨率约为每像素1.5米,提供了自然和人造特征的详细视觉表示。
-
每张图像覆盖大约760平方米的区域,确保了足够的地理覆盖范围。
-
-
元数据:每张图像都有地理元数据(地理位置描述),允许计算识别点的经纬度,以便生成飞行规划。
手动飞行规划生成
为了验证系统的有效性,论文让一位经验丰富的无人机操作员手动为基准测试图像生成飞行规划。
-
操作过程:操作员使用Mission Planner工具在每张图像上定义紫色方框边界,并设置起始位置。操作员在35分钟内为所有30张图像手动创建了飞行规划。
-
结果:基准测试的总长度为63.89公里,平均长度为2.13公里。这些数据用于与UAV-VLA系统生成的飞行规划进行比较。
方法
UAV-VLA系统通过以下步骤生成无人机任务规划:
-
语言指令输入:
-
用户提供一个语言指令 ,形式为 ,其中 是输入提示,长度 根据任务复杂度变化。例如:“Fly around all the buildings at a height of 100 meters and come back.”
-
-
目标提取模块:
-
使用GPT模块解析语言指令,提取任务目标 ,形式为 。目标提取模块将自然语言指令转换为具体的任务目标。
-
-
对象搜索模块:
-
使用视觉语言模型(VLM)模块处理卫星图像,识别并定位目标对象,生成处理后的点集 。例如,使用Molmo模型在卫星图像中识别建筑物并生成坐标点。
-
-
坐标转换:
-
将处理后的点集 转换为全球坐标 ,使用图像的元数据进行转换,确保坐标映射到真实世界位置。
-
-
动作生成模块:
实验与评估
实验设计
-
实验目标:
-
评估UAV-VLA系统在生成飞行规划方面的能力。
-
使用UAV-VLPA-nano-30基准测试数据集进行评估。
-
-
实验指令:
-
给定指令:“Create a flight plan for the quadcopter to fly around each building at a height of 100 m, return to home, and land at the take-off point.” 这个指令要求无人机围绕每个建筑物飞行,返回起点并降落。
-
-
硬件配置:
-
实验在一台配备RTX 4090显卡(24GB VRAM)和Intel Core i9-13900K处理器的PC上进行。
-
由于内存限制,使用了量化后的Molmo-7B-D BnB 4-bit模型。
-
评估指标
-
路径长度:
-
比较系统生成的飞行规划与人类操作员生成的飞行规划总长度。
-
-
误差评估:
- 使用三种方法评估系统生成的轨迹与人类生成的轨迹之间的误差:
-
Sequential Method:逐点顺序对齐,衡量序列相似性,但容易累积误差。
-
Dynamic Time Warping(DTW):通过拉伸或压缩轨迹段进行非线性对齐,测量路径相似性而不严格要求顺序匹配。
-
K-Nearest Neighbors(KNN):基于空间邻近性匹配每个系统生成的点到人类生成的轨迹点,提供一般性准确度测量。
-
- 使用三种方法评估系统生成的轨迹与人类生成的轨迹之间的误差:
-
误差计算:
-
使用均方根误差(RMSE)公式计算误差: 其中 和 分别是系统生成的点和人类生成的点, 是总点数。
-
实验结果与分析
结果概述
-
路径长度:系统生成的轨迹总长度为77.74公里,比人类操作员生成的轨迹长13.85公里,或21.6%。在30个案例中有7个,系统生成的轨迹更短。
- 误差分析:
-
Sequential RMSE的平均误差为409.54米。
-
DTW方法的平均误差为307.27米。
-
KNN方法的最小平均误差为34.22米。
-
-
效率:系统处理所有基准图像大约需要5分钟24秒,比人类操作员快6.5倍。
结果展示
-
上图展示了系统生成的飞行规划与人类专家生成的飞行规划的比较。
-
下图展示了系统误差与真实值的比较。
总结与讨论
-
系统贡献:论文提出了一种新的全球规模的无人机任务生成方法,增强了任务规划的灵活性和准确性。
-
基准测试:引入了UAV-VLPA-nano-30基准测试,为全球规模的路径规划技术提供了标准化框架。
-
方法优势:系统能够将自然语言请求解释为可执行的飞行路径,生成的路径仅比人类创建的长21.6%,展示了其效率。
-
未来方向:未来的工作将集中在创建专门的数据集以训练模型,并开发端到端的模型以实现完全自主的无人机任务规划。