基于多尺度融合的遥感视觉问答

doi:10.11873/j.issn.1004-0323.2023.6.1477

基于多尺度融合的遥感视觉问答

郭艳^,, 黄远程^,, 竞霞

西安科技大学测绘科学与技术学院，陕西西安 710000

Multi-Scale Fusion for Visual Question Answering on Remote Sensing

GUO Yan^,, HUANG Yuancheng^,, JING Xia

School of Surveying and Mapping Science and Technology，Xi'an University of Science and Technology，Xi'an 710000，China

通讯作者: 黄远程（1983-），男，湖南宜章人，博士，讲师，主要从事高光谱图像处理与模式识别方面的研究。E⁃mail: yuanchenghuang@xust.edu.cn

收稿日期: 2022-07-08 修回日期: 2023-09-08

基金资助:

国家自然科学基金面上项目. 42171394
痕迹科学与技术公安部重点实验室开放基金. 2020FMKFKT07

Received: 2022-07-08 Revised: 2023-09-08

作者简介 About authors

郭艳（1990-），女，陕西西安人，硕士研究生，主要从事遥感视觉问答方面的研究E⁃mail:guoyan@stu.xust.edu.cn , E-mail：guoyan@stu.xust.edu.cn

摘要

遥感视觉问答根据给定遥感图像回答与图像内容相关的自然语言问题，是快速调查和监测全球资源的重要途径。遥感图像场景复杂多样，从对图像场景的理解到对图中局部目标的识别往往涉及尺度的变化。因此，为在遥感的视觉问答系统中引入多尺度的应用场景，我们设计了多尺度遥感视觉问答模型（MRS-VQA模型），并根据该模型创建了新的数据集—“多尺度遥感视觉问答数据集（MRS-VQA数据集）”。此外，MRS-VQA模型在融合模块使用注意力机制得到两个模态互交的可视化结果，有效提升了模型的准确率和可解释性。实验结果表明：本研究提出的具有两层注意力的MRS-VQA模型（准确率96.82%）优于其他遥感视觉问答模型（RSVQA准确率81.36%），说明多尺度特征融合在遥感视觉问答中的研究具有重要意义。

关键词： 视觉问答 ; 多尺度 ; 注意力机制 ; 遥感图像 ; 数据集

Abstract

Remote sensing Visual Question Answering （VQA） is to answer natural language questions related to image content based on a given remote sensing image， which is essential for fast investigating and monitoring global resources. With the complexity and diversity in remotely sensed imagery， the scale variation is unequivocally challenged in the observation of images from understanding global scenes to identifying local objects. To address the problem of scale variations in the remote sensing visual question answering system， in this paper， a new model Multi-scale Remote Sensing Visual Question Answering（MRS-VQA model） and a dataset （MRS-VQA dataset）， which include multi-scale scenes of question-answer pairs of remote sensing images， are created. In addition， the attention mechanism is employed in the fusion module of the MRS-VQA model to show the visualization results of the combination of two modalities， which effectively improves the accuracy and interpretability of the model. Experimental results illustrate that the proposed MRS-VQA model with two attention layers （96.82% accuracy） outperforms other remote sensing visual question answering models （81.36% accuracy on RSVQA）， which means that multi-scale feature fusion is of great significance in remote sensing VQA.

Keywords： Visual question answering ; Multi-scale ; Attention mechanism ; Remote sensing imagery ; Dataset

PDF (3789KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

郭艳, 黄远程, 竞霞. 基于多尺度融合的遥感视觉问答. 遥感技术与应用[J], 2023, 38(6): 1477-1484 doi:10.11873/j.issn.1004-0323.2023.6.1477

GUO Yan, HUANG Yuancheng, JING Xia. Multi-Scale Fusion for Visual Question Answering on Remote Sensing. Remote Sensing Technology and Application[J], 2023, 38(6): 1477-1484 doi:10.11873/j.issn.1004-0323.2023.6.1477

1 引言

视觉问答^［1-2］（Visual Question Answering，VQA）结合计算机视觉（Computer Vision，CV）、自然语言处理（Neural Language Processing，NLP）^［3-4］和关系推理等多种人工智能技术^［5-6］，是一个多模态任务，其旨在对输入的图片和相关问题做出正确回答^［7］。近些年伴随着CV和NLP的发展，VQA研究^［8-9］取得了巨大的进步，为广告服务、视障助理^［10］、系统互交等提供了诸多便利。

在遥感领域中，遥感影像在土地利用、灾害管理、城市规划等资源监测中发挥重要作用^［11-12］。然而，现有的VQA研究多集中于自然图像，而自然图像由于存在景深和虚化的关系，人们往往只关注图像中的显著性目标，忽略全局性场景。但在遥感影像中，所有目标均在同一焦平面，因此对于全局场景的理解和局部目标的识别同样重要。这种从全局到局部的尺度变化令传统VQA模型难以直接迁移至遥感图像中，为遥感VQA研究带来了新的挑战。文中从遥感VQA的实际需求出发，解决遥感影像VQA中的尺度变化问题，设计多尺度遥感影像VQA的数据集和模型。

近年来，视觉问答在遥感领域也有少量研究成果^［13-16］。2020年Lobry等^［13］采用自动生成标签的方式首次构造了一个应用于遥感VQA的数据集并命名为RSVQA，RSVQA中的图像来自于OpenStreetMAp数据和Sentinel-2数据，问答设计利用原始图像提取图像特征以及属性，根据问题模板选择生成正确答案，在问题设计上仅有5类对象属性问题（如：计数，比较，存在性，面积，城市或郊区）等。2021年Maryam等^［14］提出了一个命名为FloodNet的数据集，该数据集为洪水过后的高分辨率航空遥感影像，分别设计了遥感图像分类、语义分割和视觉问答三大性能，其中VQA部分数据集问答模式有三种类型，关于计数、关于整张图像的情况以及yes/no 类型问答。Yuan等^［15］提出了一组适用于遥感变化检测的遥感VQA数据集CDVQA，该数据集以现有的变化检测数据集为基础，自动生成CDVQA数据集，CDVQA问答类型针对区域变化情况进行提问。

然而这些现存的遥感VQA数据集类型较少，RSVQA数据集较大但问答模式单调仅有5种问答类型， FloodNet和CDVQA数据集为专题场景遥感VQA数据集，只适用于特定场景如洪水灾害和变化检测，这些数据集难以满足不同场景下对遥感图像应用的需求。遥感图像场景复杂并且目标之间尺寸差异大，单一的尺度难以提取遥感图像尺度差异巨大的目标特征，所以遥感图像特征提取中的多尺度语境信息非常重要。虑到遥感图像在实际应用中的价值，为了能够实现对不同尺度的遥感影像中的信息充分利用，快速响应涉及问答的遥感场景需求，本研究创建了一组新的遥感VQA数据集“MRS-VQA数据集”，并提出了多尺度特征融合法的遥感VQA模型“MRS-VQA模型”。MRS-VQA数据集问答对从全局到局部的不同尺度特征进行问答设计。问答对紧扣图像内容，避免无效问答和简单问答，有效减少了标签的冗余度。MRS-VQA模型在图像提取模块使用VGG-16网络结构，利用多尺度特征融合法提取图像特征，分别提取大尺度、中尺度和小尺度3个尺度的特征图，然后使用连接将3个尺度特征进行融合，得到一个具有多尺度特性的特征图。并利用LSTM提取文本特征，在多模态融合部分使用两层注意力，使模型可视化，增强模型的可解释性，有效提升了模型的准确率。

2 数据集

2.1　MRS-VQA数据集创建

MRS-VQA数据集中的图像来源于遥感分类影像AID数据集^［17］，该数据集包含30个不同的场景，包括机场、裸地、棒球场、海滩、桥梁、行政中心、教堂、商业区、密集住宅、沙漠、农田、森林、工业区、草坪、中型住宅、山地、公园、停车场、游乐场、池塘、港口、火车站、度假村、河流、学校、稀疏住宅、广场、体育场、蓄水池、高架桥。每个场景约230张大小为600×600像素的图像，图像分辨率在0.5 m~8 m之间，本文从每个场景中随机选取100张图像作为本文的图像数据源，共计3 000张影像。

在问题创建阶段，为保证每个问题的质量，所有问题均为专家手工标注，所提出的问题与图像的局部目标或全局场景相关，文本标注过程中，对每张图像提问一个问题并回答一个标准答案。标注的问题涉及场景、主题、对象、颜色、形状、数量等。如图1所示，同一个类别的图像用多种不同方式进行提问，以保证问题样本的多样性和丰富度。图中蓝色字体为针对局部目标的问题，红色字体为针对全局场景提出的问题。最终获得3 000个样本，即图像、问题、答案对。实验过程中，训练集占70%，验证集占20%，测试占10%。

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 MRS-VQA数据集样本

Fig.1 Samples in MRS-VQA dataset

2.1　数据集分析

唯一性分析：本文研究中，MRS-VQA数据集中有3 000张影像，3 000个问答对，其中问题类型有399个，答案类型有120个，唯一性分析体现了数据集问答的多样性。

（1）长度分析：问题平均长度为7.6个单词，大部分问题有8个单词，问题最大长度为17个单词。同样，答案平均长度为1.3，大多数答案只有一个单词，答案最多有3个单词。长度分布结果反应了MRS-VQA数据集问答对的复杂性。

（2）单词类型分析：问题中一些关键词可以表征其是全局问题或局部问题。例如“scene”和“theme”暗示问题和图像全局内容，而“object”和“many”则暗示图像中的局部特征。图2统计了一些关键的单词出现的频率。从图2中可以看出，表示全局特征问题的单词“scene”、“theme”和“show”’占总数量的56.12%，局部特征问题中出现的单词“many”、“object”和“building”占39.76%，以其他方式提问的低频局部问题单词“others”占比10.30%。在总体来说，全局问题与局部问题数量大致相同。

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 问题关键字频率分布

Fig.2 Frequency distribution of question keywords

（3）与其他数据集比较：从表1中可以看到，目前遥感VQA数据集较少，与其他遥感VQA数据集相比，该数据集具有以下优点：①场景的多样性，MRS-VQA数据集中包含30个不同场景的影像，场景类型丰富，场景数量远多于其他数据集；②专业问题的设计，RSVQA、CDVQA数据集均使用模板生成方式标注问题，问答模式单调刻板，模板未能准确反映图像真实内容，而该数据集是不同专业背景专家手工标注，这些专家分别来自地理学、测绘学、遥感和地信，而不是使用简单的问题模板，每个问题都是都针对图像局部目标或全局场景进行标注，问答模式紧扣图像内容。③语言偏见少，为了减少语言偏见，避免提出二元问答对（指只有两种固定答案的问答方式，如yes/no， true/false回答的问题），并使用不同的表达来描述相似的图像。据统计分析，有318个不同类型的问题（80%）出现的频率小于5次，而在RSVQA中存在很大的不平衡，比如对于RSVQA中的数值答案“0”占所有数值答案的比例为60.9%，这种较大的语言偏差会降低模型的鲁棒性。FloodNet数据集为飓风过后洪水受灾影像，影像场景单一，问答类型较少，只针对计数、yes/no以及整幅影像情况进行提问，问答模式简单。

表1 与其他遥感影像视觉问答数据集比较

Table 1 Comparison with other remote sensing visual question answering datasets

数据集	问题数量	图像数量	标注方式	场景数量
RSVQA	1 143 548	11 431	模板	2
FloodNet	11 000	3 200	手工	1
CDVQA	122 000	2 968	模板	6
MRS-VQA (ours)	3 000	3 000	手工	30

新窗口打开| 下载CSV

以上比较发现，本文的数据集场景复杂，问答模式多样化，问答针对局部目标和全局场景进行提问，更加贴合图像的真实情况。

3 研究方法

本文提出一种多尺度遥感视觉问答（MRS-VQA）模型，该模型结合了图像模块中的多尺度特征，以解决图像中尺度变化的影响。模型结构如图3所示。图像模块使用卷积神经网（CNN）提取图像特征，并用循环神经网络（RNN）提取文本特征，在融合模块使用注意力机制，答案预测模块视为一个分类过程^［18-21］，最后使用 $s o f t m a x$ 对答案进行分类，得到一个概率值。详细介绍如下：

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 MRS-VQA模型框架

Fig.3 Framework of the proposed MRS-VQA model

图像模块：图像模块用CNN获取图像的初始特征。CNN已经成为一种功能强大的图像特征提取器，VGG-16^［22］作为CNN中最经典的图像特征提取器之一，其强大的特征提取能力能够在各种任务中表现出色的性能^［23-25］。因此，为了解决遥感图像中目标的多样性和尺寸差异问题，本文以VGG-16网络主干为基准，提取多尺度特征图。VGG-16网络中有5个尺寸不同的ConvBlock模块，前两个模块中每个模块有两个卷积层，后三个模块中每个模块有三个卷积层，我们选择后三个模块中的最后一个卷积提取的特征图，因前两个模块总共只有四层卷积，网络层数较浅，学习到的有效信息较少且数据冗余较大，因此选择的是后三个模块，得到三个具有不同尺度的特征图。首先输入大小为448×448像素大小的图像，模型使用VGG-16中的第三（ConvBlock3大尺度）、第四（ConvBlock4中尺度）和第五（ConvBlock4小尺度）块中的最后一层卷积提取图像特征，特征图大小分别为112×112×256、56×56×512、28×28×512像素，获得3个具有最大尺度差异组合的不同尺度特征，然后将这三个不同尺度的特征合并为一个融合特征，并以张量形式输出。这样既能充分利用原始图像的语义信息也能够避免过多特征融合造成的数据冗余。该过程可以用公式（1）描述：

F_{I} = {F_{I 1}, F_{I 2}, . . ., F_{I t}} = f l a t t e n (C o n v (I))

其中： $F_{I t} \in R^{D}, t \in {0,1, . . ., t}$ 表示图像 $I$ 的第 $t$ 个区域的图像特征表达。

问题模块：为了理解和表示问题的语义信息，本模块使用两层长短记忆网络（LSTM）^［26］来处理输入的问题 $Q$ 。首先，将输入的问题 $Q = [q_{1}, q_{2}, . . ., q_{n}]$ 通过与输入词汇表中的词索引相关的查找表 $W [\cdot]$ 映射到一个嵌入向量，其中 $q_{n}$ 是 $Q$ 的最后一个单词。根据问题长度分析可知，数据集中最长问题包含的单词数量为17，故本研究设置嵌入向量的最大长度为20。其次，用0向量填充不足20个词的向量，以保证嵌入向量的长度相等。然后将嵌入向量放入LSTM中。最后，通过以下公式（3）获取输入的问题特征。

E_{Q} = [W [q_{1}], W [q_{2}], . . ., W [q_{n}], 0, . . ., 0]]

F_{Q} = L S T M (E_{Q})

其中： $E_{Q}$ 和 $F_{Q}$ 分别为问题的嵌入向量和提取的特征。

融合与答案预测模块：融合模块对图像特征和问题特征进行融合，得到具有双模态的注意力特征向量，然后使用 $s o f t m a x$ 函数生成图像特征的注意力分布。

V (F_{I}, F_{Q}) = s o f t m a x (t a n h (F_{I}) + t a n h (F_{Q}))

公式（4）中， $V (\cdot)$ 为注意力层的输出信息， $t a n h$ 为激活函数。尽管问题特征和图像特征中都给出了少量的相关位置信息，实验发现，通常情况下，图像回答一个问题需要多步推理，单一的注意层难以对复杂问题的视觉信息进行查询。因此，我们将注意力结果与问题特征 $F_{Q}$ 结合，然后问题向量和检索的图像向量组合成一个细化的查询向量，第二个注意力层再次查询图像向量。更高级别的注意力层给出了更清晰的注意分布，专注于与答案相关度更高的区域。最后，将来自更高层注意力层的图像特征与最后一个查询向量组相结合起来预测答案构成一个新的精细化的查询向量，其中包含提取的图像特征信息和文本特征信息，然后使用这个向量再次查询图像内容，与潜在答案相关的更多信息视觉区域被进一步增强。答案生成模块中，将经过两层注意力处理之后的结果输入到两个卷积层和一个 $s o f t m a x$ 层，便可推断出最终答案：

A = s o f t m a x (c o n v (c o n v (v)))

其中： $A$ 是一个向量，表示预测答案的概率。根据嵌入的词汇量对该向量进行解码，即可得到预测答案。

4 实验结果与分析

探究VQA模型中注意力对MRS-VQA数据集的影响，将结果进行可视化（如图5），有助于理解模型的推理过程。此外，还评估了不同模型的定性结果，以验证本方法的有效性。

图4

新窗口打开| 下载原图ZIP| 生成PPT

图4 不同模型的可视化结果

Fig.4 Visualization results of different models

图5

新窗口打开| 下载原图ZIP| 生成PPT

图5 注意力机制可视化（（ai）原始图像；（bi）注意力图像）

Fig.5 Visualization of the attention mechanism

4.1　实验数据与平台

本实验中，为了验证MRS-VQA数据集的有效性，将MRS-VQA数据集分别在我们的模型MRS-VQA与RSVQA模型上进行训练和验证。RSVQA模型使用ResNet-152^［27］提取图像特征，文本模块使用skip-thoughts^［28］，特征融合模块采用简单向量点乘方式，答案预测以分类的方式输出答案。

遥感视觉问答模型在训练过程中需要进行大量的运算，模型需在GPU中运行，以提高运行速率。本文在TensorFlow框架，采用Python3.6撰写程序，操作系统为Ubuntu16.04，CPU为Inter（R）Xeon（R）E5-2620v3，GPU为TeslaK80内存为11G，同时采用CUDA9.0与CuDNN7.5.2进行加速处理。

4.2　实验参数设置

本实验基于TensorFlow深度学习框架进行，采用AdamOptimizer优化器，学习率设为。模型训练40个epoch，每个epoch的batch size设置为8。LSTM的维数和注意力大小分别设置为512和2 048。实验中将dropout rate设置为0.5，以缓解训练阶段的过拟合问题。在对比实验RSVQA模型中，将得到的图像特征向量和问题向量数值均设置为2 048，其他训练参数设置不变。

4.3　实验结果

基于MRS-VQA数据集，分别在MRS-VQA模型和RSVQA模型上进行验证，模型精度结果如表2所示。相比于RSVQA模型，集成不同尺度视觉特征的MRS-VQA方法取得了更高的精度，这说明基于注意力的多尺度特征融合机制可以更好的解决尺度变化对遥感影像的影响，而RSVQA模型在提取和细化局部尺度特征时忽略了这一点。结果对比输出如图4所示。

表2 在本文数据集上不同模型精度结果

Table 2 Accuracy result of different models on our dataset

数据集	精度/%
RSVQA	81.36
MRS-VQA (OURS)	96.82

新窗口打开| 下载CSV

从图4可以发现，本方法在不同类型问题（a~f）中均能正确预测答案，对于局部小目标物也能充分识别（f），能够结合目标背景信息准确推断答案（d），特别是在图像中只有场景，没有任何物体时，也能精准推断答案（e），这表明了本文提出的MRS-VQA模型具有较强的鲁棒性和适应性，在复杂的图像场景下能够准确预测答案。对于有明显地物的影像，RSVQA模型能正确预测答案（a）~（c），但对于复杂背景（d）无明显地物（e）以及小目标的图像预测效果较差，虽然答案与图像相关，但预测错误，而我们的模型能够正确预测答案。这主要是MRS-VQA模型在图像特征提取中使用了多尺度特征融合信息以及多模态融合中使用了注意力机制，有效提高了模型的准确率。注意力权重通过对图像特征进行筛选，重点关注目标特征区域，并摒弃冗余特征和噪声信息，增强模型对遥感图像内容的理解和推理，提升答案预测的准确性。

此外，我们使用RSVQA低分辨率数据集来进一步验证模型。实验参数不变的情况下， RSVQA数据集在MRS-VQA模型上表现更好，这也充分说明了MRS-VQA模型的有效性。

4.4　注意力结果可视化

图5为MRS-VQA模型注意力可视化结果图，图5中4组图片中每组分别有两张影像，左边为原始影像，右边为加入注意力后模型可视化结果。图中亮度高的地方说明对该区域特征关注度较高。其中（a₁）和（a₂）是针对局部目标提问，（a₃）和（a₄）是针对全局场景进行提问。从图5中可以看到，当我们对图像中的局部目标提问时，模型能够根据问题中的关键词定位到图像中的关键局部区域，而当我们对全局场景提问时，注意力则均匀分布在整张图像上。注意力可视化实验结果表明该模型能够准确定位到问题所对应的图像内容，进而推断出二者之间的交互推理关系。

5 结论

本文设计了一个新的遥感VQA数据集MRS-VQA数据集，该数据集包含3 000个样本，在MRS-VQA数据集的基础上，本文提出了一种在图像模块中嵌入多尺度融合特征结构的MRS-VQA模型，用于组合不同尺度的图像特征。在文本处理方面，采用LSTM提取问题特征，用两个注意力层融合图像特征和文本特征。最后，将融合特征输入到 $s o f t m a x$ 层，计算答案。与RSVQA模型比较结果表明，本文提出的具有两个注意力层的MRS-VQA模型取得了较高的精度，对于不同尺度下的遥感图像在回答遥感视觉问答方面更有效。在未来工作中，我们还将进一步丰富数据集、优化模型性能，以提升遥感VQA模型性能。

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

FANG

， GUPTA

， IANDOLA

， et al.

From captions to visual concepts and back

［C］∥Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition， June 07-12， 2015， Boston， MA， USA. New York： IEEE， 2015：1473-1482.