返回
Domain generalization for semantic segmentation of remote sensing images via vision foundation model fine-tuning
10.1016/j.isprsjprs.2025.09.004
2025-09-17
0
PRE
AI
摘要
En 中文
面向实践且通用的深度语义分割模型需要在各种应用场景中有效,而无需重训练或仅需最少微调。这要求模型具备领域泛化能力。在大型多样化数据集上训练的视觉基础模型(VFMs)已在计算机视觉任务中展现出卓越的泛化能力。然而,如何利用其泛化能力进行遥感跨领域语义分割仍需深入研究。本文探索识别最适合遥感图像的VFM,并进一步在遥感图像分割背景下增强其泛化能力。本研究首先在不同设置下对各类VFMs以及经典CNN或Transformer骨干网络进行全面泛化能力评估。我们发现DINO v2 ViT-L在参数冻结或全微调情况下均优于其他骨干网络。基于DINO v2,我们提出了一个新颖的领域泛化框架,涵盖数据和深度特征两个视角。该框架包含两个关键模块:地理空间语义适配器(GeoSA)和批风格增强器(BaSA),二者共同释放DINO v2在遥感图像语义分割中的潜力。GeoSA由三个核心组件构成:增强器、桥接器和提取器。这些组件协同工作,从预训练的DINO v2中提取鲁棒特征,并生成适用于遥感图像的多尺度特征。BaSA采用批级别数据增强,以减少对数据集特定特征的依赖,促进领域不变学习。在四个遥感数据集和四种领域泛化场景下的广泛实验(涵盖二分类和多分类语义分割)一致证明,我们的方法在跨领域泛化能力和鲁棒性方面表现优异,超越了先进的领域泛化方法和其他VFM微调方法。代码将发布于https://github.com/mmmll23/GeoSA-BaSA。
期刊
IF:
12.2
论文数: 4.2K
・
被引数: 3.2W
学者
M
Muying Luo
H 指数:
8
论文数: 17
・
被引数: 433
Y
Yujie Zan
H 指数:
0
论文数: 1
・
被引数: 0
K
Kourosh Khoshelham
H 指数:
41
论文数: 256
・
被引数: 7.1K
S
Shunping Ji
H 指数:
32
论文数: 153
・
被引数: 5.8K
机构
T
the university of melbourne
学者数:
2.4K
论文数: 1.2K
・
被引数: 0
W
wuhan university
学者数:
7.6W
论文数: 5.6W
・
被引数: 28


