Domain generalization for semantic segmentation of remote sensing images via vision foundation model fine-tuning

Muying Luo

doi:10.1016/j.isprsjprs.2025.09.004

Domain generalization for semantic segmentation of remote sensing images via vision foundation model fine-tuning

10.1016/j.isprsjprs.2025.09.004

2025-09-17

0

PRE

AI

原文链接

0求助

应助

摘要

En 中文

面向实践且通用的深度语义分割模型需要在各种应用场景中有效，而无需重训练或仅需最少微调。这要求模型具备领域泛化能力。在大型多样化数据集上训练的视觉基础模型（VFMs）已在计算机视觉任务中展现出卓越的泛化能力。然而，如何利用其泛化能力进行遥感跨领域语义分割仍需深入研究。本文探索识别最适合遥感图像的VFM，并进一步在遥感图像分割背景下增强其泛化能力。本研究首先在不同设置下对各类VFMs以及经典CNN或Transformer骨干网络进行全面泛化能力评估。我们发现DINO v2 ViT-L在参数冻结或全微调情况下均优于其他骨干网络。基于DINO v2，我们提出了一个新颖的领域泛化框架，涵盖数据和深度特征两个视角。该框架包含两个关键模块：地理空间语义适配器（GeoSA）和批风格增强器（BaSA），二者共同释放DINO v2在遥感图像语义分割中的潜力。GeoSA由三个核心组件构成：增强器、桥接器和提取器。这些组件协同工作，从预训练的DINO v2中提取鲁棒特征，并生成适用于遥感图像的多尺度特征。BaSA采用批级别数据增强，以减少对数据集特定特征的依赖，促进领域不变学习。在四个遥感数据集和四种领域泛化场景下的广泛实验（涵盖二分类和多分类语义分割）一致证明，我们的方法在跨领域泛化能力和鲁棒性方面表现优异，超越了先进的领域泛化方法和其他VFM微调方法。代码将发布于https://github.com/mmmll23/GeoSA-BaSA。

Domain generalization for semantic segmentation of remote sensing images via vision foundation model fine-tuning

摘要

期刊

学者

机构

引用论文

被引论文