二元数据融合下的高光谱影像地物识别
The Combination of Sentinel-2 and GF-5 Spectral Image Was Used for Ground Object Recognition

作者: 武 宇 * , 张 俊 , 黄康钰 :贵州大学矿业学院,贵州 贵阳;

关键词: 高分五号高光谱降维Sentinel-2随机森林GF-5 Hyperspectral Image Dimension Reduction Sentinel-2 Random Forest

摘要:
针对目前高分五号AHSI (the Advanced Hyperspectral Imager)相机存在的330个波段但是空间分辨率较低的问题,提出了高光谱影像结合Sentinel-2号卫星的3波段(560 nm)、4波段(664.5 nm)波段分别进行融合的方法,来解决高分五号卫星面临的地物分类精度不足的问题,进而提高精度。为了避免处理的过程中出现维数灾难的问题,首先对高分五号AHSI影像和Sentinel-2号影像分别预处理,再采用G-S (Gram-Schmidt)融合,最后利用随机森林算法进行分类识别,利用用户精度(User Accuracy, UA)、生产者精度(Producer Accuracy, PA)、整体分类精度(Overall Accuracy, OA)以及Kappa系数来评价精度。结果表明,利用随机森林算法对经过改进的数据在总体分类精度上有显著提高,相对于原始高光谱数据分别能够提升9.33%和10.17%,其中整体分类精度分别为97.57%和98.35%,KAPPA系数分别为0.9625、0.9731。

Abstract: Based on the current GF-5 AHSI (the Advanced Hyperspectral Imager) 330 bands exist the camera but low spatial resolution of the problem, put forward the Hyperspectral image combining satellite Sentinel-2 satellite’s 3 band (560 nm), 4 band (664.5 nm) band fusion method, to solve the high score 5 satellite faces the problem of insufficient feature classification accuracy, precision can be improved. In order to avoid dealing with the problem of dimension disaster, appear in the process of the first to score 5 AHSI image and Sentinel-2 image preprocessing, and then use the G-S (Gramm-Schmidt), the final random forests for classification recognition, using User Accuracy (User Accuracy, UA), the precision of producers (Producer Accuracy, PA), the Overall classification Accuracy (Overall Accuracy, OA) and Kappa coefficient to evaluate precision. The results show that compared with the original hyperspectral data, the overall classification accuracy of the fused high- resolution No. 5 image can be improved by 9.33% and 10.17%, respectively, and the overall classification accuracy of the fused high-resolution No. 5 image is 97.57% and 98.35%. The KAPPA coefficients were 0.9625 and 0.9731.

1. 引言

高光谱图像分类算法是高光谱遥感领域中的研究热点之一,在地物分类、农业监测、国土资源调查等领域都被广泛应用。随着机器学习的发展,目前已有许多基于机器学习理论的高光谱图像分类算法,如半监督学习、卷积神经网络等 [1] [2] [3],在处理和应用中如何选取有效的光谱数据形式和光谱特征信息是研究的重点 [4]。目前的研究对地物分类识别的精度不断提升,但这些方法主要利用传统统计方法结合主观判断选择波段,主观性较大,且数据处理流程繁琐,难以高效简便对作物进行精确分类识别。在过去研究中,涌现了许多经典的模式识别与机器学习算法,如最大似然分类法(Maximum Likelihood Classification, MLC)和支持向量机(Support Vector Machine, SVM)分类算法 [5] [6],被有效应用于高光谱遥感图像分类中。但是,这些算法仅利用高光谱图像的光谱信息,忽略了其空间结构纹理的作用,因而在提高分类精度的过程中还存在局限。如今,随着研究人员的深入挖掘,发现可以通过将光谱信息和空间信息融合,带来了更好的识别效果,可大大改善高光谱遥感图像的分类结果 [7] [8] [9]。基于此对高分五号AHSI遥感影像与Sentinel-2号卫星影像的部分波段进行融合,与二者原始数据进行了对比后发现地物识别精度有大幅度提升。

2. 研究区概况

实验区选在辽宁省盘锦市南部紧接渤海湾地区,西北方向与锦州市接壤,东与鞍山市镶接,平均海拔约50 m,中心经纬度分别为121˚47'56.67E,40˚49'3.46N。实验区的地貌主要类型是是冲海积平原和潮滩,地貌类型单一、地势平坦,实验范围呈17 km × 11 km矩形。地物主要分为耕地、滩涂、水体和设施农用地,少部分地区有见积雪。本次影像选用高分五号2019年4月12日盘锦市上空AHSI影像,包含330个波段,光谱分辨率约为0.3 nm,Sentinel-2号卫星影像为同一天经实验区上空的L2A级产品,覆盖范围为110 km × 110 km,所选用的3、4波段空间分辨率为10 m。

3. 研究方法

文章提出的分类方法实现过程主要为5大步骤:① 首先对高分五号影像和Sentinel-2号影像进行数据的预处理过程,包括辐射定标、波段选取、滤波、大气校正和正射校正等;② 对预处理完成的影像部分波段进行G-S (Gram-Schmidt)法融合。因受波长和空间分辨率影响,只采用了Sentinel-2号卫星影像的3、4波段,波长介于0.5 nm至0.75 nm之间;③ 利用主成分分析法(Principal Component Analysis, PCA)对融合后的高分五号影像进行降维处理,经测试发现仅第一主成分已经可以保证包含了99.90%的信息,Eigenvalue为123447.0876,而只选取前五主成分包含的信息百分比为97.75%,Eigenvalue为173619124.6510;④ 对降维后的PCA分量图像进行六类地物样本选取;⑤ 利用随机森林算法进行结果分析评价,具体流程如图1

Figure 1. Data processing flow chart

图1. 文章流程图

为验证实验精度,采用随机森林(Random Forest)法分类两种方法对四种模型分别进行分类分析:

a) 高分五号影像融合Sentinel-2号影像第3波段;

b) 高分五号影像融合Sentinel-2号影像第4波段;

c) 仅Sentinle-2号影像;

d) 仅高分五号影像;

地物由目视解译分为耕地、设施农用地、水体、滩涂、商服用地和积雪共六类。实验参数由多次结果对比进行确定,因树数(ntrees)值与运行时间呈正相关状态,最终确定随机森林树数值为50,精度设置为0.01。

3.1. 随机森林算法基本原理

2001年,Breiman等 [10] [11] 人提出了随机森林算法(RandomForest, RF),这是一种以决策树为基础分类器的智能学习模型,运用Bootstrap技术可以计算多个样本结果,再使用单独样本结果综合构建决策树,将多棵决策树组合并行形成随机森林。当决策树检测系统检测到有预测样本数据时,最终分类结果由前述计算形成决策树投票决定。因RF对于高维数据具有很高的预测准确率,同时对噪声率有很强的容忍程度,在处理高维数据时,可以有效地分析非线性,共线和交互式数据,并且可以在分析研究数据时为各种变量提供重要性得分(Variable Importance Measures,VIM)据此确定权重,体现了随机森林的速度快,容错率高和稳定性好的优点 [12]。因此用随机森林法处理作物高光谱数据时,能够很好的实现高精度计算。

随机森林算法具体实现过程如下:① 从原始的样本数据集中随机选取x个bootstrap数据集作为训练数据集,未被抽到的样本集作为测试数据。② 建立每一个bootstrap随机样本的决策树模型,在每棵决策树的节点处随机地从总特征中选取y个特征(x ≤ y,其中x为特征变量总数)。③ 因为每棵决策树都会产生一个算法结果,故将所有的决策树的预测结果综合汇总再通过多数投票的方法得到最终的汇总结果 [12]。

一般计算过程中在构建随机森林模型时,模型会选择2/3的样本作为袋内(In Bag)数据构造决策树,其余1/3的样本被用袋外(Out of Bag, OOB)数据用于测试决策树,然后对其分类性能进行评估,称之为OOB偏离估计。计算后,随机森林模型中的每课决策树都会生成一个OOB偏离,通过组合所有决策树的预测集获得的平均错误分类称为袋外偏离 [13]。大量的研究和试验证明了利用袋外误差预测随机森林模型的内部性能时是无偏的,因此不需要再使用单独的测试数据集验证模型的泛化误差。RF模型中的每棵决策树即为二叉树,根节点包含所有自助训练数据集,根据目标规则,从一组随机选择的变量中选择每个节点,以最小化分支后节点的“不纯度”。该变量用于作用在左右子分支。经上述拆分后的节点继续根据相同规则进行拆分,直到满足规则并停止增长 [14] [15]。

3.2. 评价指标

在完成高光谱图像地物识别后,需要对实验的高光谱图像分类结果进行正确有效的评价。通常依据地面真实数据,评估分类结果的准确性和合理性 [16]。文章采用4个高光谱图像分类精度指标来衡量分类算法的精度:生产者精度(Producer Accuracy, PA)、用户精度(User Accuracy, UA)、整体分类精度(Overall Accuracy, OA)以及Kappa系数。

4. 结果分析

通过选取高分五号AHSI卫星影像结合Sentinel-2号影像的3 (Green)、4 (Red)波段进行改进模型构建,再建立四种模型进行分类,得出了利用随机森林模型分类对高光谱数据融合下的地物类型识别优势。整体上积雪和滩涂均保持较低的识别率,可能是因为四月份大气扰动较大,二者地物纹理特征不明显的原因。在模型c也就是仅有Sentinel-2号影像的分类器里各项地物精度均处于劣势,有可能是因为该栅格数据是低维数据,对于线状地物或零星分布、面积较小的地物不能够保证丰富的地物信息,但在融合高光谱数据后精度有明显提升。

(a) 模型a假彩色合成 (b) 模型b假彩色合成 (c) 模型c真彩色合成 (d) 模型d真彩色合成

Figure 2. Results of four models after pretreatment

图2. 四种模型预处理后结果图

图2的结果表明:对不同的模型,融合后的高光谱影像较原始影像在细部多了纹理特征,地物类界更加明显;随机森林的精度提升幅度虽有不同,但在实验中均取得了高度优于原始单元数据的结果。

根据图3的最终分类结果显示,四种模型都能够很好的进行地物区分,整体分类结果保持一致,但是在细节区分的结果上有明显差异,例如设施农用地和商服用地的分类。根据表1的结果,在模型a中对研究区进行地物识别的结果中,总体精度达到97.57%,Kappa系数0.9625;模型b中总体分类精度更是达到了98.35%,Kappa系数为0.9731;但仅依靠Sentinel-2号卫星,即模型c的整体分类精度为83.41%,

(a) 模型a (b) 模型b (c) 模型c (d) 模型d

Figure 3. Classification results of different models under random forest classifier

图3. 随机森林分类器下不同模型分类结果

Kappa系数为0.7274;仅依靠高光谱影像,即模型d的整体分类精度为88.18%,Kappa系数为0.8426。可以看出,融合后的分类结果已接近人工解译水平,能够有效改善地物识别结果。模型a相较单元Sentinel-2号数据整体分类精度提高了14.16%,Kappa系数提高了0.2351;相较单元高光谱数据整体分类精度提高了9.33%,Kappa系数提高了0.1199;模型b相较单元Sentinel-2号数据整体分类精度提高了14.94%,Kappa系数提高了0.2457;相较单元高光谱数据整体分类精度提高了10.17%,Kappa系数提高了0.1305,整体精度高于模型a;同时可以验证模型a、b相较于原始影像数据精度更高,容错性更好,并且在高分五号数据下有很好的普适性。

Table 1. Accuracy evaluation of classification results

表1. 分类结果精度评价

六类地物总体分类精度的由高到低依次排序是模型b (98.35%) > 模型a (97.57%) >模型d (88.18%) > 模型c (83.41%),与按照平均精度分类结果一致,图4的分类精度也可以直观的看出,在模型a,模型b的整体分类精度趋近于真实值,但模型c,模型d则处于劣势。

纵向来看,在模型a上,制图精度最高为积雪,达到100%,水体分类精度虽处于劣势但也达到了94.83%;模型b上制图精度积雪类别也达100%,相同于模型a的水体类别效果最差为96.55%。从以上两个结果可以看出,模型b的精度较模型a更为优秀,也证明了融合不同波段对地物识别精度会存在略微偏差。

横向来看,积雪类型在制图精度依旧最高,商服用地在仅Sentinel-2影像里仅有6.85%,用户精度里最高为设施农用地,最低为滩涂。

Figure 4. Overall classification accuracy of the four models

图4. 四类模型总体分类精度

5. 结语

利用随机森林算法,以高分五号影像和Sentinel-2号遥感影像为数据源,构建4种变量模型,研究冲海积平原地区土地利用信息的更精确的获取方法,通过原始数据验证了模型的可靠性,并比较分析了各模型的分类精度。虽然此次实验的分类精度较高,但一些问题仍然存在改进的空间,例如在进行数据融合的过程中可以加入一些特征值等强度信息;对不同的遥感数据源来说随机森林分类方法可能具有不同的适用性,在今后的研究中还需要加入更多的数据源,同时抑制样本噪声,测试实验是否能获得更好的分类效果。

基金项目

贵州省科学技术基础研究计划项目(黔科[2017] 1054);国家自然科学基金项目(41701464);贵州大学引进人才科研项目(贵大人基合字(2016) 51号);贵州大学测绘科学与技术研究生创新实践基地建设项目(贵大研CXJD[2014]002)。

NOTES

*第一作者。

#通讯作者。

文章引用: 武 宇 , 张 俊 , 黄康钰 (2021) 二元数据融合下的高光谱影像地物识别。 应用数学进展, 10, 180-188. doi: 10.12677/AAM.2021.101021

参考文献

[1] 刘冰, 余旭初, 张鹏强, 等. 联合空-谱信息的高光谱影像深度三维卷积网络分类[J]. 测绘学报, 2019, 48(1): 53-63.

[2] 魏祥坡, 余旭初, 谭熊, 等. CNN和三维Gabor滤波器的高光谱图像分类[J]. 计算机辅助设计与图形学学报, 2020, 32(1): 90-98.

[3] 高奎亮, 张鹏强, 余旭初, 等. 基于Network in Network网络结构的高光谱影像分类方法[J]. 测绘科学技术学报, 2019, 36(5): 500-504+510.

[4] Romero, A., Gatta, C. and Camps-Valls, G. (2016) Unsupervised Deep Feature Extraction for Remote Sensing Image Classification. IEEE Transactions on Geoscience & Remote Sensing, 54, 1349-1362.
https://doi.org/10.1109/TGRS.2015.2478379

[5] Liu, H., Jiang, H. and Zheng, R. (2016) The Hybrid Feature Selection Algorithm Based on Maximum Minimum Backward Selection Search Strategy for Liver Tissue Pathological Image Classification. Computational and Mathematical Methods in Medicine, 2016, Article ID: 7369137.
https://doi.org/10.1155/2016/7369137

[6] 曹泽涛, 方子东, 姚瑾, 等. 基于随机森林的黄土地貌分类研究[J]. 地球信息科学学报, 2020, 22(3): 452-463.

[7] 曹爽, 潘锁艳, 管海燕. 机载多光谱LiDAR的随机森林地物分类[J]. 测绘通报, 2019(11): 79-84.

[8] Song, M. and Chang, C.I. (2015) A Theory of Recursive Orthogonal Subspace Projection for Hyperspectral Imaging. IEEE Transactions on Geoscience & Remote Sensing, 53, 3055-3072.
https://doi.org/10.1109/TGRS.2014.2367816

[9] Ge, H., Wang, L., Cheng, L., et al. (2017) An Adaptive Supervised Nonlinear Feature Extraction for Hyperspectral Imagery Classification. Journal of the Indian Society of Remote Sensing, 46, 367-376.
https://doi.org/10.1007/s12524-017-0696-4

[10] 陈伟民, 张凌, 宋冬梅, 等. 基于AdaBoost改进随机森林的高光谱图像地物分类方法研究[J]. 遥感技术与应用, 2018, 33(4): 612-620.

[11] 李冠东, 张春菊, 高飞, 等. 双卷积池化结构的3D-CNN高光谱遥感影像分类方法[J]. 中国图象图形学报, 2019, 24(4): 639-654.

[12] 吕杰, 郝宁燕, 李崇贵, 等. 利用随机森林和纹理特征的森林类型识别[J]. 遥感信息, 2017, 32(6): 109-114.

[13] 崔宾阁, 吴亚男, 钟勇, 等. 高光谱图像滚动引导递归滤波与地物分类[J]. 遥感学报, 2019, 23(3): 431-442.

[14] 黄鸿, 陈美利, 王丽华, 等. 空-谱协同正则化稀疏超图嵌入的高光谱图像分类[J]. 测绘学报, 2019, 48(6): 676-687.

[15] 赵亮, 王立国, 刘丹凤. 高光谱图像子空间的波段选择[J]. 遥感学报, 2019, 23(5): 904-910.

[16] 张晶, 王亦斌, 方帅. 多标签高光谱图像地物分类[J]. 中国图象图形学报, 2020, 25(3): 568-578.

分享
Top