為了充分融合不同深度學(xué)習(xí)模型在建筑提取中的互補(bǔ)信息,該文提出一種基于深度學(xué)習(xí)概率決策融合的高分辨率影像建筑物提取方法,將不同深度學(xué)習(xí)模型的類別分割概率進(jìn)行融合作為最終建筑提取的依據(jù),以實(shí)現(xiàn)不同模型之間的優(yōu)勢互補(bǔ),最后采用形態(tài)學(xué)后處理方法進(jìn)一步優(yōu)化建筑提取結(jié)果。采用3組不同分辨率,具有多種地物形態(tài)的建筑數(shù)據(jù)集驗(yàn)證本文方法的有效性。實(shí)驗(yàn)表明該文提出的概率決策融合方法取得了滿意的精度(F指數(shù)分別為92.45%,90.56%,79.95%),優(yōu)于單一模型的結(jié)果,并且顯著提升了建筑提取結(jié)果的可靠性。
引言
建筑是城市最主要的地物類型之一,建筑信息的準(zhǔn)確提取對城市規(guī)劃管理、人口密度估計(jì)和自然災(zāi)害評估等方面具有重要意義[1]。高分辨率影像具有豐富的地物細(xì)節(jié)信息,能夠區(qū)分建筑、道路等城市基本地物,為大范圍的建筑物提取提供了可能性。過去幾十年,高分辨率影像建筑信息提取一直是遙感和計(jì)算機(jī)視覺領(lǐng)域的熱點(diǎn)研究問題,吸引著眾多學(xué)者的關(guān)注[2]。
當(dāng)前,建筑提取的方法主要包括自動(dòng)提取方法,傳統(tǒng)的監(jiān)督分類方法和深度學(xué)習(xí)方法。建筑的自動(dòng)提取主要采用基于知識和規(guī)則的方法,根據(jù)建筑物的光譜、紋理、形狀、空間關(guān)系等基本特征,構(gòu)建建筑提取的規(guī)則[3]。比如建筑與附近的地物之間會(huì)形成較高的局部對比度,建筑和陰影存在空間共生關(guān)系?;谶@些規(guī)則,一些學(xué)者構(gòu)建了自動(dòng)化的建筑指數(shù),如形態(tài)學(xué)建筑指數(shù)(morphological building index, MBI)和建筑區(qū)域指數(shù)PanTex[2, 4]。監(jiān)督分類方法依賴于一定人力的樣本標(biāo)記和搜集,由于可以從訓(xùn)練樣本中獲得先驗(yàn)知識,監(jiān)督分類方法能夠更好地應(yīng)對復(fù)雜場景下的建筑提取。傳統(tǒng)的監(jiān)督分類方法多采用多特征融合的機(jī)器學(xué)習(xí)方法,其關(guān)鍵也是在于設(shè)計(jì)有效的特征來描述建筑的屬性。除了光譜特征之外,空間特征常常被用來彌補(bǔ)高分辨率影像上光譜特征對建筑屬性描述的不足。常用的空間特征包括形態(tài)學(xué)差分譜[5]、灰度共生矩陣[6](gray-level co-occurance matrix, GLCM)等。然而,以上方法主要采用人工設(shè)計(jì)特征,依賴于專家知識。而且,由于建筑自身和環(huán)境的復(fù)雜性,人為設(shè)計(jì)的底層特征在描述建筑屬性時(shí),依然存在巨大挑戰(zhàn)。
近些年來,基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)的深度學(xué)習(xí)方法已經(jīng)越來越多地應(yīng)用于計(jì)算機(jī)視覺和圖像處理領(lǐng)域,并且取得了巨大的成功。相對于傳統(tǒng)的特征工程方法,深度學(xué)習(xí)是一種數(shù)據(jù)驅(qū)動(dòng)的模型,它擁有強(qiáng)大的特征學(xué)習(xí)和表征能力,能夠從標(biāo)記數(shù)據(jù)中自動(dòng)學(xué)得中高層的抽象特征[7]。建筑提取在計(jì)算機(jī)視覺領(lǐng)域可以看成是一個(gè)語義分割問題,即對影像上的建筑物與非建筑物進(jìn)行像素級的類別標(biāo)記區(qū)分。目前,眾多典型的CNN模型,如全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional network,F(xiàn)CN)[8]、 Segnet [9]、U-net [10]、 Deeplab系列[11]等,已經(jīng)成功應(yīng)用于影像的語義分割任務(wù)。其中,基于深度學(xué)習(xí)的高分辨率影像建筑提取研究,也取得了一定進(jìn)展。比如:文獻(xiàn)[12]采用兩步法CNN模型從高分辨率影像上提取鄉(xiāng)村的建筑。該方法第一階段在粗尺度上進(jìn)行村莊的定位與提取,隨后在村莊區(qū)域進(jìn)行精細(xì)尺度的單個(gè)建筑提取。該方法能夠減少影像背景的復(fù)雜性,提升鄉(xiāng)村建筑的提取效率。文獻(xiàn)[13]提出一種基于深度殘差網(wǎng)絡(luò)的模型用于建筑探測,同時(shí)采用面向?qū)ο蟮臑V波方法進(jìn)一步優(yōu)化建筑提取結(jié)果。文獻(xiàn)[14]采用Deeplab-v3+模型對遙感影像進(jìn)行了建筑的分割。
CNN模型眾多,不同模型的構(gòu)建方式也不盡相同,針對高分辨率影像上建筑提取這個(gè)特定任務(wù),不同的CNN模型可能表現(xiàn)出不同的優(yōu)勢,融合不同深度模型的結(jié)果有望進(jìn)一步優(yōu)化。因此,本文提出一種基于深度學(xué)習(xí)概率決策融合的建筑提取方法,在決策層融合不同模型的類別分割概率作為最終類別標(biāo)記的依據(jù),以期不同的CNN模型能夠優(yōu)勢互補(bǔ),提升建筑提取的精度與置信度,最后根據(jù)建筑幾何屬性,采用后處理操作,進(jìn)一步優(yōu)化建筑提取結(jié)果。
建筑提取方法
圖1展示了本文的方法框架。首先,采用不同的卷積神經(jīng)網(wǎng)絡(luò)(本文選取Segnet和Deeplab v3+兩個(gè)典型網(wǎng)絡(luò))對影像進(jìn)行語義分割,生成類別概率圖;然后,在決策層融合不同網(wǎng)絡(luò)模型的類別概率來實(shí)現(xiàn)不同模型的優(yōu)勢互補(bǔ),提升建筑提取的精度與可靠性;最后,根據(jù)建筑物的幾何信息,采用必要的后處理操作對建筑提取結(jié)果進(jìn)一步優(yōu)化得到比較純凈的建筑信息。
卷積神經(jīng)網(wǎng)絡(luò)模型文獻(xiàn)[15]在2015年提出FCN,實(shí)現(xiàn)了基于端到端的CNN圖像語義分割。FCN使用卷積層替換CNN中的全連接層,可以接受任意尺寸的輸入圖像。為了使影像的輸出與輸入大小相同,F(xiàn)CN將特征圖上采樣到與輸入圖像相同的尺寸,同時(shí)融合淺層網(wǎng)絡(luò)學(xué)習(xí)到的特征,得到更好的分割結(jié)果。在FCN的引領(lǐng)下,基于CNN的語義分割方法開始蓬勃發(fā)展,出現(xiàn)了Segnet、 U-net、 Deeplab系列等。這些網(wǎng)絡(luò)實(shí)現(xiàn)方式不同,在具體的語義分割任務(wù)中,可能有各自的優(yōu)勢。因此,對它們的結(jié)果進(jìn)行融合,有望實(shí)現(xiàn)優(yōu)勢互補(bǔ),進(jìn)一步優(yōu)化分割結(jié)果。本文將以典型的語義分割網(wǎng)絡(luò)Segnet和Deeplab v3+為例,探索概率決策融合對高分辨率影像建筑識別的有效性。下面簡要介紹Segnet和Deeplab v3+的基本原理。
Segnet
Segnet是一個(gè)經(jīng)典的語義分割網(wǎng)絡(luò)模型,該模型使用了“編碼-解碼”的對稱結(jié)構(gòu)[8](圖2)。其中,編碼器是指網(wǎng)絡(luò)的特征提取部分,使用卷積層和池化層逐漸縮小圖像的尺寸,編碼器網(wǎng)絡(luò)結(jié)構(gòu)可采用去除全連接層的VGG-16網(wǎng)絡(luò)[16]。解碼器是指將特征圖轉(zhuǎn)化為預(yù)測圖的部分,使用了一系列的上采樣和卷積操作,其結(jié)構(gòu)的關(guān)鍵之處在于解碼階段用到了編碼器在池化時(shí)的索引值,從而能以原有的信息進(jìn)行上采樣,恢復(fù)目標(biāo)的邊緣位置,得到更加準(zhǔn)確的分割結(jié)果。
Deeplab v3+
Deeplab v3+是Deeplab系列模型的最新版本,自從文獻(xiàn)[17]采用空洞卷積算法,提出deeplab v1以來,作者不斷推陳出新,探索ResNet[18]和Xception[19]等模型作為不同的特征提取器,引入帶孔的空間金字塔模塊(atrous spatial pyramid pooling, ASPP)和編碼-解碼結(jié)構(gòu)[20],對原有模型進(jìn)行進(jìn)一步的改進(jìn)。ASPP包含不同尺度的帶孔卷積核對圖像進(jìn)行處理,能夠挖掘圖像的多尺度和上下文內(nèi)容信息,提取影像的高層特征。為了防止目標(biāo)邊界信息因?yàn)槌鼗途矸e操作而丟失,引入的編碼-解碼器結(jié)構(gòu)可以通過逐步恢復(fù)空間信息來獲得更清晰的目標(biāo)邊界。綜上,Deeplab v3+通過采用ASPP模塊和編碼-解碼結(jié)構(gòu),處理多尺度的圖像上下文信息,優(yōu)化分割結(jié)果,提高目標(biāo)的分割精度。2
概率決策融合與置信度
語義分割模型眾多,不同的模型實(shí)現(xiàn)方式和技巧有著較大的區(qū)別,針對一個(gè)具體的語義分割任務(wù),不同的網(wǎng)絡(luò)模型可能擁有各自的優(yōu)勢。因此,本文認(rèn)為將不同模型進(jìn)行融合有望實(shí)現(xiàn)模型之間的優(yōu)勢互補(bǔ),從而進(jìn)一步提升模型的影像分割精度。具體地,本文認(rèn)為Segnet和Deeplab v3+模型在高分辨率影像建筑識別的任務(wù)中,能夠提取到互補(bǔ)的信息??紤]到深度學(xué)習(xí)在預(yù)測時(shí)不僅能夠直接輸出類別標(biāo)簽,也能夠得到每個(gè)像素屬于每個(gè)類別的概率信息,因此,本文將不同語義分割模型獨(dú)立輸出的類別概率進(jìn)行決策層的概率融合,根據(jù)融合概率確定最終的類別標(biāo)記結(jié)果,以提升建筑提取的精度。概率融合公式表示如下:
需要說明的是,概率決策融合方法可以看成是一種框架,它可以融合不同的語義分割模型,本文只是以Segnet和Deeplab v3+為例,探究模型融合的有效性。
為進(jìn)一步探究概率融合的效果,本文從分類置信度角度繼續(xù)分析。對于二類分割任務(wù),分類概率可以直接衡量某個(gè)類別的分割置信度,分類概率值越大,表明該像素分類置信度越高。本文統(tǒng)計(jì)不同CNN模型以及融合模型中高置信度分類結(jié)果的比例,探究概率融合對分類置信度的影響。具體地,本文設(shè)置9為高置信度分割結(jié)果。初始的建筑提取結(jié)果一般會(huì)包含細(xì)小的噪聲、對象孔洞等,影響了建筑提取的精度。根據(jù)建筑屬性認(rèn)知,本文采用面積約束和建筑孔洞填充進(jìn)一步對初始建筑提取結(jié)果進(jìn)行后處理優(yōu)化。具體地,若某一探測的建筑對象的面積小于給定閾值c,則該對象被標(biāo)記為背景;若建筑孔洞局部半徑小于給定閾值r,則對該孔洞進(jìn)行形態(tài)學(xué)重構(gòu)運(yùn)算進(jìn)行填充并且保持該建筑對象的邊緣[21]。面積約束能夠減少建筑提取的錯(cuò)檢誤差,建筑孔洞填充能夠減少建筑提取的遺漏誤差,從而整體上提高建筑檢測的精度??紤]到建筑物的幾何屬性,本實(shí)驗(yàn)中,最小建筑的面積閾值c設(shè)為5 m2,建筑孔洞局部半徑閾值r設(shè)為2 m,對應(yīng)形態(tài)學(xué)運(yùn)算的圓形結(jié)構(gòu)元素半徑大小。
本文采用準(zhǔn)確率(P)、召回率(R)和F指數(shù)(F)3個(gè)常用的指標(biāo)來衡量建筑提取的精度。其中,準(zhǔn)確率可以衡量建筑提取的正確率,召回率反映建筑提取的完備率,F(xiàn)指數(shù)是同時(shí)考慮建筑提取準(zhǔn)確性與完備性的綜合指標(biāo)。3個(gè)指標(biāo)的定義公式如下:
式中:TP表示正類預(yù)測為正類,即正確檢測的建筑,F(xiàn)P表示將負(fù)類預(yù)測為正類,即錯(cuò)誤檢測的建筑,對應(yīng)錯(cuò)分誤差;FN表示正類預(yù)測為負(fù)類,即遺漏的建筑,對應(yīng)漏分誤差;表示像素個(gè)數(shù)。
實(shí)驗(yàn)與分析本文采用了3種不同分辨率的建筑數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)(圖3),分別是國際攝影測量與遙感協(xié)會(huì)(International Society for Photogrammetry and RemoteSensing, ISPRS)的Vaihingen建筑數(shù)據(jù)集,分辨率0.09 m(http://www2.isprs.org/commissions/comm3/wg4/2d-sem-label-vaihingen.html),武漢大學(xué)季順平團(tuán)隊(duì)生產(chǎn)的建筑數(shù)據(jù)集(WHU Building),分辨率0.3 m(http://study.rsgis.whu.edu.cn/pages/download/),馬薩諸塞州建筑數(shù)據(jù)集(Massachusetts Building),分辨率1 m(https://www.cs.toronto.edu/~vmnih/data/)。ISPRS Vaihingen數(shù)據(jù)集包含近紅外和紅綠共3個(gè)波段,一共有33個(gè)不同大小的影像區(qū)域(尺寸大約在2 500像素×2 500像素左右),其中16個(gè)區(qū)域?yàn)橛?xùn)練影像,其它17個(gè)區(qū)域?yàn)闇y試影像。WHU Building數(shù)據(jù)集包含4 736個(gè)訓(xùn)練樣本塊,1 036個(gè)驗(yàn)證樣本塊,2 416個(gè)測試樣本塊,大小都為512像素×512像素。MassachusettsBuilding數(shù)據(jù)集包含103個(gè)訓(xùn)練影像,4個(gè)驗(yàn)證影像,10個(gè)測試影像,影像大小都為1 500像素×1 500像素。
考慮到電腦內(nèi)存,在訓(xùn)練階段,本文將ISPRS Vaihingen的訓(xùn)練集裁剪為500像素×500像素的規(guī)則影像塊,裁剪步長為100像素,隨機(jī)選擇其中80%的圖像塊作為訓(xùn)練數(shù)據(jù),其余作為驗(yàn)證數(shù)據(jù)。
Massachusetts Building的數(shù)據(jù)集和驗(yàn)證集也被裁剪成500×500像素的規(guī)則影像塊,裁剪步長為200像素。在模型預(yù)測階段,內(nèi)存消耗相對較少,并且語義分割網(wǎng)絡(luò)可以接受任意尺寸的圖像輸入,ISPRS Vaihingen和Massachusetts Building數(shù)據(jù)集的原始測試影像均可直接輸入到訓(xùn)練好的模型中進(jìn)行預(yù)測。表 1和圖3展示了具體的數(shù)據(jù)集信息。
在訓(xùn)練過程中,對訓(xùn)練樣本進(jìn)行了數(shù)據(jù)增強(qiáng)處理,如平移、翻轉(zhuǎn)等操作。Segnet和Deeplab v3+分別采用預(yù)訓(xùn)練的VGG-16 [16]和ResNet-18 [18]作為網(wǎng)絡(luò)骨架,采用動(dòng)量梯度隨機(jī)下降法(stochastic gradient descent with momentum, SGDM)進(jìn)行訓(xùn)練,本文在實(shí)驗(yàn)過程中對CNN的訓(xùn)練參數(shù)進(jìn)行了調(diào)試優(yōu)化,同時(shí)也參考現(xiàn)有文獻(xiàn)中的參數(shù)設(shè)置,動(dòng)量參數(shù)設(shè)為0.9,初始學(xué)習(xí)率為0.001,batch size大小為4,訓(xùn)練輪數(shù)為100,在訓(xùn)練過程中,每500次迭代做一次精度驗(yàn)證。從網(wǎng)絡(luò)的中間訓(xùn)練過程(圖4)以及最終的測試結(jié)果來看,這些CNN模型的網(wǎng)絡(luò)配置是較優(yōu)合理的。
建筑提取結(jié)果與精度分析表2展示了建筑提取的精度,可以看到Segnet和Deeplab v3+模型在ISPRS Vaihingen和WHU Building數(shù)據(jù)集上表現(xiàn)較好,F(xiàn)指數(shù)達(dá)到了90%左右,在Massachusetts Building數(shù)據(jù)集上精度相對較低,F(xiàn)指數(shù)約為80%。對于ISPRS Vaihingen和WHU Building數(shù)據(jù)集,影像分辨率非常高,建筑物與其它地物區(qū)分比較明顯,建筑的邊緣比較清晰,而Massachusetts Building數(shù)據(jù)集,分辨率相對較低,建筑目標(biāo)比較模糊,和周圍地物容易混淆,可能影響建筑提取精度。此外,本文注意到兩種CNN模型在P和R 2個(gè)指標(biāo)上互有優(yōu)勢,因此,融合兩種模型有望實(shí)現(xiàn)優(yōu)勢互補(bǔ)??梢钥吹?,本文提出的概率決策融合方法在F指數(shù)上取得了優(yōu)于單一模型的結(jié)果,3個(gè)數(shù)據(jù)集上的精度分別達(dá)到了92.28%、90.13%和79.95%。這說明本文提出的概率決策融合模型用于高分辨率影像建筑提取的有效性。在此基礎(chǔ)上進(jìn)行形態(tài)學(xué)后處理(去噪聲、補(bǔ)孔洞)操作,也能夠進(jìn)一步提升建筑提取精度,F(xiàn)指數(shù)分別達(dá)到了92.45%、90.56%和79.95%。但本文也注意到Massachusetts Building數(shù)據(jù)集的后處理精度幾乎沒有變化,這可能是因?yàn)樵谳^低分辨率影像上,地物的細(xì)節(jié)和異質(zhì)性相對較少,建筑初提取結(jié)果中的虛警噪聲和建筑內(nèi)部的孔洞現(xiàn)象較少。這種情況下,采用的形態(tài)學(xué)后處理方法對該數(shù)據(jù)影響有限。
圖5展示了建筑提取結(jié)果及其精度圖,可以看到大部分建筑對象都得到了正確的識別。在ISPRS Vaihingen和Massachusetts Building數(shù)據(jù)集的標(biāo)識區(qū)域內(nèi),Segnet和Deeplab v3+模型在不同地方產(chǎn)生了虛警,但是兩者融合后,虛警都被減弱了,并且后處理進(jìn)一步濾除了細(xì)小的噪聲,提升了建筑提取的準(zhǔn)確率。此外,在WHU Building數(shù)據(jù)集的標(biāo)識區(qū)域內(nèi),Segnet和Deeplab v3+模型分別表現(xiàn)出一些錯(cuò)檢和遺漏誤差,概率決策融合后,2種誤差都得到了緩解,經(jīng)過后處理,建筑對象內(nèi)部的小孔洞也被填充,提升了建筑提取的完備率。
綜上,本文提出的概率決策融合方法在不同分辨率的數(shù)據(jù)集上都取得了比單一模型較優(yōu)的結(jié)果。此外,形態(tài)學(xué)后處理操作能夠進(jìn)一步優(yōu)化建筑提取結(jié)果??紤]到建筑的實(shí)際大小和建筑在影像上的可區(qū)分能力,并結(jié)合本文的實(shí)驗(yàn)結(jié)果,認(rèn)為當(dāng)影像分辨率優(yōu)于1 m時(shí),比較有利于建筑物的準(zhǔn)確提取。
為分析概率決策融合的模型對類別分割置信度的影響,本文統(tǒng)計(jì)了每個(gè)數(shù)據(jù)集的所有測試圖像在不同模型下的高置信度(分類概率大于0.9)分類像素的比例,并繪制箱型圖如圖6所示??梢钥闯鰜恚怕蕸Q策融合模型顯著提升了分割結(jié)果中高置信度像素的比例。比如,在ISPRS Vaihingen數(shù)據(jù)集中,高置信度像素比例分布的中值由96.6%(Segnet)和97.0%(Deeplab v3+)提升到98.3%(融合模型)。
圖7展示了不同模型輸出的分類置信度圖,可以看出來,高置信度的像素主要分布于建筑與背景類別的內(nèi)部,而置信度較低的像素主要集中在類別間的邊界區(qū)域,邊界區(qū)域由于混合了建筑與背景類別的特征,因此分類的可靠性較低。但是,從整體的置信度圖目視效果來看,融合模型輸出的結(jié)果顯著提升了類別分割可靠性。
4
典型場景分析本文采用的數(shù)據(jù)集測試圖像眾多,圖像中地物類型豐富,包括植被、水體、停車場,施工裸地等,有些復(fù)雜的場景給建筑提取帶來巨大挑戰(zhàn)。本文繼續(xù)分析了本文算法在一些復(fù)雜場景下的建筑提取表現(xiàn)。圖8(a)展示了ISPRS Vaihingen數(shù)據(jù)集中的一塊測試區(qū)域,該區(qū)域植被分布較多。本文注意到部分屋頂上也有植被覆蓋,這樣的建筑很難被檢測出來。此外,相鄰建筑之間的陰影遮蓋也容易造成建筑信息的遺漏。圖8(b)展示了WHU Building數(shù)據(jù)集中的一塊施工裸地區(qū)域,其中有一些建設(shè)區(qū)域與建筑特征非常相似,該區(qū)域容易造成虛警。圖8(c)展示了Massachusetts Building數(shù)據(jù)集中的一塊測試區(qū)域,該數(shù)據(jù)分辨率相對較低,相鄰的建筑物之間界限不明顯,在檢測結(jié)果中容易粘連在一起。但也注意到該區(qū)域的背景地物如水體與停車場等,本文算法能夠?qū)⑵渑c建筑較好地區(qū)分開來。綜上,本文的建筑提取結(jié)果在一些復(fù)雜場景下也存在一定的錯(cuò)檢和遺漏誤差,但整體上的表現(xiàn)是合理的。
結(jié)束語
高分辨率影像建筑信息提取是遙感領(lǐng)域的研究熱點(diǎn)和難點(diǎn),對城市規(guī)劃、環(huán)境評價(jià)具有重要作用。本文提出了一種基于深度學(xué)習(xí)概率決策融合的高分辨率影像建筑提取方法。該方法在決策層融合不同深度學(xué)習(xí)模型獨(dú)立輸出的分割概率,實(shí)現(xiàn)模型之間的優(yōu)勢互補(bǔ),并采用形態(tài)學(xué)后處理操作進(jìn)一步優(yōu)化建筑提取結(jié)果。實(shí)驗(yàn)表明本文提出的方法在多種數(shù)據(jù)集上取得了滿意的精度,優(yōu)于單一模型的分割結(jié)果。而且,概率融合顯著提升了類別分割結(jié)果的可靠性,降低了分類不確定度。END
引用格式:王珍,張濤,丁樂樂,史芙蓉.高分辨率影像深度學(xué)習(xí)概率決策融合建筑提取[J].測繪科學(xué),2021,46(6):93-101.
作者簡介:王珍,男,內(nèi)蒙古察右后旗人,正高級工程師,碩士,主要研究方向?yàn)楣こ虦y量、遙感圖像處理與應(yīng)用
本文鏈接:http://www.lajichun.cn/blog/121.html
本文標(biāo)簽:高分辨率影像