《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 設(shè)計(jì)應(yīng)用 > 融合對(duì)象和多尺度視覺特征的遙感圖像描述模型
融合對(duì)象和多尺度視覺特征的遙感圖像描述模型
網(wǎng)絡(luò)安全與數(shù)據(jù)治理 6期
賈亞敏,陳 姣,彭玉青
(河北工業(yè)大學(xué) 人工智能與數(shù)據(jù)科學(xué)學(xué)院,天津300401)
摘要: 基于遙感圖像多尺度、無法準(zhǔn)確提取微小物體、物體類別易混淆的問題,提出了一種融合對(duì)象和多尺度視覺特征的遙感圖像描述模型(Fusion of Object and Multiscale Visual Feature,F(xiàn)O-MSV),通過構(gòu)建的對(duì)象提取器分析文本信息,提取其中的對(duì)象信息;設(shè)計(jì)了一種多尺度交互模塊,獲取遙感圖像的多尺度視覺特征,以適應(yīng)多尺度的特點(diǎn);為了充分利用對(duì)象信息并融合視覺信息,提出了一種新的對(duì)象-視覺特征融合機(jī)制,調(diào)整視覺上下文和對(duì)象上下文之間的平衡。基于該領(lǐng)域內(nèi)三個(gè)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,該模型能明顯提升描述的性能,與其他先進(jìn)模型相比具有競(jìng)爭(zhēng)力。
中國分類號(hào): TP391
文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.19358/j.issn.2097-1788.2022.06.011
引用格式: 賈亞敏,陳姣,彭玉青. 融合對(duì)象和多尺度視覺特征的遙感圖像描述模型[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2022,41(6):78-83,89.
Remote sensing image caption model with fusion of object and multiscale visual feature
Jia Yamin,Chen Jiao,Peng Yuqing
(School of Artificial Intelligence,Hebei University of Technology,Tianjin 300401,China)
Abstract: Aiming at the problems that remote sensing image has multiscale features and the object categories are easy to be confused, cannot accurately extract the tiny objects from images, a new remote sensing image caption model(FO-MSV) is proposed, which analyzes the text information through the constructed object extractor, to extract the object information. A multiscale interaction module is designed to obtain the multiscale visual features of remote sensing images to adapt to the characteristics of multiscale. In order to make full use of object information and fuse visual information, a new object-visual feature fusion mechanism is proposed to adjust the balance between visual context and object context. Experimental results on three datasets show that the proposed model can significantly improve the performance of captions and is competitive compared with other advanced models.
Key words : image caption;remote sensing image;multiscale feature;object information;visual information;feature fusion

0 引言

圖像描述是旨在從語義層面上對(duì)圖像進(jìn)行總結(jié)。遙感圖像是利用遙感技術(shù)從高空獲取的圖像,遙感圖像描述(Remote Sensing Image Caption,RSIC)是上述兩個(gè)領(lǐng)域的結(jié)合,旨在為指定的遙感圖像生成綜合性的文本描述,在交通指揮、地理研究等領(lǐng)域[1]具有廣泛的應(yīng)用前景,已成為新興的研究熱點(diǎn)。遙感圖像描述的實(shí)現(xiàn)最初沿用了圖像描述的編碼器-解碼器模型[2],隨后提出了許多模型來解決不同的問題,多數(shù)研究使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)作為編碼器提取圖像特征,但CNN卷積層的輸出特征所對(duì)應(yīng)的感受野都是大小和形狀相同的均勻網(wǎng)格,因此僅利用CNN提取的圖像特征容量有限,難以識(shí)別圖像中的微小物體,且由于拍攝角度問題,遙感圖像中存在一些多義和易混淆物體,不易區(qū)分。

為解決上述問題且適應(yīng)遙感圖像場(chǎng)景多尺度的特點(diǎn),本文提出了融合對(duì)象和多尺度視覺特征的遙感圖像描述模型(Fusion of Object and Multiscale Visual Feature,F(xiàn)O-MSV)。該模型構(gòu)建對(duì)象提取器(Object Extractor,OE)利用指針生成網(wǎng)絡(luò)[3]得到的整合描述提取對(duì)象信息以避免遺漏微小物體。同時(shí)提出了一種新的多尺度交互模塊(Multiscale Interaction Module,MSCM)來獲取圖像的多尺度視覺特征適應(yīng)多尺度的特點(diǎn)。此外,設(shè)計(jì)一種新的對(duì)象-視覺融合機(jī)制(Object-Visual Fusion Mechanism,ovFM)來利用對(duì)象信息并融合多尺度視覺信息避免出現(xiàn)識(shí)別對(duì)象錯(cuò)誤的問題,且改善了長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short Term Networks,LSTM)的結(jié)構(gòu),稱為多輸入LSTM(Multi-Input LSTM,I_LSTM)。



本文詳細(xì)內(nèi)容請(qǐng)下載:http://www.viuna.cn/resource/share/2000005064




作者信息:

賈亞敏,陳  姣,彭玉青

(河北工業(yè)大學(xué) 人工智能與數(shù)據(jù)科學(xué)學(xué)院,天津300401)


微信圖片_20210517164139.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。
主站蜘蛛池模板: 亚欧成人在线 | 九九九九精品视频在线播放 | 激情综合网五月激情 | 麻豆传煤一区免费入 | 激情综合色五月丁香六月亚洲 | 爽爽爽爽爽爽爽太爽了免费观看 | 香蕉视频色| 丁香六月激情 | 免费日韩一级片 | 中文国产成人精品少久久 | 亚洲欧洲免费视频 | 欧美网站色 | 欧美一级欧美三级在线观看 | 黄色福利小视频 | 在线观看视频免费 | 亚洲国产情侣一区二区三区 | 黄黄视频免费看 | 欧美日韩中文字幕在线视频 | 日本免费三区 | 免费一区二区三区视频狠狠 | 久久亚洲国产成人亚 | 国产97公开成人免费视频 | 东京道区二区三区 | 老妇毛片| 日本欧美一区二区三区高清 | 欧美人人做人人爽人人喊 | 精品国产一区二区三区国产馆 | 色伊人网| 亚洲人成网址 | 免费黄色毛片视频 | 欧美一区二区三区视频在线观看 | 久久99久久精品97久久综合 | 国产日韩欧美久久久 | 成人欧美日韩视频一区 | 亚洲碰碰 | 中文字幕丝袜制服 | 天天爱天天色天天干 | 亚洲天堂网在线播放 | 男女男精品视频在线观看 | 樱花aⅴ一区二区三区四区 影音先锋色69成人资源 | 在线播放国产麻豆 |