《電子技術應用》
您所在的位置:首頁 > 模擬設計 > 其他 > CVPR 2018 | UNC&Adobe提出模塊化注意力模型MAttNet,解決指示表達的理解問題

CVPR 2018 | UNC&Adobe提出模塊化注意力模型MAttNet,解決指示表達的理解問題

2018-03-08
關鍵詞: UNC CVPR2018 自然語句

北卡教堂山分校 (UNC) 虞立成等人近日發表的 CVPR 2018 論文提出了模塊化注意力模型 MAttNet,將 Referring Expression(指示表達)分解為三個模塊:主語、位置和關系,并基于句子和圖片的聯合注意力解析,解決基于指示表達的目標定位問題。實驗表明 MAttNet 在基于自然語句的目標檢測和分割兩種任務上都大幅優于前文的方法。該論文已被 CVPR 2018 錄取,并提供了代碼以及 demo。


  • 代碼鏈接:https://github.com/lichengunc/MAttNet

  • Demo 鏈接:http://vision2.cs.unc.edu/refer/comprehension


任務


Referring Expression(指示表達)指描述圖片中某一特定物體的一句自然語句。與 Image Captioning 任務不同的是 Referring Expression 具有唯一性和區域性,比如「穿紅色毛衣的女人」或「右邊的男孩」。在日常生活中,無論人與人之間的交流或是人機交互,都會涉及這種指示性的短語表達。所以理解它們并準確定位所描述的物體成為自然交互的必要條件。


指示表達理解的問題可以被定義成:從圖片 I 里的各個物體〖O={o_i }〗_(i=1)^N 中選出那個「最」能被指示表達 r 貼切描述的物體 o^*。過往在此問題上的研究可以分為兩類:基于 CNN-LSTM 的框架建模的 P(r|o),以及基于聯合概率框架建模的 P(r, o)。本文使用后者。


模型與方法


文章對數據集進行統計后發現根據目標物體和其他物體的差異性,對它的指示表達可以涉及不同類型的信息。例如,如果目標物體為十個黑球中的一個紅球,那么對它的指示表達可以很簡單得說「紅球」。如果相同的紅球被放在其他三個紅球中,那么基于位置的信息可能變得更加重要,例如「右邊的紅球」?;蛘?,如果在場景中有 100 個紅球,那么球與其他物體之間的關系可能是最明顯的信息,例如「貓旁邊的紅球」。因此,將指示語句的理解模型進行模塊化分析便顯得非常自然直觀。本文利用主語,位置和關系模塊來解析輸入的指示語句,然后觸發不同的視覺模塊進行處理。


本文提出的模塊化注意力模型 (MAttNet) 如圖 1 所示。模型首先將輸入的指示表達分解成三個短語表征,作為三個視覺模塊的輸入,這些視覺模塊用不同的注意力模型分別計算與其對應的短語的匹配分數。最后,三個模塊的匹配分數的加權總和成為整體匹配得分。整個模型可以無縫鏈接 Mask R-CNN 框架,因而可以做目標定位和目標分割兩個任務。


具體來分析模型的細節。首先是自然語言的分解模塊,作者提出的 Language Attention Network(語言注意力模型)對輸入的指示表達進行主語,位置和關系的三個模塊的拆解。每個拆解后的成分會有兩個輸出,其一是該模塊的詞向量表征,其二是該模塊占整句句子的權重。然后是三個視覺模塊,給定某個備選物體 (candidate object),我們計算它與三個詞向量表征的匹配分數。其中,主語的視覺模塊抽取物體的 R-CNN 特征,并使用該模塊內部的軟注意力模型抽取與詞向量相關的區域,計算匹配分數;位置的視覺模塊抽取物體的位置特征,將其映射到高維空間后與位置詞向量進行匹配;關系的視覺模塊抽取其周邊其他物體的特征,使用多示例學習 (Multiple Instance Learning) 選取與關系詞向量最相關的周邊物體,計算得分。最后,三個匹配得分會和上述的三個權重進行內積,得到最終匹配得分。


圖 1:模塊化注意網絡 (MAttNet)


實驗結果


實驗中,首先為了和前文進行公平比較,使用了 VGG16 特征,在目標定位上超過前文~2%。配合上 Mask R-CNN 的特征后,優勢擴展為~7%。在目標分割上,基本達到前文最佳精度的兩倍。此外,模型具有很好的解釋性,作者展示了三個模塊各自注意到的相關單詞和視覺區域。如圖 2 所示。


結束語


指示表達的應用很廣,人與人的對話系統和人機交互系統都經常會涉及對圖片或場景里的某個目標物體進行自然語言的描述。從作者提供的 demo 來看,方向性的指示表達和對「人」這一類的指示表達,理解得都還比較準確;但對其他物體的指示理解還有進一步的提升空間。作者在提供的代碼的最后寫了一些 Notes,可以作為后續工作的思考方向。

 

圖 2:MAttNet 在 RefCOCOg 上的結果:第一列為原圖,第二列為輸入的指示表達與其分解結果,第三列為主語模塊的注意區域;第四列為主語模塊的 attribute 輸出;第五列為目標定位(藍筐);第六列為目標分割。


本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。
主站蜘蛛池模板: 久视频在线观看久视频 | 日日摸夜夜添免费毛片小说 | 成人高辣h视频一区二区在线观看 | 麻豆国产高清在线播放 | 翁熄粗大好爽 | 天天操天天射天天舔 | 国产精品福利影院 | 手机在线观看视频你懂的 | 国内视频在线 | 黄色操视频 | 日韩大片免费看 | 欧美精品亚洲精品日韩专区va | 日日夜人人澡人人澡人人看免 | 久久大香伊蕉在人线国产联合 | 国产日韩视频 | 午夜剧场欧美 | 国产日本欧美在线观看 | 性色生活片免费放 | 日本一本在线播放 | 又黄又爽视频好爽视频 | 午夜在线免费观看视频 | 日韩不卡免费视频 | 18一20岁一级毛片 | 国产成人免费福利网站 | 亚洲欧美一级久久精品 | 性欧美video超清 | 小明台湾成人永久免费看看 | 亚洲一二三在线 | 在线看片黄 | 中文字幕欧美在线 | 亚洲欧美另类在线视频 | 色综合日韩 | 国产99re在线观看只有精品 | 精品国产成人高清在线 | 老司机av| 国产三级乡下 | 亚洲国产精品网站久久 | 男女那个视频免费 | 立即播放免费毛片一级 | 国产成年人在线观看 | 特级黄a三级三级三级 |