基于深度學習的詞語級中文唇語識別 | |
所屬分類:技術論文 | |
上傳者:aetmagazine | |
文檔大小:653 K | |
標簽: 唇語識別 ResNet Bi-LSTM | |
所需積分:0分積分不夠怎么辦? | |
文檔介紹:在無聲或噪聲干擾嚴重的環境下,或對于存在聽覺障礙的人群,唇語識別至關重要。針對詞語級中文唇語識別的問題,提出了SinoLipReadingNet模型,前端采用Conv3D+ResNet34結構用于時空特征提取,后端分別采用Conv1D結構和Bi-LSTM結構用于分類預測,并引入Self-Attention、CTCLoss對Bi-LSTM后端進行改進。最終在新網銀行唇語識別數據集上進行實驗,結果表明,SinoLipReadingNet模型在識別準確率上明顯優于中科院D3D模型,多模型融合的預測準確率達到了77.64%,平均字錯率為21.68%。 | |
現在下載 | |
VIP會員,AET專家下載不扣分;重復下載不扣分,本人上傳資源不扣分。 |
Copyright ? 2005-2024 華北計算機系統工程研究所版權所有 京ICP備10017138號-2