與非網 8 月 27 日訊,昨日,阿里達摩院語言技術實驗室取得一系列突破,斬獲自然語言處理(NLP)領域 6 大權威技術榜單冠軍。
據介紹,參與競賽的 6 項自研 AI 技術均采用模仿人類的學習模式,全方位提升了機器的語言理解能力,部分能力甚至已超越人類。目前,這些技術均已大規模應用于閱讀理解、機器翻譯、人機交互等場景。
據悉,過去幾年,AI 在圖像識別、語音識別等方面已逐步超越人類水平,但在復雜文本語義的理解上,AI 與人類尚有差距,其主要原因就是傳統 AI 學習文本知識效率較低。
為此,業界提出了一種模仿人類的學習思路,即先讓 AI 在大規模的網頁和書籍文字中進行訓練,學習基本的詞法、語法和語義知識,然后再在固定領域內的文本上進行訓練,學習領域專有知識。
這一思想就是預訓練語言模型的核心創新。自 Google 提出模仿人類注意力機制的 BERT 模型以來,預訓練語言模型已成為 NLP 領域的熱點研究方向。
達摩院早在 2018 年就開始布局通用的預訓練語言模型,并逐漸將該思路拓展到了多語言、多模態、結構化和篇章文本理解和文本生成領域,如今已建立一套系統化的深度語言模型體系,其自研通用語言模型 StructBERT、多語言模型 VECO、多模態語言模型 StructVBERT、生成式語言模型 PALM 等 6 大自研模型分別刷新了世界紀錄。
其中,StructBERT 能讓機器更好地掌握人類語法,使機器在面對語序錯亂或不符合語法習慣的詞句時,仍能準確理解并給出正確的表達和回應,大大提高機器對詞語、句子以及語言整體的理解力。該模型以平均分 90.6 分在自然語言處理領域權威數據集 GLUE Benchmark 中位居第一,顯著超越人類水平(87.1 分)。
達摩院語言技術實驗室團隊表示:“實驗室的目標是讓 AI 掌握人類知識的基礎技術,預訓練語言模型的誕生使得 AI 像人一樣學習新知識成為可能,未來達摩院會全面對外開放這些技術,讓特定領域的 AI 變得更加智能。”
過去兩年,阿里獲得了 30 多項 NLP 領域頂級賽事世界冠軍,有 100 多篇相關頂會論文;阿里自然語言技術已在金融、新零售、通訊、互聯網、醫療、電力、客服等領域服務超十億用戶和數萬企業客戶。
疫情發生后,達摩院算法專家顧斐博士立即奔赴浙江省疾控中心,第一時間針對新型冠狀病毒基因進行特征分析,并推出多個算法模型。在序列比對過程中,達摩院對算法增加了分布式設計,有效提升比對效率;在病毒序列拼接階段使用分布式設計的 deBruijn 圖算法,變異病毒也能精準檢測。
另有報道,近日,為支持防汛,阿里巴巴達摩院 1 周內緊急升級遙感 AI 技術,開發出應用于防汛的水體識別算法,支持水利部相關監測與分析工作。在重點超警戒水位地區,處理影像數量比平時提升 5 倍,影像分析速度提升百倍。
過去,一條主干流的人工識別需要長達數月,不利于快速評估災情。通過達摩院遙感 AI 分析,可以將時長縮短到小時級,支持專家迅速判斷災害程度、劃定安全范圍并組織有序撤離。據悉,7 月以來,達摩院遙感 AI 已協助相關部門完成 262 個臨河房屋識別任務、149 個水體識別任務。