《電子技術應用》
您所在的位置:首頁 > 人工智能 > 業界動態 > 百度NLP十年:語言與知識全布局,重磅推出5款產品新發布、2大計劃

百度NLP十年:語言與知識全布局,重磅推出5款產品新發布、2大計劃

2020-08-25
作者: Synced
來源: 機器之心

  深度學習潮起仿佛還在昨天,百度 NLP 已走過了十年。

  人工智能是一門新興學科嗎?當然不是。但能讓 AI 技術被上億人每天使用到的,一定是走在最前端的公司。

  在國內,百度就是這樣一家公司。在人工智能最具挑戰性的方向——自然語言處理(NLP)上,百度一直擁有著技術優勢。8 月 25 日,在百度語言與知識技術峰會上,百度 CTO 王海峰向我們分享了這家公司在 NLP 領域的技術創新和產業實踐,同時也展望了未來的發展趨勢。

微信圖片_20200825134016.png

  在這個七夕,百度還向我們發布了不少 NLP「爆款」。

  「語言與知識技術是人工智能認知能力的核心。2010 年,百度成立自然語言處理部,十年間不斷發展壯大,」王海峰表示,「在百度語言與知識技術的布局和發展中,我們始終注意把握兩個趨勢,即技術發展趨勢和產業發展的趨勢,并力爭引領趨勢。」

  隨后,王海峰全面分享了百度語言與知識技術的完整布局和最新成果。

  十年堅守,一路領先

  經過了十余年的發展,百度已形成了完整的 NLP 技術布局,包括知識圖譜、語言理解與生成技術,以及應用系統等。知識圖譜包含概念圖譜、實體圖譜等不同類型的圖譜,以及知識挖掘、索引、存儲到知識推理計算的一整套知識相關的技術和平臺。語言理解包括基礎的詞法分析和句法分析技術,也包括篇章理解、對話理解、情感分析和語義理解等技術。而語言生成則覆蓋了從句子、摘要到篇章各種類型的生成技術,以及語言風格轉換技術。

  全球最大知識圖譜

  首先是知識圖譜。知識圖譜是以結構化的形式描述真實世界中的實體、屬性、關系等,是機器認知世界的重要基礎。百度很早看到了知識圖譜蘊含的潛力,王海峰等人也在自然語言處理部成立之后不久就敲定了在知識圖譜技術上的研發投入。2013 年,百度 NLP 就已經開發出了垂類知識圖譜。

  知識圖譜的搭建依賴大量數據,而百度搜索引擎所蘊含的多源異構大規模數據為知識圖譜的發展提供了天然土壤。此外,百度還創建了一整套構建知識圖譜的方法,包括無標簽大數據開放知識挖掘技術、知識體系自擴展的知識圖譜自學習技術以及融合多源異構數據的知識補全和知識挖掘技術。

  基于這些技術,百度創建了世界上最大規模的知識圖譜。這個知識圖譜擁有超過 50 億實體和 5500 億個事實。

  除了在百度搜索等各類產品中的使用之外,百度的知識圖譜還開放給金融、能源、媒體、政務、教育、司法等各行各業使用,每天的調用量已超過 400 億次。

  語言理解領跑全球 NLP 領域

  有了知識之后,下一個問題就是如何基于知識實現語言理解的增強。

  首先是基礎的語義表示。百度提出的知識增強語義理解框架 ERNIE 以知識增強和持續學習為核心創新點,在深度學習的基礎上融入了知識,通過持續學習技術不斷吸收海量數據中的詞匯、結構、語義等方面的知識。在最具影響力的 NLP 評測基準 GLUE 上,ERNIE 在 10 個任務中的平均得分首次突破 90,刷新了榜單最高分,超越了人類水平。

  再來看持續學習的效果。在基線系統的基礎上,百度通過持續學習機制為 ERNIE 系統增加了百科知識、對話知識、篇章結構知識等,使得模型性能得以持續提升。

  有了知識圖譜和語義表示之后,下一步就可以做語言理解。以下圖紅框中一句話為例,如何利用這段話推斷出「但使龍城飛將在,不教胡馬度陰山」這首詩的作者?這段話包含兩個名字(「李廣」和「王昌齡」),如果隨機選擇一個作為答案,正確率只有 50%。為了找到正確答案,百度 NLP 將知識作為背景信息融入文本語義表示,增強了模型的語義推理能力。這項閱讀理解技術在 EMNLP-MRQA 2019 評測中獲得冠軍,取得了 10 項任務的第一名。

  除了文本閱讀理解之外,對話可能是更為常見的一種自然語言理解任務。如何做好對話理解呢?百度 NLP 提出的方法是:先從大規模跨任務對話知識中學習通用的語義表示,再利用小樣本學習快速提高新任務的對話理解能力。小樣本學習可以解決新領域語料數據不足的難題。

  人認知世界的時候不僅僅是用自然語言,往往是多模態的語音、視覺、語言,各種信號都會有輸入。因此,百度 NLP 的研究也從自然語言擴展到跨模態的語義理解。突破跨模態語義理解技術面臨兩大難題:一是不同模態的信息相互獨立,彼此缺乏關聯;二是不同模態的信息異構,語義空間難以融合。

  針對這些難題,百度 NLP 提出了知識增強的跨模態深度語義理解方法,一是從多源異構大數據中構建大規模知識圖譜,作為關聯跨模態信息的橋梁;二是語言可以描述不同模態信息的語義,通過知識增強的自然語言語義表示方法,解決不同模態語義空間的融合表示難題,從而突破跨模態語義理解的技術瓶頸。

  這些技術突破為人們接觸最多的百度搜索引擎帶來了很多變化。「傳統的搜索引擎通過關鍵詞進行簡單的需求理解,其核心是排序。而近年來,百度搜索已經完全進化成了智能搜索引擎。」王海峰說道。

  現在,你的輸入不僅可以是一個詞、一句話,也可以是語音、圖片。這涉及到語言理解和跨模態理解,還需要將互聯網上大量的內容與其連接起來,而搜索結果的排序現在也是基于深度學習和語義表示融合的方法。

  在結果的呈現上,很多時候搜索引擎給出的答案圖文并茂,這背后則是知識圖譜技術的支撐。

  語義理解之外,最近 NLP 領域發展較快的方向是語言生成。基于預訓練模型等技術,百度提出了基于多流機制的語言生成預訓練方法,兼顧詞、短語等不同粒度的語義信息,顯著提升了生成效果。百度也探索了多文檔摘要生成,通過圖結構語義表示,引入篇章知識,新的模型解決了跨文檔領域關系建模難題。在單文檔和多文檔摘要上,都取得了很大的效果提升。

  從內到外的 AI 技術滲透

  有了知識、語言理解和生成,我們就可以實現自然的人機對話。在基于知識的對話框架下,基于知識,理解對話意圖,規劃對話路徑。同時,基于用戶的反饋,機器可以學習和積累知識,不斷提高對話的體驗和效率;百度提出了知識圖譜驅動的對話控制技術,利用知識圖譜提供的語義內容和關聯信息,幫助對話系統自動規劃話題路徑,知識之間的關聯使得話題可以自然切換,顯著提高對話流暢度和邏輯性。

  在對話生成方面,百度研發了首個基于隱空間的大規模開放域對話模型,借助隱空間建模不同的對話回復方式,在對話合理性、內容豐富度、吸引力等方面效果突出,中英文效果上都超越了業內最佳的模型和系統。

  「在基于知識的對話框架里,我們實現了在線交互學習,通過主動向用戶發起交互,機器可以利用用戶的反饋學習新知識,持續優化對話效果,」王海峰說,「整合上述技術,我們研制了智能對話定制與服務平臺,可以幫助開發者高效構建智能對話系統,實現規模化應用。」

  人工智能和 NLP 的經典難題——翻譯問題,百度也在不斷打磨。

  百度自 2010 年開始研發大規模互聯網機器翻譯,在大規模翻譯知識獲取、翻譯模型、多語言翻譯、同聲傳譯等方面創新突破,研發了領先的互聯網翻譯系統,率先上線互聯網神經網絡機器翻譯,實現了機器翻譯的大規模產業化應用。在機器翻譯技術方面,百度提出了多智能體聯合學習等多項創新技術,效果領先,并在國際評測中獲得第一。

  AI 同聲傳譯方面,百度首次提出了基于語義單元的同傳模型,結合全局話題及上下文信息進行翻譯,實現了高質量低延時的同聲傳譯系統,達到了與人類翻譯相當的水平。針對很多語種數據稀缺的問題,百度提出了稀缺語種分組混合訓練算法和多語言聯合編碼框架,實現了 200 多種語言之間的翻譯。截至目前,百度的翻譯系統已支持 200 多種語言,每天響應超過千億字符的翻譯請求,支持超過 40 多萬家第三方應用。

  「復雜知識表示和快速構建技術,知識與深度學習進一步的融合,融合感知與認知的跨模態語義理解技術,模型可解釋性和魯棒性等方面,仍有很多技術難題需要研究和解決,」王海峰表示。「但我們對未來充滿信心,百度會繼續探索讓機器掌握知識、理解語言、擁有智能的能力。」

  5 款產品新發布、2 大計劃

  除了這些技術的總結和展望之外,在這次活動中,百度還一口氣發布了文心、TextMind、AI 同傳會議解決方案 3 款新產品,智能創作平臺面向媒體的 3 個場景方案,智能對話定制與服務平臺 UNIT 的 3 項全新升級以及數據共建和算力共享計劃。

  語義理解技術與平臺「文心」

  首先是 NLP 的核心語義理解。目前使用機器做文本處理的需求廣泛存在,通用算法 API 已無法滿足一些場景,而傳統深度學習處理特定任務的方法則需要專業人員花費大量時間打造。文心基于深度學習平臺飛槳打造,其目標是幫助企業開發者更低成本、更方便地將最新的語義理解技術應用于自己的場景。

  今天所說的「文心」,「是以刷新各項 NLP 任務記錄的 ERNIE 核心技術為依托,集成優秀的預訓練模型、全面的 NLP 算法集、端到端開發套件和平臺,提供一站式 NLP 開發與服務。」百度集團副總裁吳甜表示。

  使用這個工具有多方便?吳甜現場以一個情感分析任務為例,將標注好的 100 條商品評論傾向性數據導入到平臺(文心也提供智能標注能力),隨后選擇預訓練模型和算法,點擊任務提交,模型開始訓練。訓練結束后,平臺會對模型效果進行自動評估。最后,訓練好的模型可一鍵發布,開發者可通過 API 服務直接進行調用。

  文心全面降低 NLP 定制開發成本,將減少開發者 90% 數據標注量、90% 算力投入、85% 模型開發時長。

  百度表示,文心在各類真實場景中淬煉,已具備領先的工業級應用實力。目前,文心廣泛用于百度產品中,累計支持業界開發者超過 2 萬名,應用場景覆蓋金融、通信、教育、電商等各行各業,顯著提升企業 NLP 應用效果和效率。

  智能文檔分析平臺 TextMind

  有可供開發定制模型的平臺,也有普通人直接可以上手的 AI 辦公套件。百度發布的 TextMind 是一款企業文檔分析平臺,目前已提供包括文檔解析、文檔比對、文檔審核在內的一站式解決方案。

  這款工具的特點簡單說來就是「多快好省」:它支持多達 20 類文檔、6 種格式;可以讓之前需要 3-5 個工作日的工作 1 分鐘完成;預置文檔解析能力,企業開箱即用,實現零門檻定制;在文檔規范化解析應用之后,公司相應的人力成本可以降低 80% 以上。

  除了語言理解,還有可以生成內容的產品。2019 年初,百度智能創作平臺上線,目前在媒體等行業已有很多應用。本次平臺的升級面向媒體推出 3 個場景方案,可以讓 AI 幫媒體人更好地進行創作。

  智能創作平臺

  此前,百度的智能創作平臺已具備豐富的輔助創作和自動創作能力,廣泛服務于內容創作機構與個人。在上線之后的 4 個多月里,圖文轉視頻功能已被 7000 多家用戶使用,自動創作短視頻超過 15 萬條,相當于一個人 100 年的工作量。一年多以來,AI 的自動創作文章也已累計超過 200 萬篇。

  具體來說,百度的創作工具已得到了 20 多家媒體的應用,包括人民日報,央視網等。在合作的過程中,百度積累了更多經驗,本次推出的新版本包含智能策劃、智能采編和智能審校 3 大場景方案。

  智能對話定制與服務平臺 UNIT

  對話方面,智能對話定制與服務平臺 UNIT 推出三大升級,進一步降低任務式對話、智能問答的定制成本,并融合通用對話能力,提升交互體驗。

  UNIT 任務式對話理解,通過升級了小樣本意圖理解能力,并新增了詞槽值口語化同義詞的自動推薦、詞槽修飾關系的自動識別,數據標注成本進一步降低了 30% 以上。

  表格問答能力,讓開發者只需要上傳業務數據表格,「只需 1 分鐘的自動分析,UNIT 生成的問答機器人就可以準確回答大部分事實型問題。再進行 1 小時左右的人工調優,問答機器人可以達到以往至少通過 2 周人工整理 FAQ 建設才能達到的問答系統水平。」吳甜說道。UNIT 不僅集成了業界領先的通用對話技術 PLATO,還推出新一代融合任務式對話和通用對話的引擎,讓對話系統不僅干練辦事,還能順暢交互。

  AI 同傳會議解決方案

  與其他公司需要一些專業設備的方式不同,百度的 AI 同傳可以讓你只用一臺電腦,一部手機,就快速搭建起一套同傳服務。

  「無論線上遠程會議室還是線下會議,主題演講還是多人討論,使用百度的解決方案,每一場會議都能做到讓人彼此聽懂,」吳甜介紹道。「在邀測期間,這項技術已經支持了上百場會議,覆蓋數十個領域,是一套經過了實踐檢驗、成熟可靠的解決方案。」

  在會議的每一個環節,百度的服務都不缺席。在會議開始前,百度同傳可以根據會議涉及的特定領域進行術語定制,以應對專業議題中獨有的釋義,提高準確度。在會議中,百度的工具支持雙語字幕投屏和手機邊聽邊看。而且在正在進行的講話中,人們也可以隨時進行術語釋義修改,結果實時生效。在會議結束后,系統還會自動生成會議記錄,并保存到網盤中。

  百度不僅提供成型的工具,也歡迎開發者在算法等組件的基礎上自行開發——AI 同傳中使用的技術,已經同步面向所有人開放。

  數據共建與算力共享計劃

  除產品新發布之外,百度技術委員會主席吳華在峰會上公布了千言數據共建計劃和百度語言與知識算力共享計劃。

  百度聯合中國計算機學會、中國中文信息學會發起全球最大中文自然語言處理數據共建計劃——千言,解決數據稀缺問題。千言一期由來自國內 11 家高校和企業的數據資源研發者共同建設,已涵蓋開放域對話、閱讀理解等 7 大任務,20 余個中文開源數據集。百度技術委員會主席吳華表示,“我們計劃在未來 3 年,面向 20 多個任務,收集和建設不少于 100 個中文自然語言處理數據集,覆蓋語言與知識技術全部領域。”

  吳華還發布了百度語言與知識技術算力助力計劃,通過百度 AI STUDIO 平臺提供算力支持,讓廣大開發者破除算力桎梏,專注于技術創新。

  百度 NLP 強大的技術,離不開過硬的人才支撐。在這十多年的時間里,百度 NLP 聚集了一大批兼具扎實技術實力和實踐經驗的 AI 人才。在這次活動中,百度首次向業內介紹了這家公司 NLP 十年的「代表人物」。

  百度 NLP 十年十人

  2010 年 1 月,自然語言處理領域知名專家王海峰博士加盟百度,成立了「自然語言處理部」。「立足百度,扎根中國,胸懷世界,成為有豐富產出及廣泛影響力的國際一流自然語言處理研發團隊」是當時立下的愿景。

  十年征程,百度語言與知識技術發展歷程中培養、吸引了大量全球頂尖人才。會上,百度推出以王海峰為代表的百度 NLP“十年十人”,他們是:

  王海峰,百度首席技術官,ACL 主席(2013),AACL 創始主席,ACL Fellow,中國中文信息學會副理事長。

  Kenneth Church,Baidu Research Fellow,ACL 主席(2012),ACL Fellow,EMNLP 創始人。

  呂雅娟,百度高級科學家知識圖譜技術負責人、中國計算機學會中文信息技術專委會副主任(2015-2019)。

  吳華,百度技術委員會主席,ACL Program Chair(2014)。

  黃亮,百度杰出架構師、IDL(美國)主任,ACL Area Chair (2012, 2014, 2018, 2019)。

  吳甜,百度集團副總裁。

  趙世奇,百度 MEG 用戶產品策略平臺負責人,ACL 秘書長(2016-2020)。

  田浩,百度研究院首席架構師。

  何中軍,百度人工智能技術委員會主席。

  于佃海,百度飛槳平臺總架構師。

  十年堅守,他們堅持技術信仰,勇攀技術高峰,致力于讓機器掌握知識、理解語言、擁有智能,更好地服務于人們的生產、生活。以他們為代表的百度語言與知識技術團隊取得了豐碩的成果,獲得包括國家科技進步獎在內的 20 多個獎項,30 多項國際競賽冠軍,發表學術論文超過 300 篇,申請專利 2000 多項。「十年來,我們始終如一,用技術上的持續突破創新和應用上的碩果累累,踐行了我們的使命,實現了我們的愿景。」王海峰表示。

  讓我們期待百度大腦語言與知識能力帶來更多驚喜,為技術和社會進步做出更大貢獻。

編輯:澤南、張倩

 

本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。
主站蜘蛛池模板: 成人在线观看不卡 | 欧美一区二区在线播放 | 麻豆国产在线视频 | 午夜一级毛片看看 | 国产国产成人精品久久 | 国模在线视频一区二区三区 | 91亚洲综合| 你懂的免费在线观看 | 美女羞羞视频网站 | 亚洲日本一区二区三区在线不卡 | 欧美在线一区二区三区 | 欧美三级黄视频 | 国内精品视频一区 | 荡女淫春未删减在线观看 | 国产无遮挡床戏视频免费 | 国产免费一区二区三区在线观看 | 一级一黄在线观看视频免费 | 免费看欧美一级特黄α大片 | 永久免费看 | 国产精品莉莉欧美自在线线 | 玖玖成人网 | 欧美日韩亚洲国内综合网俺 | 狠狠久久综合伊人不卡 | 最近高清中文字幕大全1 | 国产69精品久久久久9牛牛 | 91在线视频免费播放 | 国产一级久久免费特黄 | 天天干天天舔天天操 | 中文字幕亚洲一区二区va在线 | 曰批全过程免费视频播放网站 | 国产成人乱码一区二区三区在线 | 男女羞羞的视频网站在线观看 | 黄色樱桃试色免费 | 色综合 成人| 99re九精品视频在线视频 | 日韩欧美一区二区久久 | 免费香蕉一区二区在线观看 | 丝袜视频在线 | 99久久999久久久综合精品涩 | 免费黄色在线 | 国产日韩一区 |