《電子技術應用》
您所在的位置:首頁 > 人工智能 > 業界動態 > 繪聲繪色:NVIDIA在Interspeech大會上分享情感語音合成研究成果

繪聲繪色:NVIDIA在Interspeech大會上分享情感語音合成研究成果

2021-09-01
來源:互聯網

  開發者和創作者可以使用最先進的對話式AI模型進行情感語音合成,為角色、虛擬助手和個性化形象生成聲音。

  AI已將合成語音從單調的機器人呼叫和傳統GPS導航系統轉變成智能手機和智能音箱中動聽的虛擬助手。

  但AI合成語音與我們在日常對話和媒體中聽到的人類語音之間仍有差距。這是因為人在說話時會有復雜的節奏、音調和音色,而AI很難在這些方面進行模仿。

  但這一差距正在迅速縮小。NVIDIA研究人員正在創建高質量、可控制的語音合成模型和工具,這些模型和工具能夠捕捉人類語音的豐富性,并且不會出現音頻雜音。

  NVIDIA研究人員目前正在INTERSPEECH 2021大會上展示他們的最新項目。本屆大會將持續到9月3日。

  這些模型有助于為銀行和零售商的自動客戶服務熱線配音、使視頻游戲和書籍中的人物變得栩栩如生,并為數字化身提供實時語音合成。

  NVIDIA的內部創意團隊甚至使用該技術為一個關于AI力量的系列視頻制作了動人的解說。

  情感語音合成只是NVIDIA 研究院在對話式AI領域的重點工作之一。該領域還包括自然語言處理、自動語音識別、關鍵詞檢測、音頻增強等。

  這些前沿工作經過優化后可以在NVIDIA GPU上高效運行,其中的一些工作已經通過NVIDIA NeMo工具包開放源代碼,可在NVIDIA NGC 容器和其他軟件中心獲得。

  I AM AI幕后花絮

  NVIDIA研究人員和專業創作人員并不是在針對對話式AI進行紙上談兵。他們通過身體力行,將突破性的語音合成模型應用于I AM AI系列視頻中。該系列視頻介紹了重塑各個行業的全球 AI 創新者。

  不久之前,這些視頻還都是由人類配音的。以前的語音合成模型對合成聲音節奏和音調的控制十分有限,因此AI配音無法喚起觀眾的情感反應,只有富有感情的人類聲音才能做到這一點。

  在過去的一年中,NVIDIA文本-語音研究團隊開發出更強大、更可控的語音合成模型(如RAD-TTS),使得上述情況發生了變化。NVIDIA在SIGGRAPH Real-Time Live比賽中的獲獎演示就采用了這個模型。通過使用人類語音音頻來訓練文本-語音模型,RAD-TTS可以將任何文本轉換成說話人的聲音。

  該模型的另一項功能是語音轉換,即使用一名說話人的聲音講述另一名說話人的話語(甚至歌唱)。RAD-TTS界面的靈感來自于將人的聲音作為一種樂器這一創意。用戶可以使用它對合成聲音的音調、持續時間和強度進行精細的幀級控制。

  通過這個接口,視頻制作者可以在錄制中自行閱讀視頻文本,然后使用AI模型將他作為男敘述者的語音轉換成女敘述者的聲音。制作者可以使用這個基準敘述,像指導配音演員一樣指示AI,比如通過調整合成語音來強調特定的詞語、修改敘述節奏以更好地表達視頻中的語氣 等。

  該AI模型的能力已超出了配音工作的范圍:文本-語音轉換可以用于游戲、為有聲音障礙的人提供幫助、或幫助用戶用自己的聲音進行不同語言的敘述。它甚至可以重現標志性歌手的表演,不僅能夠匹配歌曲的旋律,還能匹配人聲背后的情感表達。

  為AI開發者和研究者提供強大的語音功能

  NVIDIA NeMo是一款用于GPU加速對話式AI的開源Python工具包。研究者、開發者和創作者通過使用該工具包,能夠在自己的應用實驗和和微調語音模型方面取得先機。

  NeMo中易于使用的API和預訓練模型能夠幫助研究人員開發和自定義用于文本-語音轉換、自然語言處理和實時自動語音識別的模型。其中幾個模型是在NVIDIA DGX 系統上使用數萬小時的音頻數據訓練而成。開發者可以根據自己的使用情況對任何模型進行微調,運用NVIDIA Tensor Core GPU上的混合精度計算加快訓練速度。

  NVIDIA NeMo還通過NGC提供在Mozilla Common Voice上訓練的模型,該數據集擁有76種語言、近14000小時的眾包語音數據。該項目的目標是在NVIDIA的支持下,通過全球最大的開源數據語音數據集實現語音技術的普及化。

  語音技術的盛宴:NVIDIA研究人員展示AI語音技術的最新進展

  INTERSPEECH匯聚了1000多名研究人員,他們展示了語音技術方面的突破性進展。在本周的會議上,NVIDIA研究院將展示對話式AI模型架構以及供開發者使用的完全格式化語音數據集。

  請關注以下由NVIDIA 嘉賓帶來的相關演講:

  • 兼容任何場景的多麥克風語音去混響 —  8月31日(周二)

  • SPGISpeech:用于完全格式化端到端語音識別的5000小時轉錄金融音頻 —  9月1日(周三)

  • Hi-Fi多講話者英語TTS數據集 — 9月1日(周三)

  • TalkNet 2:用于語音合成(具有明確音高和持續時間預測)的非自回歸深度可分離卷積模型 — 9月2日(周四)

  • 使用稀疏隨機三元矩陣壓縮一維時間通道可分離卷積 — 9月3日(周五)

  • NeMo逆向文本正則化:從開發到生產 — 9月3日(周五)

  可在NGC目錄中搜索NeMo模型并收聽NVIDIA研究人員在 INTERSPEECH大會上的講座。




mmexport1621241704608.jpg


本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。
主站蜘蛛池模板: 成人毛片免费视频 | 一区二区视频在线免费观看 | 午夜黄视频| 天天做天天爽爽快快 | 国产精品亚洲欧美日韩一区在线 | 亚洲欧美韩日 | 人与禽的免费一级毛片 | 一一本大道香蕉大 | 色天使亚洲综合在线观看 | 国产精品久久成人影院 | freexxxxⅹhd18日本 | 黄色片在线免费播放 | 欧美日韩精品乱国产538 | 亚洲大尺度 | 成人高清视频在线观看大全 | 日本黄色免费在线观看 | 精品手机在线视频 | 高清性色生活片a | 最近中文字幕在线 | 一本久| 国产区精品福利在线观看精品 | 九九精品视频免费 | 天天干夜夜操美女 | 天天色综合2 | 波多野结衣中文一区二区免费 | 午夜私人影院在线观看 | 亚洲视频一二区 | 国产一区二区三区视频 | 星光影院网高清在线观看 | 国产美女在线一区二区三区 | 国内成人精品视频 | 国产成人手机在线 | 国产日韩欧美亚洲综合在线 | 黄色免费高清视频 | 亚洲午夜高清 | 最近2019中文字幕高清字幕 | 久久成人免费播放网站 | 黄色网址免费观看 | 极品色在线精品视频 | 操野逼 | 成人久久伊人精品伊人 |