日常溝通與文字最大的不同點在于我們擁有的語調與節奏,而谷歌最新的人工智能翻譯原型不僅能翻譯書面上的意思,連聲音的音調與節奏也能一并拿下。
這個系統被稱為Translatotron,谷歌的研究人員在最近的一篇博客中詳細介紹了它的工作原理。他們并沒有表示Translatotron很快就會進入商業領域,但這很可能會實現。正如谷歌的翻譯主管今年早些時候向The Verge解釋的那樣,該公司目前的目標是為其翻譯工具添加更多的細微差別,創造更逼真的語音。
雖然捕捉人類聲音的變化對外行人來說是最令人印象深刻的,但Translatotron對人工智能工程師的吸引力在于,它可以直接將語音從音頻輸入轉換為音頻輸出,而無需將其轉換為通常的中間文本。
這種人工智能模型被稱為端到端系統,因為輔助任務或操作沒有停止。谷歌說,讓端到端的翻譯更快地產生結果,同時避免了在多個翻譯步驟中引入錯誤的風險。
更有趣的是,模型處理的數據不是原始音頻。相反,它使用光譜圖數據,或聲音的可視化詳情。從本質上說,這意味著我們相當于在用圖片的形式把一種語言翻譯成另一種語言,這令人難以置信。
盡管谷歌經常推出新語言和翻譯工具,但它們的表現往往不如預期那樣,包括現在這個人工智能模型,其適應性和準確性仍有待考究,但人工智能一直在前進,未來也將會越來越好。
本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。