9181.cn
登陸 | 注冊 | 會員付費| 名片翻譯| 身份證翻譯 | 駕駛證翻譯 |翻譯機API | 資訊 | 幫助 | 人名錄 | 機構譯典 | 街路名錄
首頁 規則討論 詞匯資源 機構實名 地名目錄 人名目錄 綜合資訊

谷歌google翻譯的中國基因
2011/5/3 16:06:00    【 】   瀏覽:12260
   

2004年,Google創始人之一Sergey Brin使用市面上的網絡服務來翻譯韓國粉絲發來的郵件,結果顯示:“生魚片帶著它的愿望,用Google搜索綠洋蔥!”這樣的結果,讓Sergey認為Google在這方面可以做的更好。

  不久前,Google翻譯發布了iPhoneAndroid版本,讓用戶能夠隨時使用翻譯服務,更加輕松便捷地跨越語言障礙。該手機應用可以識別15種語言的語音輸入,朗讀或全屏顯示23種語言的翻譯結果。對于非拉丁字母語言,例如中文和日文,應用將標注拼音或羅馬字讀音,便于非母語用戶讀出。與Google翻譯的桌面應用相同,移動翻譯也能夠翻譯58種語言書寫的字詞和短語。

  移動翻譯設置了一些常用內容的翻譯收藏,即便在沒有互聯網連接的情況下也可讀取,實時翻譯則需通過WiFi或移動網絡連入Google云端獲取結果。這款產品對于很多用戶來說非常方便,如果身在國外,不知道某句話用外語該怎么說,只需打開程序,把想說的話念給手機,然后點擊“翻譯”,手機就可以把譯文朗讀出來。

  基于統計的機器翻譯

  Google翻譯產品在全球只有兩個團隊,一個是在Google總部,另一個就在中國上海。“Google翻譯在上海成立,主要因為當初有兩個人喜歡做翻譯,其中一個就是尹俊(Google翻譯產品研發領導,作者注),他可謂是Google上海翻譯團隊的創始人。通過美國翻譯團隊開展合作,上海的翻譯隊伍越來越大,現在已經達到十幾人的規模。目前美國總部的翻譯團隊主要負責后臺的平行語料數據,上海翻譯團隊負責手機、桌面電腦翻譯應用的開發。 Google的創新模式常常是自下而上的,工程師可以在工作中發揮個人興趣,如果做出成績,就有可能凝聚逐漸擴大成一個團隊。”在陳雍昇看來,上海團隊的建立要歸功于Google的創新模式。

  現今大部分的商業翻譯系統都是屬于規則法機器翻譯,需要做大量詞匯與語法的工作。Google翻譯則采取基于統計的機器翻譯,這是IBM科學家在1993年提出的理念,具有劃時代的意義。Google現在支持58種語言的互譯,翻譯團隊的成員們掌握的語言遠少于這個數字,這也是統計翻譯的魅力所在。統計翻譯的具體原理是,先往計算機里輸入大量的文字文本,搭建涵蓋源語言和目標語言的平行語料庫,構建統計翻譯模型。這些模型可以幫助Google在源語言與目標語言中尋找各種相互關系,得出某些特定單詞、短語或文件的最佳翻譯結果。針對某種特定語言,Google翻譯分析的翻譯文檔越多,譯文的質量就越高。據陳雍昇介紹,Google翻譯主要有四個步驟:

  首先,系統需要將源語言句子切分為短語,這是一門復雜的學問。英文單詞之間有空格,中文句子則不然。由于統計翻譯系統本身并不具備理解自然語言的能力,在面對“汽水不如果汁好喝”這個句子,“不如”和“如果”都是一種劃分可能;其次,不同語系的組織形式有很大差別,研發人員必須通過對平行語料的分析來處理詞匯的排序問題。分析平行語料是建模過程,翻譯則是利用模型的過程,前者的算法往往比后者復雜;然后,系統需要分辨同一個詞的不同形態,例如過去式和現在分詞,這是一個判斷的過程;最后,將構成目標語言的詞匯合理聯結起來。

  Google目前能夠翻譯58種語言,如果按排列組合來算,理論上需對應近3000種平行語料,事實上Google翻譯的語料庫遠沒這么多,所以很多語言之間的翻譯是經過“橋接”的,這在機器翻譯中是一種常見技巧。打個形象點的比方吧,目前法英互譯的質量肯定比法漢互譯要好,如果遇到法譯漢的需要,翻譯系統可能采取迂回戰術,先將法語翻譯成英語,再從英語到漢語。比如Google翻譯中關于泰文和希伯來文的平行語料較少,但卻能夠提供這兩種語言的翻譯,據陳雍昇透露,“這種偏僻語系的互譯十之八九是經過橋接的”。

  “提高翻譯質量是一個多管齊下的技術。翻譯的質量最主要的還是需要收集平行語料,此外,如果在建模方面可以找到更好的匹配算法或拆分算法,雙管齊下效果更好。”陳雍昇打了個巧妙的比方,“平行語料好比食材,只有材料夠好,廚師的手藝也夠好,而且也有一些調味料的情況下,才能做出美味的菜肴。”

  移動翻譯——“20%項目”的產物

  Google有個20%項目,允許員工拿出20%的工作時間,用來從事本職工作以外的項目,這樣就能開發出更多種類的產品,移動翻譯可以算作Google20%項目”的產物。

“最初移動這方面有幾個因素,第一個就是因為大家都說移動是未來,這我相信。第二,發生了一個小故事——有個同事做出了手機網頁版的移動翻譯,并且發布出去,結果那段時間我們的流量呈幾何倍數的瘋漲。”這使陳雍昇意識到移動搜索的市場需求之大。

  他開始在上海研發中心游說,問誰愿意做這個項目的義工。朱文章(Google翻譯iPhone主導工程師,作者注)對手機應用很感興趣,就在正活之外進行iPhoneGoogle翻譯的研發,只用兩天時間就做出了產品雛形。“我們第一個手機翻譯產品的就是這樣誕生的,”談起移動翻譯,陳雍昇的自豪之情溢于言表。

  上海團隊、美國團隊對于產品雛形都很滿意,并且為朱文章加撥了人力支持。大概兩三個季度后,由朱文章領導開發的iPhoneGoogle翻譯正式發布。在超過一周的時間里,它一直是全球排名第一的免費軟件。

  理論上來講,Google能在電腦端能夠多少語種的互譯,也能在手機端提供那么多。而在實際情況中,移動翻譯提供多少語種的語音翻譯,取決于其支持多少語種的語音識別。語音識別需要龐大的數據來源,才能建立很好的分辨模型,對此Google早有準備。2007年,Google開始提供GOOG-411) 處理語音搜索。雖然GOOG-411并非Google的重要收入來源,但它為研發人員收集了海量數據,使之能夠不斷完善語音識別算法。一年后Google 推出的語音搜索,足以比肩其他公司歷時數年才搭建起來的類似系統。據Google稱,這款語音搜索服務為Google Android和蘋果iPhone等智能手機平臺上“更多富有野心的服務提供了基礎”。例如,裝有Froyo軟件的Android用戶可通過語音控制手機的絕大部分功能,而Google推出的iPhone應用也內置了語音識別功能。

  Google 201010月關閉了這項服務,并在聲明中表示,計劃將相關資源投入到“使下一代Google產品和服務支持多語種語音的技術”中,我們現在看到的語音翻譯即是成果之一。可以預見,語音識別未來將成為Google更多服務的特性。

  雖然移動翻譯接收的源語言多數具有口語化的特點,在陳雍昇看來,這對翻譯質量并不會造成太大影響。首先,用戶使用語音翻譯時,對自己要講的內容一般都有明確的認識,所以語句的流暢程度跟桌面翻譯的差異不大。其次,人們使用語音翻譯時的說話方式不同于演講,多數情況下語句簡短,對于語音翻譯來說不難應對。 “二者最大的差異在于用戶體驗方面。電腦鍵盤使用很方便,而手機鍵盤很小,我們必須想辦法方便用戶輸入源語言。此外,語音翻譯的使用環境可能跟辦公室有較大區別,相對于口語中偶爾出現的停頓和重復現象,外界雜音對翻譯質量的影響更大,所以我們得過濾不必要的訊息。”

  過濾雜音的任務多由翻譯程序完成,研發人員可以設定一個音量閾值,將低于此值的雜音篩掉。此外,如果語言出現停頓,將其作為句子結束還是“正在考慮、尚未說完”來處理,也是翻譯程序可以決定和控制的。再者,“如果用戶說錯了一兩個字該怎么處理?讓其重說一遍還是直接修改那一兩個字,這些用戶體驗方面的問題,都可以通過完善翻譯程序來提升。”

  陳雍昇表示,“除了之前的語音搜索,Google有很多產品用到語音方面的功能。在用戶使用這些產品的過程中,研發人員會根據用戶反饋不斷完善產品的算法。經過一輪一輪的迭代,產品質量自然而然會有所提高。” 然而,Google目前的文字翻譯系統尚有許多語法錯誤,其語音識別技術能否應付各種各樣的地方口音,用戶們的體會最深刻。


Tags:谷歌google翻譯的中國基因
】【打印繁體】【關閉】 【返回頂部
上一篇全國翻譯專業學位教育2011年年會在廈門召開 下一篇google翻譯走在智能翻譯的路上
會員名   注冊會員
密    碼
內    容
驗證碼
                     

暫沒評論!

綜合資訊欄目導航

綜合資訊最新資訊

站內搜索

安徽十一选五开奖结果查询