18禁小说,管理书籍排行榜,古风君子以泽,有声小说在线收听网

第60章 給詞語一個向量-《學霸的黑科技時代》


    第(2/3)頁

    一個是詞不達意。無論是英語還是漢語,通常會有多種意思,在不同的語境中有不同的解釋,但是機器翻譯并不能完全了解人類表達的意思。很多時候單詞的詞語意思準確,但是放在句子中笑話百出。

    還一個是無法識別人類的語音。這主要出現在翻譯機上,每個人有很多種口音,生活中的對話有很多的俚語,人和人之間對話時絕對不可能像央視主播那樣每句話都是語言要素齊全,語音標準。

    機器翻譯在很多時候都會撿著聽得懂的翻譯,聽不懂的亂翻譯。這也是很多品牌的翻譯機拿到國外去應用的時候讓顧客感到并不順心,翻譯機更不能作為會議同聲翻譯的原因。

    為了處理上面兩個主要問題,蕭銘按照說明書的建議項,編輯著。

    蕭銘采用數學的思維,將每個詞語設定為向量,并且分類為名詞、動詞等等。

    將詞語設定為向量的好處就是講長難句進行肢解,翻譯軟件處理時會將每個詞語準確的翻譯。

    接下來就是按照語言的語境篩選組合,將不同的詞語按照翻譯對象需要的語法和含義進行組合,并對缺少的語法要素進行補足。

    在盤古編程語言的提示下,蕭銘知道自己編程的邏輯是正確的。

    但是邏輯正確只是第一步,怎么讓擁有向量的詞語按照語法組合為新的語句,這個很難,這也是現代翻譯軟件和機器最大的難點。

    沒有關系,這是盤古最擅長的。

    盤古給了蕭銘幾個接入入了口。

    蕭銘將導入大量的中英文資料,資料不僅有名著更有口水話表達的網路小說、貼吧問答、微博、推特文章等等。

    未來這些資料會可以由用戶們自己上傳,優化程序的準確性。

    盤古的數據庫能將整合這些資料,熟悉每一個句子的語境,然后整理出數據模型(模擬出漢語和英語等人類思維表達方式的模型)。

    這些數據會幫助“詞向量”在不同的語境和語法中出現在合適的位置,如此翻譯會更加準確。

    這項工作最大的難點就是編譯量非常大!

    所以現今市面上現存的翻譯軟件都是采用語言學家總結的語法庫,即便有少部分軟件有自我學習功能,也不能做到了解和統計當今所有的語言習慣并對其作出分析。這也是現有翻譯軟件機械不智能錯誤百出的原因。

    剩下的一些接口,蕭銘將其接入全國各地的免費直播間,直播間主播有用普通話有用地方語言,也屬于口語的表達,最具有代表性。

    盤古語言將搜集各地的語音和語氣將其歸類編譯,最后形成語音數據庫和文字庫相對應。

    盤古編程使用方式很簡單,不需要輸入代碼,只需要告訴邏輯意圖,當蕭銘告訴邏輯和方式之后,編程語言就可以明確運行。
    第(2/3)頁