輸入法語料庫進入“T”時代——競爭持續加劇
成都大勢管理顧問
守住輸入法陣地,就等于守住了爭奪用戶資源的機會。自中文輸入法誕生之日起,軟件商間的攻防戰就從未停止過。從“抄襲”口水戰,到互相屏蔽,再到對簿公堂,各輸入法廠商寸土必爭的姿態愈加佐證“網絡書寫”時代,輸入法終端對于互聯網企業的重要性。
回歸關鍵技術之爭
語料庫容量“貪婪”擴張
“敲入'mantiandaxue’,出來的正是'漫天大雪’,為什么不是'滿天大雪’,或者'漫天大學’?”網民小姚在網上提出了這樣的問題。
小姚不知道的是,輸入法如此“善解人意”的背后,決定性因素是一種名為“語料”的東西。日前,搜狗輸入法宣布,其語料庫容量已超1TB(1024GB),是傳統中文輸入法約40GB的30倍,而對于韓文、日文等語系,這更是“天文數字”。
“貪婪”的擴充語料庫、詞庫,正是輸入法廠家PK的重要武器。技術專家介紹,語料庫與詞庫為輸入法研發中的兩個重要指標,其中詞庫為輸入法提供了組詞造句的基本單位,而語料庫為輸入法提供了詞庫中詞語組合的方法和規則,同時通過自動挖掘的手段,語料庫還可以是詞庫詞源的重要補充。在目前以統計作為根基的輸入法世界里,語料庫的作用極為重要。比如,“建國大業”這一詞匯如果不在語料庫中出現,那么輸入法是無法憑空把這個詞創造出來的。一般來說,語料庫的容量越大、詞庫容量越大,則輸入效率、準確性越高。
業內人士分析認為,中文拼音輸入法已經成為中國網民在線書寫的重要工具。如何吸引用戶選擇自己的輸入法,成為各輸入法廠家競爭的焦點。其中,更精準、更快速地把互聯網“時髦”語言“表達出來”無疑是最重要的一項指標。顯然,擴張語料庫、詞庫是這些廠商要做的基本任務。
對此,各廠家都在加緊進行兩方面的工作,力圖讓語料庫爆炸增長:其一,發揮“人肉”的優勢,讓用戶貢獻;其二,通過搜索引擎抓取互聯網上的詞匯。對于前者,輸入法將其收集整理之后,形成類似的搜狗“細胞詞庫”;對于后者,輸入法搶先在“云計算”領域展開爭奪,通過不斷地抓取、挖掘、分析、篩選,將實時、海量的“流行語言”納入語料庫。
守住用戶電腦的右下角
廠商爭相敲擊的“利益算盤”
曾經,“抄襲”口水戰、對簿公堂甚囂塵上。如今,搜狗推出“巨無霸”的語料庫、QQ開始測試微博版的輸入法、百度也欲在手寫輸入和手機輸入法上“一展身手”。眾廠商意圖明顯地開始把精力回歸到技術層面,展開了產品的直接PK。
“爭奪用戶資源”,有業內人士表示,這是現在很多互聯網企業“爭奪用戶桌面右下角位置”的根本原因。
分析指出,輸入法在誕生之日起就主打免費牌。隨著互聯網的普及,像其他免費軟件一樣,如果輸入法實現巨大裝機量,占領用戶電腦右下角,背后可能出現同樣巨大的潛在商業價值。“其實,任何時候,網民的需求都是多元化的,惟一不變的是他們都會在線上。”而這個時候,小小的輸入法就具有十分重要的戰略價值。
據中國互聯網絡信息中心(CNNIC)日前發布的《第26次中國互聯網絡發展狀況統計報告》顯示,截至今年6月,我國網民規模已達到4.2億。面對這樣一個龐大的用戶群體,對應電腦用戶直接需求的工具軟件——輸入法,各廠家兵戎相見,也就不足為怪了。
“和這些應用軟件最不一樣的地方是,互聯網時代的輸入法可以直接反映用戶在想什么、在關心些什么。這相當于讓搜狐可以直接和1億多的網民溝通。我們可以每天給用戶更新詞庫,對于搜狐形成內容的新渠道,對搜狐未來的競爭力有很大的幫助。”搜狐董事局主席張朝陽的這番話或許直接點出了輸入法爭奪日益加劇的根本原因。
回歸關鍵技術之爭
語料庫容量“貪婪”擴張
“敲入'mantiandaxue’,出來的正是'漫天大雪’,為什么不是'滿天大雪’,或者'漫天大學’?”網民小姚在網上提出了這樣的問題。
小姚不知道的是,輸入法如此“善解人意”的背后,決定性因素是一種名為“語料”的東西。日前,搜狗輸入法宣布,其語料庫容量已超1TB(1024GB),是傳統中文輸入法約40GB的30倍,而對于韓文、日文等語系,這更是“天文數字”。
“貪婪”的擴充語料庫、詞庫,正是輸入法廠家PK的重要武器。技術專家介紹,語料庫與詞庫為輸入法研發中的兩個重要指標,其中詞庫為輸入法提供了組詞造句的基本單位,而語料庫為輸入法提供了詞庫中詞語組合的方法和規則,同時通過自動挖掘的手段,語料庫還可以是詞庫詞源的重要補充。在目前以統計作為根基的輸入法世界里,語料庫的作用極為重要。比如,“建國大業”這一詞匯如果不在語料庫中出現,那么輸入法是無法憑空把這個詞創造出來的。一般來說,語料庫的容量越大、詞庫容量越大,則輸入效率、準確性越高。
業內人士分析認為,中文拼音輸入法已經成為中國網民在線書寫的重要工具。如何吸引用戶選擇自己的輸入法,成為各輸入法廠家競爭的焦點。其中,更精準、更快速地把互聯網“時髦”語言“表達出來”無疑是最重要的一項指標。顯然,擴張語料庫、詞庫是這些廠商要做的基本任務。
對此,各廠家都在加緊進行兩方面的工作,力圖讓語料庫爆炸增長:其一,發揮“人肉”的優勢,讓用戶貢獻;其二,通過搜索引擎抓取互聯網上的詞匯。對于前者,輸入法將其收集整理之后,形成類似的搜狗“細胞詞庫”;對于后者,輸入法搶先在“云計算”領域展開爭奪,通過不斷地抓取、挖掘、分析、篩選,將實時、海量的“流行語言”納入語料庫。
守住用戶電腦的右下角
廠商爭相敲擊的“利益算盤”
曾經,“抄襲”口水戰、對簿公堂甚囂塵上。如今,搜狗推出“巨無霸”的語料庫、QQ開始測試微博版的輸入法、百度也欲在手寫輸入和手機輸入法上“一展身手”。眾廠商意圖明顯地開始把精力回歸到技術層面,展開了產品的直接PK。
“爭奪用戶資源”,有業內人士表示,這是現在很多互聯網企業“爭奪用戶桌面右下角位置”的根本原因。
分析指出,輸入法在誕生之日起就主打免費牌。隨著互聯網的普及,像其他免費軟件一樣,如果輸入法實現巨大裝機量,占領用戶電腦右下角,背后可能出現同樣巨大的潛在商業價值。“其實,任何時候,網民的需求都是多元化的,惟一不變的是他們都會在線上。”而這個時候,小小的輸入法就具有十分重要的戰略價值。
據中國互聯網絡信息中心(CNNIC)日前發布的《第26次中國互聯網絡發展狀況統計報告》顯示,截至今年6月,我國網民規模已達到4.2億。面對這樣一個龐大的用戶群體,對應電腦用戶直接需求的工具軟件——輸入法,各廠家兵戎相見,也就不足為怪了。
“和這些應用軟件最不一樣的地方是,互聯網時代的輸入法可以直接反映用戶在想什么、在關心些什么。這相當于讓搜狐可以直接和1億多的網民溝通。我們可以每天給用戶更新詞庫,對于搜狐形成內容的新渠道,對搜狐未來的競爭力有很大的幫助。”搜狐董事局主席張朝陽的這番話或許直接點出了輸入法爭奪日益加劇的根本原因。