输入法语料库进入“T”时代——竞争持续加剧
成都大势管理顾问
守住输入法阵地,就等于守住了争夺用户资源的机会。自中文输入法诞生之日起,软件商间的攻防战就从未停止过。从“抄袭”口水战,到互相屏蔽,再到对簿公堂,各输入法厂商寸土必争的姿态愈加佐证“网络书写”时代,输入法终端对于互联网企业的重要性。
回归关键技术之争
语料库容量“贪婪”扩张
“敲入'mantiandaxue’,出来的正是'漫天大雪’,为什么不是'满天大雪’,或者'漫天大学’?”网民小姚在网上提出了这样的问题。
小姚不知道的是,输入法如此“善解人意”的背后,决定性因素是一种名为“语料”的东西。日前,搜狗输入法宣布,其语料库容量已超1TB(1024GB),是传统中文输入法约40GB的30倍,而对于韩文、日文等语系,这更是“天文数字”。
“贪婪”的扩充语料库、词库,正是输入法厂家PK的重要武器。技术专家介绍,语料库与词库为输入法研发中的两个重要指标,其中词库为输入法提供了组词造句的基本单位,而语料库为输入法提供了词库中词语组合的方法和规则,同时通过自动挖掘的手段,语料库还可以是词库词源的重要补充。在目前以统计作为根基的输入法世界里,语料库的作用极为重要。比如,“建国大业”这一词汇如果不在语料库中出现,那么输入法是无法凭空把这个词创造出来的。一般来说,语料库的容量越大、词库容量越大,则输入效率、准确性越高。
业内人士分析认为,中文拼音输入法已经成为中国网民在线书写的重要工具。如何吸引用户选择自己的输入法,成为各输入法厂家竞争的焦点。其中,更精准、更快速地把互联网“时髦”语言“表达出来”无疑是最重要的一项指标。显然,扩张语料库、词库是这些厂商要做的基本任务。
对此,各厂家都在加紧进行两方面的工作,力图让语料库爆炸增长:其一,发挥“人肉”的优势,让用户贡献;其二,通过搜索引擎抓取互联网上的词汇。对于前者,输入法将其收集整理之后,形成类似的搜狗“细胞词库”;对于后者,输入法抢先在“云计算”领域展开争夺,通过不断地抓取、挖掘、分析、筛选,将实时、海量的“流行语言”纳入语料库。
守住用户电脑的右下角
厂商争相敲击的“利益算盘”
曾经,“抄袭”口水战、对簿公堂甚嚣尘上。如今,搜狗推出“巨无霸”的语料库、QQ开始测试微博版的输入法、百度也欲在手写输入和手机输入法上“一展身手”。众厂商意图明显地开始把精力回归到技术层面,展开了产品的直接PK。
“争夺用户资源”,有业内人士表示,这是现在很多互联网企业“争夺用户桌面右下角位置”的根本原因。
分析指出,输入法在诞生之日起就主打免费牌。随着互联网的普及,像其他免费软件一样,如果输入法实现巨大装机量,占领用户电脑右下角,背后可能出现同样巨大的潜在商业价值。“其实,任何时候,网民的需求都是多元化的,惟一不变的是他们都会在线上。”而这个时候,小小的输入法就具有十分重要的战略价值。
据中国互联网络信息中心(CNNIC)日前发布的《第26次中国互联网络发展状况统计报告》显示,截至今年6月,我国网民规模已达到4.2亿。面对这样一个庞大的用户群体,对应电脑用户直接需求的工具软件——输入法,各厂家兵戎相见,也就不足为怪了。
“和这些应用软件最不一样的地方是,互联网时代的输入法可以直接反映用户在想什么、在关心些什么。这相当于让搜狐可以直接和1亿多的网民沟通。我们可以每天给用户更新词库,对于搜狐形成内容的新渠道,对搜狐未来的竞争力有很大的帮助。”搜狐董事局主席张朝阳的这番话或许直接点出了输入法争夺日益加剧的根本原因。
回归关键技术之争
语料库容量“贪婪”扩张
“敲入'mantiandaxue’,出来的正是'漫天大雪’,为什么不是'满天大雪’,或者'漫天大学’?”网民小姚在网上提出了这样的问题。
小姚不知道的是,输入法如此“善解人意”的背后,决定性因素是一种名为“语料”的东西。日前,搜狗输入法宣布,其语料库容量已超1TB(1024GB),是传统中文输入法约40GB的30倍,而对于韩文、日文等语系,这更是“天文数字”。
“贪婪”的扩充语料库、词库,正是输入法厂家PK的重要武器。技术专家介绍,语料库与词库为输入法研发中的两个重要指标,其中词库为输入法提供了组词造句的基本单位,而语料库为输入法提供了词库中词语组合的方法和规则,同时通过自动挖掘的手段,语料库还可以是词库词源的重要补充。在目前以统计作为根基的输入法世界里,语料库的作用极为重要。比如,“建国大业”这一词汇如果不在语料库中出现,那么输入法是无法凭空把这个词创造出来的。一般来说,语料库的容量越大、词库容量越大,则输入效率、准确性越高。
业内人士分析认为,中文拼音输入法已经成为中国网民在线书写的重要工具。如何吸引用户选择自己的输入法,成为各输入法厂家竞争的焦点。其中,更精准、更快速地把互联网“时髦”语言“表达出来”无疑是最重要的一项指标。显然,扩张语料库、词库是这些厂商要做的基本任务。
对此,各厂家都在加紧进行两方面的工作,力图让语料库爆炸增长:其一,发挥“人肉”的优势,让用户贡献;其二,通过搜索引擎抓取互联网上的词汇。对于前者,输入法将其收集整理之后,形成类似的搜狗“细胞词库”;对于后者,输入法抢先在“云计算”领域展开争夺,通过不断地抓取、挖掘、分析、筛选,将实时、海量的“流行语言”纳入语料库。
守住用户电脑的右下角
厂商争相敲击的“利益算盘”
曾经,“抄袭”口水战、对簿公堂甚嚣尘上。如今,搜狗推出“巨无霸”的语料库、QQ开始测试微博版的输入法、百度也欲在手写输入和手机输入法上“一展身手”。众厂商意图明显地开始把精力回归到技术层面,展开了产品的直接PK。
“争夺用户资源”,有业内人士表示,这是现在很多互联网企业“争夺用户桌面右下角位置”的根本原因。
分析指出,输入法在诞生之日起就主打免费牌。随着互联网的普及,像其他免费软件一样,如果输入法实现巨大装机量,占领用户电脑右下角,背后可能出现同样巨大的潜在商业价值。“其实,任何时候,网民的需求都是多元化的,惟一不变的是他们都会在线上。”而这个时候,小小的输入法就具有十分重要的战略价值。
据中国互联网络信息中心(CNNIC)日前发布的《第26次中国互联网络发展状况统计报告》显示,截至今年6月,我国网民规模已达到4.2亿。面对这样一个庞大的用户群体,对应电脑用户直接需求的工具软件——输入法,各厂家兵戎相见,也就不足为怪了。
“和这些应用软件最不一样的地方是,互联网时代的输入法可以直接反映用户在想什么、在关心些什么。这相当于让搜狐可以直接和1亿多的网民沟通。我们可以每天给用户更新词库,对于搜狐形成内容的新渠道,对搜狐未来的竞争力有很大的帮助。”搜狐董事局主席张朝阳的这番话或许直接点出了输入法争夺日益加剧的根本原因。