订阅

多平台阅读

微信订阅

杂志

申请纸刊赠阅

订阅每日电邮

移动应用

博客

香橼的“文字炼狱”

章劢闻 2012-09-10

记得浑水摸“俞”导致新东方股价连续暴跌两天之后,徐小平曾经写了一条微博,大意是一友人问其可否抄底新东方,他说可以,而且要快买多买,最后还梦见朋友赚了大钱。对美国投资人来说,新东方的商业模式既独特,又难以理解。他们很难理解为什么中国教师俞敏洪的一堂英语课只有搬到电影院才能坐得下所有的学生,为什么这所学校的墙上会挂上一条横幅写着“在绝望中寻找希望”,为什么这家公司的服务对象愿意付出那么大的代价来赢得一次跨越地球的旅行。而对于我们,这些绝望和希望中的生意并不微妙,是天经地义的。这种理解上的差别已经超出了信息不对称的范畴,应该算是文化差异,所以这次你在家里刮痧,人家一个举报,你就变成是在自残了。

相比较而言,在美国得到验证的模式加上一个中国市场的简单逻辑一直以来更容易得到国外投资人的认同。在这方面,百度是幸运的,同道谷歌这么多年来一直中规中矩地做着商业模式的诠释工作,即便面对高调的脸谱公司挑战都不乱方寸。所以百度的快速增长也在海外投资者的理解之中,不会有人去怀疑它的业绩。

这本是一个简洁易懂的成功者的故事,但是香橼事件让这种“安全感”荡然无存,李开复挖掘出的问题反映了部分意见领袖对一国文字的无知。正如巴别塔的寓意:当什么默契都到位的时候,语言上的障碍能让一切都化为泡影。其实现在去分析李开复的动机并无意义,即便其中有个人利益的牵扯,动机也不影响质疑的成立;另一方面,去过多地抨击莱福特和香橼的道德观更是有失公平。因为自下而上的监管在美国市场上是一种常见、合法监督方式,正是这些公司的存在像一种特殊的消化酶一样消化掉了丧失掉了商业道德的公司和管理层,才会保证整个肌体的健康。

此时,香橼更像是跌入了文字炼狱,语言和文化的复杂性给他们上了一课。但是理不辨不明,和深谙中美文化的几个公众人物的对话,不仅会让这些华尔街的草根监督者这更加小心谨慎地处理中国公司的问题,同时也能够让我们清楚地认识中国公司,他们在做什么,我们真的都很明白吗?

香橼错在哪里?

搜索引擎背后的一个核心技术是自然语言处理,或者叫计算语言学。李开复就是这个专业背景出身。包括中国在内,现在有越来越多同时具有语言学和计算机天赋的年轻人开始切入这个领域,在成熟的统计方法和语料的帮助下,各种语言的搜索技术日臻成熟。

其中,中文的检索被誉为是两个最难的语言方向之一。中文不像英文、拉丁语系的语言等有一个空格隔开词汇:不同的中文词句断法不同,意思也不同。随手从网上摘了个例子 —— “一次性交易八折”,怎么理解?这种歧义连人脑都躲不过,更何况是机器。但是日渐丰富的语料和统计方法让机器能够慢慢正确断词,判断词性,甚至识别语境等等。这也是百度、搜狗等公司拥有大量积累的领域,也是为什么百度更懂中文的原因。

香橼的报告创造出了拼音搜索这个概念,让读者感觉搜狗的拼音技术创造了一个奇迹,几乎可以让百度等公司的技术成为历史。这个观点荒谬到了什么地步呢,举个娱乐化的例子(顺便说下香橼自称喜欢用“娱乐化”的语言来陈述事实,今天我们就以其道还治其身):两人欲登顶上楼,一个走楼梯,一个坐电梯同时在其中做俯卧撑。到了楼顶,有人看到坐电梯的人惊呼,他居然用俯卧撑可以上楼,而走楼梯的人还只知道用腿,所以在上楼方面上臂比大腿管用。

和输入法不同,文字索引若用拼音会让本来就富有歧义的中文更难辨别;毕竟一个是用模糊的简便的输入找到精确的匹配,另一个是用精确的分词和索引去实现模糊的查询。两者正好反向。记得曾经有同学到了国外,没有中文输入法可以用,只能用拼音聊天,后面还要加上1,2,3,4分出四声,否则难表其义。香橼对于中文的无知导致他们把一个无关的产品说成了搜索业务的核心竞争力,以至于本来被他唱多的搜狗CEO自己都看不下去了,和李开复联名背书,表达了对于香橼这种稀里糊涂的分析报告的抗议。

香橼不知,如果拼音那么管用,那么他们自己的名字也许会永远迷失在浩瀚的中文之中,和无数的湖南菜馆和酒店混在一起,难有出头之日。

错误源头来自日语?

那么这家美国机构的错误来自哪里呢?一个非此专业的分析者自己不可能捏造事实。背后的种种来由我们可能永远无法得知,但是这种错误非常像是有人有意无意地将日语和中文混淆。日语就像是一种中文汉字和英文发音等的混合体,日本人的发明很多都是1+1,文字也是这样。而日文的平片假名可以组合出很多外来词的发音;摘抄一个例子:英文“drink”,日本人甚至不用把它翻译成“饮料/饮み物”,而直接采用音译法根据该英文(或外来语)的读音把它“翻译成”片假名单词“ドリンク”。一方面有汉字等的存在予以辅助,另一方面有很多词的读音可以和英文单词产生对应关系,所以日文很好地消除了歧义,这也决定了日文搜索会和这种类似拼音式的语言结构有很大的关联。香橼捏造出来的拼音搜索似乎是找错了对象。

回首百度

如果消除了这种虚拟出来的“劲敌”,百度究竟表现如何呢?上周,百度再次登上了2012《财富》100家增长最快的公司榜。要上这个榜单是一回事,要连续两年都进入该榜单前列那就是另一个层面上的挑战了。《财富》按照每家公司的营收增长率,每股收益增长率以及三年期年化总体回报率对其进行排名。要在三个增长率的总分上面连续两年得高分非常有难度,看看去年百度列第四时前面的三家公司,今年分别落到了11位, 35位,和22位。而百度连续两年进入前五,从数据上看来中美其他快公司只能望其项背。

面对一些短线牟利的投机者,《财富》的榜单用客观的数据从各个行业中都发掘出了一些表现优秀的中国公司,行业覆盖了在线招聘、生物科技、自动化技术和信息技术等等。这些公司正是我们中国公司中表现优秀的中资美股。无论有多少文化差异存在,对于伟大公司和创业者的尊重会驱使不同背景下的投资者走向正确的方向。而同时,我们应该鼓励那些不同的声音,尤其应该鼓励这种辩论,有辨才有识,否则我们何时才会真正看清这些公司的挑战,认识他们的伟大之处呢?

作者:章劢闻

 

最新文章:

500强情报中心

财富专栏