本月我们又开始在全世界各交易所搜集中国上市公司财报,编辑制作今年的中国500强榜单。包括我们编辑部在内,很多对公司和市场的研究基于结构化信息。例如,比较一家公司前后两年年报中披露的各种数字。但是随着语言学、统计学和计算机科学的边界日渐模糊,另一类近在眼前,却被掩藏起来的价值来自于看似枯燥的非结构化信息——文字。
今年初,纽约时报的一篇报道介绍了一种“读财报”的新方式,并指出苹果等公司把重要的、影响未来股价的秘密夹杂在非结构化信息中。文章介绍了劳伦·科恩等三位哈佛商学院的经济学者的研究。他们下载了近20年的所有美国公司财报,研究发现了一个大道至简的规律:凡是财报出现重大的文字变化的公司,往往事后被证明出现负面问题,并且估价在几个月后会大概率下跌。
这看似很难用直觉解释,但是类似现象的存在一定有其原因,而且很可能暗藏在文字数量和质量规律中。过去20年来,信息生成和传播的成本大幅降低,这导致财报的平均篇幅几乎是20年前的三倍。到今天,亚马逊的年报有89页,苹果有96页,而微软的年报长达130页。从质量上看,为了满足监管要求,很多上市公司的年报文字缺乏变化、枯燥单调,目的是在满足监管要求的同事,也避免产生额外风险。用华尔街日报的一句话总结:
今天,这些财务报告文本的长度相当于10个整版的华尔街日报,却比我们媒体的文字无聊百倍。
我最近在北京中关村的一次会议上见到了科恩教授,并听他详细介绍了他的发现。科恩指出尤其要注意财报中的“风险因素”章节:该部分往往充满会囊括各种大大小小的风险,有些显而易见,有些无聊透顶;同时,这些文本很少变动,几乎难以发现新增的变化——结果是这里成为了年报的阅读盲区。
但是,恰恰因为缺乏阅读吸引力,这个章节也成为了公司披露关键信息,又不引起注意的完美角落。纽约时报的报道以苹果公司为例,指出他们去年11月的财务报告中出现了大量新的语言文本,内容涉及市场、政策和汇率等因素,很多与中国有关。与科恩的研究预测相符,苹果的股价随后持续走低,甚至影响了大市。
科恩尤其强调了一点:无论是好是坏,市场极少在财报发布之后对文字变化中的“暗示”有迅速的反应,而往往直到几个月后这些变化才会被读懂;这里面的反应时间差也正是一种投资的机会。他们建立了一个虚拟的投资组合,利用这个规律来做空“出现负面文本”的公司,做多“出现正面文本”的公司,最后跑赢了大市22个百分点。
最有趣的一点:和复杂的计算语言学研究不同,我们只需要简单的工具就可以去代替这种“文本相似性”的算法。按科恩的介绍,用Word文档的文本比较工具就可以轻易地去对比和发现财报的文字变化,把握时机。尽管他和团队两年前就通过华尔街日报披露过这种“惰性股价”的规律,但是并没有引起多数人的注意。至今,新发现仍然只掌握在少数人的手里。