Word的非典型用途：预测股价

章劢闻 2019-05-13

本月我们又开始在全世界各交易所搜集中国上市公司财报，编辑制作今年的中国500强榜单。包括我们编辑部在内，很多对公司和市场的研究基于结构化信息。例如，比较一家公司前后两年年报中披露的各种数字。但是随着语言学、统计学和计算机科学的边界日渐模糊，另一类近在眼前，却被掩藏起来的价值来自于看似枯燥的非结构化信息——文字。

今年初，纽约时报的一篇报道介绍了一种“读财报”的新方式，并指出苹果等公司把重要的、影响未来股价的秘密夹杂在非结构化信息中。文章介绍了劳伦·科恩等三位哈佛商学院的经济学者的研究。他们下载了近20年的所有美国公司财报，研究发现了一个大道至简的规律：凡是财报出现重大的文字变化的公司，往往事后被证明出现负面问题，并且估价在几个月后会大概率下跌。

这看似很难用直觉解释，但是类似现象的存在一定有其原因，而且很可能暗藏在文字数量和质量规律中。过去20年来，信息生成和传播的成本大幅降低，这导致财报的平均篇幅几乎是20年前的三倍。到今天，亚马逊的年报有89页，苹果有96页，而微软的年报长达130页。从质量上看，为了满足监管要求，很多上市公司的年报文字缺乏变化、枯燥单调，目的是在满足监管要求的同事，也避免产生额外风险。用华尔街日报的一句话总结：

今天，这些财务报告文本的长度相当于10个整版的华尔街日报，却比我们媒体的文字无聊百倍。

我最近在北京中关村的一次会议上见到了科恩教授，并听他详细介绍了他的发现。科恩指出尤其要注意财报中的“风险因素”章节：该部分往往充满会囊括各种大大小小的风险，有些显而易见，有些无聊透顶；同时，这些文本很少变动，几乎难以发现新增的变化——结果是这里成为了年报的阅读盲区。

但是，恰恰因为缺乏阅读吸引力，这个章节也成为了公司披露关键信息，又不引起注意的完美角落。纽约时报的报道以苹果公司为例，指出他们去年11月的财务报告中出现了大量新的语言文本，内容涉及市场、政策和汇率等因素，很多与中国有关。与科恩的研究预测相符，苹果的股价随后持续走低，甚至影响了大市。

科恩尤其强调了一点：无论是好是坏，市场极少在财报发布之后对文字变化中的“暗示”有迅速的反应，而往往直到几个月后这些变化才会被读懂；这里面的反应时间差也正是一种投资的机会。他们建立了一个虚拟的投资组合，利用这个规律来做空“出现负面文本”的公司，做多“出现正面文本”的公司，最后跑赢了大市22个百分点。

最有趣的一点：和复杂的计算语言学研究不同，我们只需要简单的工具就可以去代替这种“文本相似性”的算法。按科恩的介绍，用Word文档的文本比较工具就可以轻易地去对比和发现财报的文字变化，把握时机。尽管他和团队两年前就通过华尔街日报披露过这种“惰性股价”的规律，但是并没有引起多数人的注意。至今，新发现仍然只掌握在少数人的手里。

中国	美国	日本	法国
德国	英国	瑞士	韩国
荷兰	加拿大	印度	巴西
意大利	澳大利亚	俄罗斯	西班牙

能源	金融	汽车相关
IT行业	商业、零售	房地产、建筑
金属产品	航空、航天	食品相关
电信	保险行业	铁路运输