人工智能太容易学坏，该怎么办？

Jonathan Vanian | 2018-07-12 21:30

人工智能可以模仿并强化人类决策，同时也放大人类的偏见。科技巨头能否解决大数据歧视问题？

插图：Giacomo Carmagnola Statue: Artneli/Alamy

2016年3月微软推出Tay时，非常看好这款人工智能支持的“聊天机器人”。跟人们之前在电商网站上接触过的文字聊天程序一样，Tay也可以回答文字问题，从而在推特和其他社交媒体上与公众交流。

但Tay功能更强大，不仅能回答事实性问题，还可以进行更复杂的交流，即加入了情感因素。Tay能表现出幽默感，像朋友一样跟用户说笑。设计者特地让Tay模仿十几岁少女的俏皮口吻。如果推特的用户问Tay父母是谁，她可能回答说：“哦，是微软实验室的一群科学家。按你们的概念里他们就是我父母。”如果有人问Tay过得怎样，她还可能吐槽说：“天呐，今天可累死我了。”

最有趣的一点是，随着与越来越多人交谈，Tay问答时会越发熟练。宣传材料中提到：“你跟Tay聊得越多，她就越聪明，体验也会个人化。”简单点说，Tay具有人工智能最重要的特点，即随时间越来越聪明，越来越高效，提供的帮助也越来越大。

但没人想到网络喷子的破坏性如此之强。

发现Tay会学习模仿交流对象的话之后，网上一些心怀恶意的人聊天时故意说一些种族主义、歧视同性恋等攻击言论。没过几个小时，Tay在推特账号上已是脏话连篇，而且全部公开。“主持人瑞奇·杰维斯向无神论者阿道夫·希特勒学习了极权主义。”Tay在一条推文里说，像极了推特上专事造谣诽谤的假新闻。如果问Tay怎么看时任总统奥巴马，她会说奥巴马像猴子。如果问她大屠杀事件，她会说没发生过。

没到一天，Tay已经从友好的邻家女孩变成满口脏话的小太妹。上线不到24小时，微软就宣布下线产品并公开道歉。

微软研究团队完全没想到事情会如此转折，也令人惊讶。“系统上线时，我们并没有想到进入现实世界会怎样。”微软研究和人工智能总监艾瑞克·霍维茨近日接受采访时告诉《财富》杂志。

Tay项目崩溃之后，霍维茨迅速让高级团队研究“自然语言处理”项目，也是Tay对话核心功能，寻找问题根源。团队成员迅速发现，与聊天程序相关的最佳基本行为遭到忽视。在Tay之前更基础版本的软件里，经常有屏蔽不良表述的协议，但并没有保护措施限制Tay可能学习发散的数据。

霍维茨认为，现在他终于可以“坦然分析”Tay案例，这已经变成微软发展过程中的重要教训。如今微软在全球推出成熟得多的社交聊天机器人，包括印度的Ruuh、日本和印度尼西亚的Rinna。在美国市场，微软推出了Tay的姊妹聊天软件Zo。有些则跟苹果的Siri和亚马逊的Alexa一样，进化到通过语音交互。中国市场的聊天机器人叫小冰，已经开始“主持”电视节目，向便利店顾客发送购物建议。

然而这次微软明显谨慎许多。霍维茨解释说，现在机器人推出比较慢，而且会认真观察软件发展过程中与大众互动情况。不过微软也清醒地意识到，即便人工智能技术在两年里可能发展迅速，但管理机器人行为的工作永无止境。微软员工一直在监视导致聊天机器人行为变化的对话。此类对话也不断出现。举例来说，Zo上线头几个月里就遇到各种状况，调整又调整，Zo曾经叫微软旗舰产品Windows软件“间谍软件”，还说伊斯兰教经典《古兰经》“非常暴力”。

当然了，未来机器人并不会像Tay和Zo一样。这些都是相对原始的程序，只是各项研究里比较花哨的部分，可从中一窥人工智能可能达到的程度。从软件的缺陷能看出，哪怕只部分应用人工智能，软件的能力和潜在隐患都会放大。虽然商业世界已经准备好未来更广泛应用人工智能，现在软件存在问题也意味着更多潜在风险，让技术人员寝食难安。

“做好最完善的准备，然后希望纰漏越来越少。”霍维茨表示。随着各公司将人工智能提升到重要战略地位，如何确保万无一失就非常紧迫。

几乎所有人都相信，当前我们在企业人工智能大爆发前夜。研究公司IDC预计，到2021年，企业每年将在人工智能相关产品上花费522亿美元。经济学家和分析师都认为，相关投资届时可以实现数十亿美元的成本节约和收益。其中一些收益将来自岗位压缩，更多则来自产品与客户、药品与病人，解决方案与问题之间的高效匹配。咨询公司普华永道就预计，到2030年，人工智能可为全球经济贡献多达15.7万亿美元，比现在中国和印度的总产值加起来还多。

人工智能技术之所以流行，主要因为“深度学习”技术推进。利用深度学习之后，企业可以在网络中输入大量信息，迅速识别模式，而且耗费人工培训的时间减少（最终很可能无需培训）。Facebook、谷歌、微软、亚马逊和IBM等巨头都已在产品上应用深度学习技术。举例来说，苹果的Siri和谷歌的语音助手Assistant应用深度学习技术后，可在用户说话之后识别并回应。亚马逊主要利用深度学习直观检查大量通过杂货店派送的产品。

不久的将来，各种规模的公司都会希望通过应用深度学习软件挖掘数据，寻找人眼很难发现的宝贝。人们希望出现人工智能系统扫描数千张X光图像，从而更迅速发现疾病；或自动筛选多份简历，为焦头烂额的人力资源员工节省时间。在科技主义者的设想中，公司可以用人工智能筛选过去多年的数据，更好地预测下一次大卖的机会。药业巨头可以削减研发畅销药的时间。而汽车保险公司也能扫描记录数万亿字节的事故报告，实现自动索赔等。

尽管人工智能支持系统潜力巨大，但也有黑暗一面。首先，系统决策水平受到人类提供数据限制。开发者虽然不断学习，用来培训深度学习系统的数据却并不中立。数据很容易体现出开发者的偏见，不管有意还是无意。有时数据还会受历史影响，形成的趋势和模式体现出持续数百年的歧视观点。成熟的算法扫描历史数据库后可能得出结论，白人男性最有可能当上首席执行官。算法却意识不到，如果不是白人男性几乎没机会当上首席执行官，情况直到最近才有改变。无视偏见是人工智能技术的一项根本缺陷，虽然高管和工程师在谈起该问题时极为谨慎，也都说得比较官方，但很明显他们都很重视这一问题。

当前应用的强大算法“没有为所谓公平进行优化，”加州大学伯克利分校副教授迪尔德丽·穆里根表示，她主要研究技术伦理。“只存在为完成某项任务优化。”人工智能以前所未有的速度将数据转化为决策，但穆里根表示，科学家和伦理学家发现很多情况下“数据并不公平”。

让问题更加复杂的是，深度学习比之前应用的传统算法更加复杂，即便让经验最丰富的程序员理解人工智能系统做出某项决策的逻辑都十分困难。在Tay的例子里，人工智能产品不断发生变化，开发者已无法理解也无法预测为何出现某些行为。由于系统的开发者和用户都在拼命保密数据和算法，而且担心专利技术泄露导致竞争受损，外部监测机构也很难发现系统里存在什么问题。

类似装在黑匣子里的秘密技术已在不少公司和政府部门应用，让很多研究者和活跃人士非常担心。“这些可不是现成的软件，可以随便买来，然后说‘啊，现在终于能在家完成会计工作了。’”微软首席研究员兼纽约大学AI NOW研究所联合负责人凯特·克劳福德表示。“这些都是非常先进的系统，而且会影响核心社会部门。”

虽然猛一下可能想不起，但大多人还是经历过至少一次人工智能崩溃案例：2016年美国大选前期，Facebook的新闻推送中出现了假新闻。

社交媒体巨头Facebook和数据科学家并没有编造故事。新闻信息流的开发机制并不会区分“真”和“假”，只会根据用户个人口味推动个性化内容。Facebook没公开算法具体信息（也涉及专利问题），但承认计算时会参考其他近似口味用户阅读和分享的内容。结果是：由于适合流传的假新闻不断出现，好友们又喜欢看，数百万人的新闻信息流里都出现了假新闻。

Facebook的例子说明个人选择与人工智能发生恶性互动的情况，但研究者更担心深度学习阅读并误读整体数据。博士后提米特·葛布鲁曾在微软等公司研究算法伦理，她对深度学习影响保险市场的方式很担心，因为在保险市场上人工智能与数据结合后可能导致少数群体受到不公待遇。举个例子，想象有一组汽车事故索赔数据。数据显示市中心交通事故率比较高，由于人口密集车祸也多。市中心居住的少数群体人数比例也相对更高。

如果深度学习软件里嵌入了相关联系再筛选数据，可能“发现”少数族裔与车祸之间存在联系，还可能对少数族裔司机贴上某种标签。简单来说，保险人工智能可能出现种族偏见。如果系统通过回顾市中心附近车祸现场的照片和视频进一步“培训”，人工智能更有可能得出结论认为，在涉及多名司机的事故中，少数族裔司机过错可能更大。系统还可能建议向少数族裔司机收取更高保费，不管之前驾驶记录如何。

要指出一点，保险公司都声称不会因为种族区别对待或收取不同保费。但对市中心交通事故的假设显示，看似中立的数据（交通事故发生地点）也可能被人工智能系统吸收并解读，从而导致新的不平等（算法根据具体民族向少数族裔收取更高保费，不管居住地点在哪）。

此外，葛布鲁指出，由于深度学习系统决策基于层层叠叠的数据，人工智能软件决策时工程师都不明白其中原因和机制。“这些都是我们之前没想过的，因为人类刚刚开始发现基础算法里存在的偏见。”她表示。

当代人工智能软件与早期软件不同之处在于，现在的系统“可以独立作出具有法律意义的决策，”马特·谢尔勒表示，他在门德尔松律师事务所担任劳动及就业律师，对人工智能颇有研究。谢尔勒开始研究该领域时发现关键结果出台过程中没有人类参与，他很担心。如果由于数据存在纰漏，深度学习指导下的X光忽视一位超重男性体内的肿瘤，有人负责么？“有没有人从法律角度看待这些问题？”谢尔勒问自己。

随着科技巨头们准备将深度学习技术嵌入其客户商业软件，上述问题便从学术界所讨论的“假如”命题成为了急需考虑的事情。2016年，也就是Tay出现问题的那一年，微软组建了一个名为Aether（“工程，研究中的人工智能和道德”的首字母缩写）的内部机构，由艾瑞克·霍维茨担任主席。这是一个跨学科部门，由工程、研究、政策和法律团队的成员构成，机器学习偏见是其重点研究的议题之一。霍维茨在描述该部门所讨论的一些话题时若有所思地说：“微软对于面部识别之类的软件是否应该用于敏感领域是否已经有了定论，例如刑事审判和监管。人工智能技术是否已经足够成熟，并用于这一领域，亦或由于失败率依然非常高，因此人们不得不慎而又慎地思考失败带来的代价？”

杰奎因·奎诺内罗·坎德拉是Facebook应用机器学习部门的负责人，该部门负责为公司打造人工智能技术。在众多其他的功能当中，Facebook使用人工智能技术来筛除用户新闻推送中的垃圾信息。公司还使用这一技术，根据用户喜好来提供故事和贴文，而这也让坎德拉的团队几近陷入假新闻危机。坎德拉将人工智能称之为“历史加速器”，因为该技术“能够让我们打造优秀的工具，从而提升我们的决策能力。”但是他也承认，“正是在决策的过程中，大量的伦理问题接踵而至。”

Facebook在新闻推送领域遇到的难题说明，一旦产品已经根植于人工智能系统，要解决伦理问题是异常困难的。微软也曾通过在算法应忽略的术语黑名单中添加一些侮辱性词语或种族绰号，推出了Tay这个相对简单的系统。但此举无法帮助系统分辨“真”、“假”命题，因为其中涉及众多的主观判断。Facebook的举措则是引入人类调解员来审查新闻信息（例如通过剔除来源于经常发布可证实虚假新闻信息来源的文章），但此举让公司吃上了审查机构的官司。如今，Facebook所建议的一个举措只不过是减少新闻推送中显示的新闻数量，转而突出婴儿照和毕业照，可谓是以退为进。

这一挑战的关键之处在于：科技公司所面临的两难境地并不在于创建算法或聘请员工来监视整个过程，而是在于人性本身。真正的问题并不在于技术或管理，而是关乎哲学。伯克利伦理学教授迪尔德丽·穆里根指出，计算机科学家很难将“公平”编入软件，因为公平的意义会因人群的不同而发生变化。穆里根还指出，社会对于公平的认知会随着时间的变化而改变。而且对于大家广泛接受的理想状态的“公平”理念，也就是社会决策应体现社会每位成员的意志，历史数据存在缺陷和缺失的可能性尤为突出。

微软Aether部门的一个思想实验便揭示了这一难题。在这个实验中，人工智能技术对大量的求职者进行了筛选，以挑选出适合高管职务的最佳人选。编程人员可以命令人工智能软件扫描公司最佳员工的性格特征。虽然结果与公司的历史息息相关，但很有可能所有的最佳雇员，当然还有所有最高级别的高管，都是白人。人们也有可能会忽视这样一种可能性，公司在历史上仅提拔白人（大多数公司在前几十年中都是这样做的），或公司的文化便是如此，即少数族群或女性会有被公司冷落的感受，并在得到提升之前离开公司。

任何了解公司历史的人都知晓这些缺陷，但是大多数算法并不知道。霍维茨称，如果人们利用人工智能来自动推荐工作的话，那么“此举可能会放大社会中人们并不怎么引以为荣的一些偏见行为”，而且是不可避免的。

谷歌云计算部门的人工智能首席科学家李飞飞表示，技术偏见“如人类文明一样由来已久”，而且存在于诸如剪刀这种普通的事物当中。她解释说：“数个世纪以来，剪刀都是由右撇子的人设计的，而且使用它的人大多都是右撇子。直到有人发现了这一偏见之后，才意识到人们有必要设计供左撇子使用的剪刀。” 全球人口仅有约10%是左撇子，作为人类的一种天性，占主导地位的多数人群往往会忽视少数人群的感受。

事实证明，人工智能系统最近所犯的其他最为明显的过错也存在同样的问题。我们可以看看俄罗斯科学家利用人工智能系统在2016年开展的选美大赛。为参加竞赛，全球数千名人士提交了其自拍照，期间，计算机将根据人们脸部对称性等因素来评价其美貌。

然而，在机器选出的44名优胜者当中，仅有一位是深色皮肤。这一结果让全球一片哗然，竞赛举办方随后将计算机的这一明显偏见归咎于用于培训电脑的数据组，因为这些数据组中的有色人种照片并不多。计算机最终忽视了那些深色皮肤人种的照片，并认为那些浅肤色的人种更加漂亮，因为他们代表着多数人群。

这种因忽视而造成的偏见在深度学习系统中尤为普遍，在这些系统中，图片识别是培训过程的重要组成部分。麻省理工大学媒体实验室的乔伊·布沃拉姆维尼最近与微软研究员葛布鲁合作，撰写了一篇研究性别分辨技术的论文，这些技术来自于微软、IBM和中国的旷视科技。他们发现，这些技术在识别浅肤色男性照片时的精确度比识别深肤色女性更高。

此类算法空白在线上选美比赛中看起来可能是微不足道的事情，但葛布鲁指出，此类技术可能会被用于更加高风险的场景。葛布鲁说：“试想一下，如果一辆自动驾驶汽车在看到黑人后无法识别，会出现什么后果。想必后果是非常可怕的。”

葛布鲁-布沃拉姆维尼的论文激起了不小的浪花。微软和IBM均表示，公司已采取针对性的措施来完善其图片识别技术。尽管这两家公司拒绝透露其举措的详情，但正在应对这一问题的其他公司则让我们窥见了如何利用科技来规避偏见。

当亚马逊在部署用于筛除腐烂水果的算法时，公司必须解决抽样偏见问题。人们会通过研究大量的图片数据库来培训视觉辨认算法，其目的通常是为了识别，例如，草莓“本应”具有的模样。然而，正如你所预料的那样，与完好浆果光鲜亮丽的照片相比，腐烂的浆果相对较为稀少。而且与人类不同的是，机器学习算法倾向于不计算或忽视它们，而人类的大脑则倾向于注意这些异常群体，并对其做出强烈反应。

亚马逊的人工智能总监拉尔夫·荷布里奇解释道，作为调整，这位在线零售巨头正在测试一项名为过采样的计算机科学技术。机器学习工程师可通过向未充分代表的数据分配更大的统计学“权重”，来主导算法的学习方式。在上述案例中便是腐烂水果的照片。结果显示，培训后的算法更为关注变质食物，而不是数据库中可能建议的食品关联性。

荷布里奇指出，过采样也可被应用于学习人类的算法（然而他拒绝透露亚马逊在这一领域的具体案例）。荷布里奇说：“年龄、性别、种族、国籍，这些都是人们特别需要测试采样偏见的领域，以便在今后将其融入算法。”为了确保用于识别照片人脸面部所使用的算法并不会歧视或忽视有色、老龄或超重人士，人们可以为此类个人的照片增加权重，以弥补数据组所存在的缺陷。

其他工程师正在专注于进一步“追根溯源”——确保用于培训算法的基本数据（甚至在其部署之前）具有包容性，且没有任何偏见。例如，在图形识别领域，在录入计算机之前，人们有必要对用于培训深度学习系统的数百万图片进行审核和标记。数据培训初创企业iMerit首席执行官雷德哈·巴苏解释道，公司遍布于全球的1400多名训练有素的员工会代表其客户，以能够规避偏见的方式对照片进行标记。该公司的客户包括Getty Images和eBay。

巴苏拒绝透露这种标记方式是否适合标记人像图片，但她介绍了其他的案例。iMerit在印度的员工可能会觉得咖喱菜不是很辣，而公司位于新奥尔良的员工可能会认为同样的菜“很辣”。iMerit会确保这两项信息均被录入这道菜照片的标记中，因为仅录入其中的一个信息会让数据的精确性打折扣。在组建有关婚姻的数据集时，iMerit将收录传统的西式白婚纱和多层蛋糕图片，同时还会收录印度或非洲精心策划、色彩绚丽的婚礼。

iMerit的员工以一种不同的方式在业界脱颖而出。巴苏指出：公司会聘用拥有博士学位的员工，以及那些受教育程度不高、较为贫困的人群，公司53%的员工都是女性。这一比例能够确保公司在数据标记过程中获得尽可能多的观点。巴苏表示，“良好的伦理政策不仅仅包含隐私和安全，还涉及偏见以及我们是否遗漏了某个观点。”而找出这个遗漏的观点已被更多科技公司提上了战略议程。例如，谷歌在6月宣布，公司将在今年晚些时候于加纳的阿格拉开设人工智能研究中心。两位谷歌工程师在一篇博文上写道：“人工智能在为世界带来积极影响方面有着巨大的潜力，如果在开发新人工智能技术时能够得到全球各地人士的不同观点，那么这一潜力将更大。”

人工智能专家还认为，他们可以通过让美国从事人工智能行业的员工更加多元化，来应对偏见，而多元化问题一直是大型科技公司的一个障碍。谷歌高管李飞飞最近与他人共同创建了非营利性机构AI4ALL，以面向女孩、妇女和少数群体普及人工智能技术和教育。该公司的活动包括一个夏令营计划，参与者将到访顶级大学的人工智能部门，与导师和模范人物建立联系。总之，AI4ALL执行董事苔丝·波斯内表示：“多样性的提升有助于规避偏见风险。”

然而，在这一代更加多元化的人工智能研究人员进入劳动力市场数年之前，大型科技公司便已然将深度学习能力融入其产品中。而且即便顶级研究人员越发意识到该技术的缺陷，并承认他们无法预知这些缺陷会以什么样的方式展现出来，但他们认为人工智能技术在社会和金融方面的效益，值得他们继续向前迈进。

Facebook高管坎德拉说：“我认为人们天生便对这种技术的前景持乐观态度。” 他还表示，几乎任何数字技术都可能遭到滥用，但他同时也指出：“我并不希望回到上个世纪50年代，体验当时落后的技术，然后说：‘不，我们不能部署这些技术，因为它们可能会被用于不良用途。’”

微软研究负责人霍维茨表示，像Aether团队这样的部门将帮助公司在潜在的偏见问题对公众造成负面影响之前便消除这些偏见。他说：“我认为，在某项技术做好投入使用的准备之前，没有人会急着把它推向市场。”他还表示，相比而言，他更关心“不作为所带来的伦理影响。”他认为，人工智能可能会降低医院中可预防的医疗失误。霍维茨询问道：“你的意思是说，你对我的系统偶尔出现的些许偏见问题感到担忧吗？如果我们可以通过X光拍片解决问题并拯救众多生命，但依然不去使用X光，伦理何在？”

监督部门的反映是：说说你所做的工作。提升人工智能黑盒系统所录入数据的透明度和公开度，有助于研究人员更快地发现偏见，并更加迅速地解决问题。当一个不透明的算法可以决定某个人是否能获得保险，或该人是否会蹲监狱时，麻省理工大学研究人员布沃拉姆维尼说道：“非常重要的一点在于，我们必须严谨地去测试这些系统，而且需要确保一定的透明度。”

确实，很少有人依然持有“人工智能绝对可靠”的观点，这是一个进步。谷歌前任人工智能公共政策高管蒂姆·黄指出，在互联网时代初期，科技公司可能会说，他们“只不过是一个代表数据的平台而已”。如今，“这一理念已经没有市场”。（财富中文网）

本文最初发表于《财富》杂志2018年7月1日刊。

译者：冯丰

审校：夏林

阅读全文