美国大选之后的思考：AI能准确预测选民的行为吗？ - ai人工智能 - 透明七彩巨人-tmqcjr.com

在经历多天的“难产”之后，美国大选计票结果终于有个一个确定的结果，民主党总统候选人乔·拜登确认胜选成为美国第46任总统。似乎这出年度大戏已经落下帷幕，但是，就在选举之夜，第一轮计票开始后不到24小时，媒体和政治阶层已经宣布了一个失败者：民调。

这不是民调第一次“发挥失常”，早在2016年大选后，许多民调专家还否认他们的职业一头走向下坡路的说法：全国民调平均值预测，希拉里·克林顿(Hillary Clinton)将以略低于四个百分点的优势赢得普选，她最终也以略高于两个百分点的优势在普选中获胜。但是，美国的选举是由选举团中的摇摆州决定的，而不是由普选决定的。因此，那一年的最终结果也令大多数人始料未及。

(来源：AP / David Dermer)

那么，是否有比传统民调更准确的方法来预测选举结果呢？

美国西雅图非营利性研究中心艾伦人工智能研究所首席执行官奥伦.埃齐奥尼（Oren Etzioni）表示："我不会解雇民意测验者，但我会引导他们更好地利用机器学习、数据挖掘和人工智能来更好地预测。

仿佛，人工智能成了民调机构手里的一棵救命稻草。

AI预测大选，需要几步？

首先你需要明白，没有一个人或算法能够一直准确预测人类的行为，然而，传统民意测验的的问题是，民意调查者使用的模型主要基于历史分类和平均值。那么我们就需要规避这些“僵硬”的数据指标。

然后，你需要一个数据源，像亚马逊这样的科技公司能够利用算法捕捉实际行动，简单来说，亚马逊的算法不管你是谁，它只知道：当你去买个狗项圈，那么你也很可能会买狗粮。因此，这些反应行为的数据需要不断地大量抓取，尽管很困难，但在动态识别助推概率预测的模式和相关性方面能带来无限的帮助。

接下来就是建立模型，由于收集数据源的侧重点不同，建立的模型也会有差异。著名分析公司 KCore Analytics 就从社交媒体帖子中预测：拜登在民众投票中将占优势——大约 8 或 9 个百分点——但在选举团方面，优势很小。具体操作是利用了一个端到端的框架在 Twitter 之类的网络中查找影响者和主题标签。根据内容和频率选择数据，然后在一个称为 AWS-LSTM 的 AI 模型中对意见进行分类测算，据称准确性高达 89.5％。而这一切都基于该公司使用超过 10 亿条推文的数据挖掘。

总部设在意大利的 Expert.AI 公司，尝试分析一些因素如语气和情感，并预测如何可能转化为选票。相比于 KCore Analytics，Expert.AI 就显得干练很多，具体操作是利用一个知识图来标识命名实体（包括人员、公司和地点）并尝试对它们之间的关系进行建模。有趣的是，其系统将 84 个情感标签贴在 Twitter 和其他网络的数十万条帖子上，半自动地消除了机器人般的社交账户。

Expert.AI 的算法将标签按 1 到 100（反映其强度）的等级进行排名，并乘以每个候选值的匹配次数。同时，它将情绪分类为"积极"或"消极"，并用它来创建一个可以比较两个候选项的索引。结果显示，拜登在社会媒体上的情绪排名更高，略高于特朗普（50.2% 对 47.3%）

无独有偶，由渥太华大学的科学家开发的"Advanced Symbolics polly"收集了一个随机的，受控的美国选民样本，例如“黑人的命也是命运动”“中国问题”“新冠疫情”等。通过他们的帖子和在社交媒体上的谈话进行识别。基于此预测得出：佛罗里达州将投票给拜登，并占该州总票数的 52.6%。事实后来我们都知道，特朗普在此翻盘，一度让盘面上的局势胶着不下。

图 | Advanced Symbolics polly 预测模型

以上都是一些通过抓取大数据来进行分析预测，当然也有一些机构对局部数据进行收集，通过智能“蜂群”放大，进而预测选民的意向。Unanimous.AI 就是这样一个公司，该公司团队 9 月份在美国进行的一项 50 人现场调查，要求他们预测他们认为谁将赢得 11 个州的总统竞选，以及以什么幅度赢得总统竞选。

Unanimous.AI 的实时调查允许用户实时查看其他参与者正在选择什么，机器学习算法根据答案变化等因素评估谁对自己的预测最有信心。最自信的答案对最终汇总答案的影响最大。不过虽然看起来该预测内容简单，但是它已经正确地预测了 10 个州竞选的获胜者。可谓"战绩"斐然.。

图 | Unanimous.ai 9月进行了一次现场调查，要求50名参与者预测谁将赢得11个战场州的总统竞选，以及以什么优势赢得总统竞选（来源：UNANIMOUS.AI）

并非所有的 AI 投票都那么准确

在 AI 预测将民意至于“显微镜”下的同时，我们也把 AI 预测推到民意验测者的 “显微镜” 之下，可以预见，一些预测的确精准无比，但是类似“Advanced Symbolics Polly“这样的 AI 预测系统也会“误入歧途”，例如 Advanced Symbolics Polly 得出佛罗里达州将投票给拜登，占该州总票数的 52.6% 的这一失准预测，就是因为该制度未能单独抽样古巴裔美国人（他们通常投票给共和党候选人）。换句话说，Advanced Symbolics Polly 把古巴裔美国人和委内瑞拉裔美国人，墨西哥裔美国人混为一谈，统一归为"西班牙人"。

正如《财富》杂志所指出的那样，无论预测的正确与否，这些模式都没有考虑到法律挑战、无信仰的选民（选举团成员不投票给他们承诺的候选人）或其他混淆者可能会影响选举结果的方式。在这些不断变化的参数条件下，AI 预测——就像传统的民意调查一样——似乎低估了 2020 年选民对特朗普的热情，特别是在黑人和拉丁裔选民以及 LGBTQ 社区成员中。

（来源：纽约时报）

ASI 联合创始人兼首席执行官艾琳.凯利（ErinKelly）表示：“使用人工智能来预测选举仍然是一个相对年轻的做法。AI 的优点之一是模型可以学习，并随着时间的推移而变得更好。”

我们经历的这一切似乎是一场轮盘赌博，在轮盘没有停下的时候，谁都说不准命运的小球会滑向哪一个数字，但相较于人类而言，人工智能在面对“赌局”的时候不会产生任何心里起伏。它们只会不断地积累数据，使最终结果逼近于正确答案。或许，对于 Advanced Symbolics Polly 那样的预测 AI 来说，今年的选举"只是一次学习经历"。

参考资料：

https://www.wsj.com/articles/artificial-intelligence-shows-potential-to-gauge-voter-sentiment-11604704009?mod=tech_lead_pos11

https://venturebeat.com/2020/11/06/how-ai-predictions-fared-against-pollsters-in-the-2020-u-s-election/

AMiner学术头条

AMiner平台由清华大学计算机系研发，拥有我国完全自主知识产权。系统2006年上线，吸引了全球220个国家/地区800多万独立IP访问，数据下载量230万次，年度访问量1000万，成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/

产业机器学习数据挖掘