在经历多天的“难产”之后,美国大选计票结果终于有个一个确定的结果,民主党总统候选人乔·拜登确认胜选成为美国第46任总统。似乎这出年度大戏已经落下帷幕,但是,就在选举之夜,第一轮计票开始后不到24小时,媒体和政治阶层已经宣布了一个失败者:民调。
这不是民调第一次“发挥失常”,早在2016年大选后,许多民调专家还否认他们的职业一头走向下坡路的说法:全国民调平均值预测,希拉里·克林顿(Hillary Clinton)将以略低于四个百分点的优势赢得普选,她最终也以略高于两个百分点的优势在普选中获胜。但是,美国的选举是由选举团中的摇摆州决定的,而不是由普选决定的。因此,那一年的最终结果也令大多数人始料未及。
(来源:AP / David Dermer)
那么,是否有比传统民调更准确的方法来预测选举结果呢?
美国西雅图非营利性研究中心艾伦人工智能研究所首席执行官奥伦.埃齐奥尼(Oren Etzioni)表示:"我不会解雇民意测验者,但我会引导他们更好地利用机器学习、数据挖掘和人工智能来更好地预测。
仿佛,人工智能成了民调机构手里的一棵救命稻草。
AI预测大选,需要几步?
首先你需要明白,没有一个人或算法能够一直准确预测人类的行为,然而,传统民意测验的的问题是,民意调查者使用的模型主要基于历史分类和平均值。那么我们就需要规避这些“僵硬”的数据指标。
然后,你需要一个数据源,像亚马逊这样的科技公司能够利用算法捕捉实际行动,简单来说,亚马逊的算法不管你是谁,它只知道:当你去买个狗项圈,那么你也很可能会买狗粮。因此,这些反应行为的数据需要不断地大量抓取,尽管很困难,但在动态识别助推概率预测的模式和相关性方面能带来无限的帮助。
接下来就是建立模型,由于收集数据源的侧重点不同,建立的模型也会有差异。著名分析公司 KCore Analytics 就从社交媒体帖子中预测:拜登在民众投票中将占优势——大约 8 或 9 个百分点——但在选举团方面,优势很小。具体操作是利用了一个端到端的框架在 Twitter 之类的网络中查找影响者和主题标签。根据内容和频率选择数据,然后在一个称为 AWS-LSTM 的 AI 模型中对意见进行分类测算,据称准确性高达 89.5%。而这一切都基于该公司使用超过 10 亿条推文的数据挖掘。
总部设在意大利的 Expert.AI 公司,尝试分析一些因素如语气和情感,并预测如何可能转化为选票。相比于 KCore Analytics,Expert.AI 就显得干练很多,具体操作是利用一个知识图来标识命名实体(包括人员、公司和地点)并尝试对它们之间的关系进行建模。有趣的是,其系统将 84 个情感标签贴在 Twitter 和其他网络的数十万条帖子上,半自动地消除了机器人般的社交账户。
Expert.AI 的算法将标签按 1 到 100(反映其强度)的等级进行排名,并乘以每个候选值的匹配次数。同时,它将情绪分类为"积极"或"消极",并用它来创建一个可以比较两个候选项的索引。结果显示,拜登在社会媒体上的情绪排名更高,略高于特朗普(50.2% 对 47.3%)
无独有偶,由渥太华大学的科学家开发的"Advanced Symbolics polly"收集了一个随机的,受控的美国选民样本,例如“黑人的命也是命运动”“中国问题”“新冠疫情”等。通过他们的帖子和在社交媒体上的谈话进行识别。基于此预测得出:佛罗里达州将投票给拜登,并占该州总票数的 52.6%。事实后来我们都知道,特朗普在此翻盘,一度让盘面上的局势胶着不下。
图 | Advanced Symbolics polly 预测模型
以上都是一些通过抓取大数据来进行分析预测,当然也有一些机构对局部数据进行收集,通过智能“蜂群”放大,进而预测选民的意向。Unanimous.AI 就是这样一个公司,该公司团队 9 月份在美国进行的一项 50 人现场调查,要求他们预测他们认为谁将赢得 11 个州的总统竞选,以及以什么幅度赢得总统竞选。
Unanimous.AI 的实时调查允许用户实时查看其他参与者正在选择什么,机器学习算法根据答案变化等因素评估谁对自己的预测最有信心。最自信的答案对最终汇总答案的影响最大。不过虽然看起来该预测内容简单,但是它已经正确地预测了 10 个州竞选的获胜者。可谓"战绩"斐然.。
图 | Unanimous.ai 9月进行了一次现场调查,要求50名参与者预测谁将赢得11个战场州的总统竞选,以及以什么优势赢得总统竞选(来源:UNANIMOUS.AI)
并非所有的 AI 投票都那么准确
在 AI 预测将民意至于“显微镜”下的同时,我们也把 AI 预测推到民意验测者的 “显微镜” 之下,可以预见,一些预测的确精准无比,但是类似“Advanced Symbolics Polly“这样的 AI 预测系统也会“误入歧途”,例如 Advanced Symbolics Polly 得出佛罗里达州将投票给拜登,占该州总票数的 52.6% 的这一失准预测,就是因为该制度未能单独抽样古巴裔美国人(他们通常投票给共和党候选人)。换句话说,Advanced Symbolics Polly 把古巴裔美国人和委内瑞拉裔美国人,墨西哥裔美国人混为一谈,统一归为"西班牙人"。
正如《财富》杂志所指出的那样,无论预测的正确与否,这些模式都没有考虑到法律挑战、无信仰的选民(选举团成员不投票给他们承诺的候选人)或其他混淆者可能会影响选举结果的方式。在这些不断变化的参数条件下,AI 预测——就像传统的民意调查一样——似乎低估了 2020 年选民对特朗普的热情,特别是在黑人和拉丁裔选民以及 LGBTQ 社区成员中。
(来源:纽约时报)
ASI 联合创始人兼首席执行官艾琳.凯利(ErinKelly)表示:“使用人工智能来预测选举仍然是一个相对年轻的做法。AI 的优点之一是模型可以学习,并随着时间的推移而变得更好。”
我们经历的这一切似乎是一场轮盘赌博,在轮盘没有停下的时候,谁都说不准命运的小球会滑向哪一个数字,但相较于人类而言,人工智能在面对“赌局”的时候不会产生任何心里起伏。它们只会不断地积累数据,使最终结果逼近于正确答案。或许,对于 Advanced Symbolics Polly 那样的预测 AI 来说,今年的选举"只是一次学习经历"。
参考资料:
https://www.wsj.com/articles/artificial-intelligence-shows-potential-to-gauge-voter-sentiment-11604704009?mod=tech_lead_pos11
https://venturebeat.com/2020/11/06/how-ai-predictions-fared-against-pollsters-in-the-2020-u-s-election/
AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。
https://www.aminer.cn/