分析350万本书110亿个词汇后,算法揭示出语言中「男女有别」的偏见现象

性别歧视和性别刻板印象并不总是在生活中或媒体中出现。但如果你细心感受,你会发现人们用来形容男女的词汇似乎大多数都带有一些性别属性。正如标题所说的,当人想要描述某一女性时,往往可能会说“漂亮的女人”或者“可爱的女孩”。而当想要描述某一男性时,往往会是“理性的男人”或者“勇敢的男孩”。长期以来, 针对性别描述的语言一直是社会语言学的一个重要领域

图片来源:Pexels

来自哥本哈根大学(University of Copenhagen)和其他大学的计算机科学家们根据一种新的机器学习算法,对350万本书展开了研究。 研究结果显示,描述男性时,通常会选择用与他们行为相关的词汇来描述,而女性则用与外貌相关的词汇来描述。“美丽”和“性感”是描述女性时最常用的两个形容词,而“正直”、“理性”和“勇敢”则是描述男人时常用的词汇。

哥本哈根大学的一位计算机科学家与来自美国的研究人员一起查阅了大量书籍,试图找出文学作品中描述男性和女性的词汇类型是否存在差异。他们使用一种新的计算机模型分析了一个包含1900年至2008年间出版的英文书籍的数据库,其中包括小说和非小说文学。

“我们可以清楚地看到,用于形容女性的词汇更多地是指向她们的外表,而不是那些用来形容男性的词汇。“哥本哈根大学计算机科学Isabelle Augenstein教授说:”我们现在相当于是在统计学的意义上证实了一个普遍的看法。“

研究人员提取了与性别相关的形容词和动词,得到了例如“性感的空姐”或“爱闲聊的女孩”这样的组合。然后,他们分析了这些词是否具有积极、消极或中性的情绪,并逐个进行分类。

他们的分析表明, 描述女性身体和外表相关的贬义词汇的使用频率是男性的5倍。在 对男性的描述中,与身体和外貌有关的褒义和中性形容词出现的频率大约是描述女性的2倍,描述男性时最常使用的形容词则是关于他们的行为和个人品质的。

最常用于描述男性和女性的不同词汇(图片来源:Alexander Hoyle et al.)在过去,语言学家通常会用相对较小的数据库来研究性别化语言和偏见的流行程度。而现在,计算机科学家能够运用机器学习算法来分析大量的数据。例如,在这个研究中科学家们就分析了110亿个词汇。

Isabelle Augenstein教授指出,尽管许多书籍都是几十年前出版的,但它们仍然发挥着积极的作用。以在线文本材料的数据,创建能够理解人类语言的机器和应用程序的算法,有望让智能手机识别我们的声音,并提供关键字的搜索建议。

“这些算法具有识别模式,无论何时只要它识别到一个模式,就会认为它是存在的。如果这些模式中的任何一个指向有偏见的语言,那么将会被分类到有偏见的类目之中。”Isabelle Augenstein教授说:“这些系统采用了我们人类使用的语言,也采用了人们对性别刻板印象和偏见。”

例如,当公司使用IT系统对求职申请进行分类时,如果用来描述男性和女性的语言不同,那么这将影响着谁将获得这份工作。随着人工智能和语言技术的应用在社会上的日益增多,能够意识到性别化语言是非常重要的。Isabelle Augenstein教授表示,在开发机器学习模型时,我们可以尝试减少使用有偏见的文本,或者将模型定义为忽略或抵消偏见文本,这样的可行性会更高一些。

▲哥本哈根大学计算机科学系计算机科学家兼助理教授IsabelleAugenstein(图片来源:哥本哈根大学官网)不过,研究人员指出这项分析还是具有局限性,因为没有考虑到是谁写了这些文章,以及这些书是在数据库时间轴的哪一段时间出版而存在的偏见程度差异。此外,这项研究也没有根据文章的体裁来区分。研究人员目前正在根据这其中几个有影响的分类项目进行进一步的研究。

题图来源:Pexels

参考资料:

[1] Womenare beautiful, men rational. Retrieved Aug 28, 2019, from https://neurosciencenews.com/male-female-adjectives-14804/
[2] UnsupervisedDiscovery of Gendered Language through Latent-Variable Modeling Retrieved Aug 28,2019, from https://copenlu.github.io/publication/2019_acl_hoyle/


药明康德AI
药明康德AI

药明康德微信团队专业打造。当人工智能遇上大健康,带你看全AI时代的智慧之光。

专栏二维码
产业 机器学习 性别歧视 哥本哈根大学
2