简单易用NLP框架Flair发布新版本!(附教程)

2018-12-27 14:57:00
刘大牛
转自文章
228

Flair 是 Zalando Research 开发的一款简单易用的 Python NLP 库,近日,Flair 0.4 版发布!

Flair 具备以下特征:

  • 强大的 NLP 库。Flair 允许将当前最优自然语言处理 (NLP)模型应用于文本,如 命名实体识别 (NER)、 词性标注 (PoS)、 词义消歧 和分类。

  • 多语言。在 Flair 社区的支持下,该框架支持的语言种类快速增长。目前,Flair 还包括「one model, many languages」tagger,即一个模型可以预测不同语言输入文本的 PoS 或 NER 标记。

  • 文本嵌入库。Flair 的接口简单,允许用户使用和结合不同的词嵌入 和文档嵌入,包括 Flair 嵌入、BERT 嵌入和 ELMo 嵌入。

  • 基于 Pytorch 的 NLP 框架。该框架直接在 Pytorch 之上构建,方便用户训练自己的模型,以及使用 Flair 嵌入与类试验新方法。

Flair 0.4 版本集成了更多新模型、大量新语言、实验性多 语言模型 超参数 选择方法、 BERT 嵌入和 ELMo 嵌入等。

  • GitHub 链接:https://github.com/zalandoresearch/flair

  • Flair 0.4 版本功能简介:https://github.com/zalandoresearch/flair/releases

Flair 与其他最优方法的对比

Flair 在多项 NLP 任务上优于之前的最优方法:

近日, 机器学习 工程师 Tadej Magajna 撰文介绍了他使用 Flair 进行 文本分类 的过程,我们一起来看一下。

文本分类 是将句子或文本文档分类为一或多个预定义类别的监督式 机器学习 方法。它是一种广泛使用的 自然语言处理 任务,在垃圾邮件过滤、情感分析、新闻篇章分类等问题中发挥重要作用。

目前主要的最优方法主要依赖于文本嵌入。它将文本转换成高维空间中的数值表征,允许文档、句子、单词、字符表示为该高维空间中的向量。

Zalando Research 近期发表的论文《Contextual String Embeddings for Sequence Labeling》提出了一种新方法,它持续优于之前的最优方法。这种方法基于 Flair 实现,并得到 Flair 的全力支持,该方法可用于构建 文本分类 器。

1. 准备

要安装 Flair,你需要先安装 Python 3.6。Python 3.6 安装指南:https://realpython.com/installing-python/

然后,运行以下命令安装 Flair:

pip install flair

这样就可以安装运行 Flair 所需全部包,包括 PyTorch。

2. 使用预训练分类模型

新发布的 Flair 0.4 版本包括两个预训练模型。一个是在 IMDB 数据集上训练的情感分析模型,另一个是「恶意语言检测」模型(目前仅支持德语)。

使用、下载和存储模型已被集成到一个方法中,这样使用预训练模型的过程更加直接便捷。

要使用情感分析模型,只需运行以下代码:

from flair.models import TextClassifier
from flair.data import Sentence
classifier = TextClassifier.load(en-sentiment)
sentence = Sentence(Flair is pretty neat!)
classifier.predict(sentence)
# print sentence with predicted labels
print(Sentence above is: , sentence.labels)

第一次运行上述代码时,Flair 会下载该情感分析模型,并默认将其存储到主目录的.flair 子文件夹。该过程需要几分钟时间。

上述代码首先加载所需库,然后将情感分析模型加载到内存中,接下来在 0 到 1 的分数区间中预测句子「Flair is pretty neat!」的情感分数。最后的命令输出是:The sentence above is: [Positive (1.0)]。

现在你可以将代码整合到 REST api 中,这样就可以提供可与谷歌的 Cloud Natural Language API 情感分析相媲美的服务,而后者在应用于大量请求的生产过程中时较为昂贵。

3. 训练自定义文本分类

要训练自定义 文本分类 器,我们首先需要一个标注数据集。Flair 的 分类数据 集格式基于 Facebook 的 FastText 格式。该格式需要在每一行的开头用前缀 __label__ 定义一或多个标签。格式如下所示:

__label__<class_1> <text>
__label__<class_2> <text>

本文将基于 Kaggle 的 SMS Spam Detection 数据集用 Flair 构建垃圾邮件分类器。该数据集适合学习,因为它只包含 5572 行,足够小,可以在 CPU 上几分钟内完成模型训练。

该数据集中的 SMS 信息被标注为垃圾(spam)或非垃圾(ham)。

3.1 预处理:构建数据集

首先下载数据集,以获取 spam.csv。然后,在数据集所在目录中运行以下预处理代码段,将数据集分割成训练集、开发集和测试集。

确保你的计算机上安装了 Pandas。如果没有安装,先运行 pip install pandas。

import pandas as pd
data = pd.read_csv("./spam.csv", encoding=latin-1).sample(frac=1).drop_duplicates()
data = data[[v1, v2]].rename(columns={"v1":"label", "v2":"text"})

data[label] = __label__ + data[label].astype(str)

data.iloc[0:int(len(data)*0.8)].to_csv(train.csv, sep=	, index = False, header = False)
data.iloc[int(len(data)*0.8):int(len(data)*0.9)].to_csv(test.csv, sep=	, index = False, header = False)
data.iloc[int(len(data)*0.9):].to_csv(dev.csv, sep=	, index = False, header = False);

这样可以移除数据集中的重复项,打乱(shuffle)数据集,按 80/10/10 将数据分割成训练集、开发集和测试集。

运行成功,你会看到 FastText 格式的 train.csv、test.csv 和 dev.csv,可以直接用于 Flair。

3.2 训练自定义 文本分类 模型

在生成数据集的目录中运行以下代码:

from flair.data_fetcher import NLPTaskDataFetcher
from flair.embeddings import WordEmbeddings, FlairEmbeddings, DocumentLSTMEmbeddings
from flair.models import TextClassifier
from flair.trainers import ModelTrainer
from pathlib import Path

corpus = NLPTaskDataFetcher.load_classification_corpus(Path(./), test_file=train.csv, dev_file=dev.csv, train_file=test.csv)
word_embeddings = [WordEmbeddings(glove), FlairEmbeddings(news-forward-fast), FlairEmbeddings(news-backward-fast)]
document_embeddings = DocumentLSTMEmbeddings(word_embeddings, hidden_size=512, reproject_words=True, reproject_words_dimension=256)

classifier = TextClassifier(document_embeddings, label_dictionary=corpus.make_label_dictionary(), multi_label=False)
trainer = ModelTrainer(classifier, corpus)
trainer.train(./, max_epochs=20)

首次运行上述代码时,Flair 将下载所需的全部嵌入模型,这需要几分钟时间。接下来的整个训练过程需要 5 分钟时间。

该代码段先将所需的库和数据集加载到 corpus 对象中。

接下来,我们创建嵌入列表(两个 Flair contextual string 嵌入和一个 GloVe 词嵌入 )。然后将该嵌入列表作为文档嵌入对象的输入。 堆叠 和文档嵌入(stacked and document embedding)是 Flair 中最有趣的概念之一,提供了将不同嵌入结合起来的方法。你可以使用传统 词嵌入 (如 GloVe word2vec 、ELMo)和 Flair contextual string 嵌入。上述例子使用基于 LSTM 的方法结合 词嵌入 和 contextual string 嵌入,以生成文档嵌入。

详见:https://github.com/zalandoresearch/flair/blob/master/resources/docs/TUTORIAL_5_DOCUMENT_EMBEDDINGS.md

最后,上述代码训练模型输出 final-model.pt 和 best-model.pt 文件,表示存储的训练好的模型。

3.3 使用训练好的模型进行预测

在相同目录中运行以下代码,使用导出的模型生成预测结果:

from flair.models import TextClassifier
from flair.data import Sentence

classifier = TextClassifier.load_from_file(./best-model.pt)
sentence = Sentence(Hi. Yes mum, I will...)
classifier.predict(sentence)
print(sentence.labels)

输出结果是 [ham (1.0)],表示该模型 100% 确定示例信息并非垃圾消息。

参考链接:https://towardsdatascience.com/text-classification-with-state-of-the-art-nlp-library-flair-b541d7add21f

工程 NLP PyTorch 自然语言处理 Flair
5
发表评论
评论通过审核后显示。
文章分类
联系我们
联系人: 透明七彩巨人
Email: weok168@gmail.com