基于数值数据理解和重要信息验证的数据到文本生成模型
- 2020-11-25 15:07:00
- 刘大牛 转自文章
- 316
论文名称:Enhancing Content Planning for Table-to-Text Generation with Data Understanding and Verification 论文作者:龚恒,闭玮,冯骁骋,秦兵,刘晓江, 刘挺 原创作者:龚恒 论文链接:https://www.aclweb.org/anthology/2020.findings-emnlp.262.pdf 转载须标注出处:哈工大SCIR
1. 简介
图1 任务示例,NCP是基线模型生成的结果,Gold是参考文本。Extracted Records是文本中提到的数据。
2. 背景和动机
这个任务上的模型可以分为两大类:传统的流水线模型和端到端模型。流水线模型[3,4]将整个任务划分为多个阶段,依次生成。其中,主要的阶段包括内容 规划 (stage 1,选择和排序重要信息)和表层实现(stage 2,用自然语言对重要信息进行描述),而大多数端到端模型直接根据输入的结构化数据,生成对应的文本[5,6,7,8,9]。Puduppully等人[2]提出了一个两步 生成模型 (NCP),在保持端到端模型生成连贯文本的能力的同时,允许对模型的内容 规划 能力进行显式优化。他们的结果显示,模型的内容 规划 能力离它的上限还有很大的距离,也是制约整个 数据到 文本生成 任务的瓶颈。根据我们的观察,输入的某项数据是否应当被提及和这项数据对应的数值相关,而NCP等模型将数值视为词进行建模,缺少对数值关系的建模。以图1为例,球员Lin得分18,在所在球队中排名第2,他的相关统计数据应当属于重要数据,但是却被NCP忽略了,我们认为这与模型缺少在表格上下文中建模数值信息间的关系有关。这还会影响到表层实现的效果。仍然以图1为例,虽然Nets队比Grizzlies队得分高,但是NCP生成文本的时候却说Grizzlies队打败了(defeated)Nets队。另外,目前的模型采用最大化似然估计(MLE)的方法来优化内容 规划 模块,缺少面向内容 规划 的针对性的优化目标。
为了解决上面提到的问题,我们提出了数值数据理解和重要信息验证模块以增强模型的内容 规划 能力。3.2和3.3对该方法进行了详细介绍。
3. 方法
3.1 基线模型NCP
3.2 数值数据理解模块
3.3 重要信息验证模块
图2 模型结构图。1是我们提出的数值数据理解模块,3是重要信息验证模块,2是基线模型NCP的结构图。
4. 实验
4.1 数据集
4.2 评价指标
4.3 实验结果
表1 实验结果
4.4 生成案例
相比基线模型NCP(图1),正确地提到得分更高的Nets队打败了Grizzlies队。 相比基线模型NCP和ENT模型,在覆盖所有重要球员(红色标注)的情况下,过滤了大部分不重要的数据(蓝色标注)。 比较内容规划 结果(Planning)和生成文本中提到的信息(Extracted),生成的文本能够比较好地如实反映内容规划 阶段选出的重要信息,印证了这项任务的主要瓶颈是内容规划 。
图3 生成案例
5. 结论
参考文献
[1] Sam Wiseman, Stuart Shieber, and Alexander Rush. Challenges in data-to-document generation. EMNLP 2017.
[2] Ratish Puduppully, Li Dong , and Mirella Lapata. Data-to-text generation with content selection and planning. AAAI 2019.
[3] Karen Kukich. Design of a knowledge-based report generator. ACL 1983.
[4] Kathleen R McKeown. Text generation: using discourse strategies and focus constraints to generate natural language text. 1985.
[5] Liunian Li and Xiaojun Wan. Point precisely: Towards ensuring the precision of data in generated texts using delayed copy mechanism. COLING 2018.
[6] Feng Nie, Jinpeng Wang, Jin-Ge Yao, Rong Pan, and Chin-Yew Lin. Operation-guided neural networks for high fidelity data-to-text generation. EMNLP 2018.
[7] Ratish Puduppully, Li Dong , and Mirella Lapata. Data-to-text Generation with Entity Modeling. ACL 2019.
[8] Hayate Iso, Yui Uehara, Tatsuya Ishigaki, Hiroshi Noji, Eiji Aramaki, Ichiro Kobayashi, Yusuke Miyao, Naoaki Okazaki, and Hiroya Takamura. Learning to Select, Track, and Generate for Data-to-Text. ACL 2019.
[9] Heng Gong, Xiaocheng Feng, Bing Qin, Ting Liu. 2019. Table-to-Text Generation with Effective Hierarchical Encoder on Three Dimensions (Row, Column and Time). EMNLP 2019.
[10] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin. Attention is all you need. NIPS 2017.
[11] Richard S Sutton and Andrew G Barto. Introduction to reinforcement learning, volume 135. 1998.

哈尔滨工业大学社会计算与信息检索研究中心
联系人: | 透明七彩巨人 |
---|---|
Email: | weok168@gmail.com |