基于数值数据理解和重要信息验证的数据到文本生成模型
- 2020-11-25 15:07:00
- 刘大牛 转自文章
- 231
论文名称:Enhancing Content Planning for Table-to-Text Generation with Data Understanding and Verification 论文作者:龚恒,闭玮,冯骁骋,秦兵,刘晓江, 刘挺 原创作者:龚恒 论文链接:https://www.aclweb.org/anthology/2020.findings-emnlp.262.pdf 转载须标注出处:哈工大SCIR
1. 简介
2. 背景和动机
这个任务上的模型可以分为两大类:传统的流水线模型和端到端模型。流水线模型[3,4]将整个任务划分为多个阶段,依次生成。其中,主要的阶段包括内容 规划 (stage 1,选择和排序重要信息)和表层实现(stage 2,用自然语言对重要信息进行描述),而大多数端到端模型直接根据输入的结构化数据,生成对应的文本[5,6,7,8,9]。Puduppully等人[2]提出了一个两步 生成模型 (NCP),在保持端到端模型生成连贯文本的能力的同时,允许对模型的内容 规划 能力进行显式优化。他们的结果显示,模型的内容 规划 能力离它的上限还有很大的距离,也是制约整个 数据到 文本生成 任务的瓶颈。根据我们的观察,输入的某项数据是否应当被提及和这项数据对应的数值相关,而NCP等模型将数值视为词进行建模,缺少对数值关系的建模。以图1为例,球员Lin得分18,在所在球队中排名第2,他的相关统计数据应当属于重要数据,但是却被NCP忽略了,我们认为这与模型缺少在表格上下文中建模数值信息间的关系有关。这还会影响到表层实现的效果。仍然以图1为例,虽然Nets队比Grizzlies队得分高,但是NCP生成文本的时候却说Grizzlies队打败了(defeated)Nets队。另外,目前的模型采用最大化似然估计(MLE)的方法来优化内容 规划 模块,缺少面向内容 规划 的针对性的优化目标。
为了解决上面提到的问题,我们提出了数值数据理解和重要信息验证模块以增强模型的内容 规划 能力。3.2和3.3对该方法进行了详细介绍。
3. 方法
3.1 基线模型NCP
3.2 数值数据理解模块
3.3 重要信息验证模块
4. 实验
4.1 数据集
4.2 评价指标
4.3 实验结果
表1 实验结果
4.4 生成案例
相比基线模型NCP(图1),正确地提到得分更高的Nets队打败了Grizzlies队。 相比基线模型NCP和ENT模型,在覆盖所有重要球员(红色标注)的情况下,过滤了大部分不重要的数据(蓝色标注)。 比较内容规划 结果(Planning)和生成文本中提到的信息(Extracted),生成的文本能够比较好地如实反映内容规划 阶段选出的重要信息,印证了这项任务的主要瓶颈是内容规划 。
5. 结论
参考文献
[1] Sam Wiseman, Stuart Shieber, and Alexander Rush. Challenges in data-to-document generation. EMNLP 2017.
[2] Ratish Puduppully, Li Dong , and Mirella Lapata. Data-to-text generation with content selection and planning. AAAI 2019.
[3] Karen Kukich. Design of a knowledge-based report generator. ACL 1983.
[4] Kathleen R McKeown. Text generation: using discourse strategies and focus constraints to generate natural language text. 1985.
[5] Liunian Li and Xiaojun Wan. Point precisely: Towards ensuring the precision of data in generated texts using delayed copy mechanism. COLING 2018.
[6] Feng Nie, Jinpeng Wang, Jin-Ge Yao, Rong Pan, and Chin-Yew Lin. Operation-guided neural networks for high fidelity data-to-text generation. EMNLP 2018.
[7] Ratish Puduppully, Li Dong , and Mirella Lapata. Data-to-text Generation with Entity Modeling. ACL 2019.
[8] Hayate Iso, Yui Uehara, Tatsuya Ishigaki, Hiroshi Noji, Eiji Aramaki, Ichiro Kobayashi, Yusuke Miyao, Naoaki Okazaki, and Hiroya Takamura. Learning to Select, Track, and Generate for Data-to-Text. ACL 2019.
[9] Heng Gong, Xiaocheng Feng, Bing Qin, Ting Liu. 2019. Table-to-Text Generation with Effective Hierarchical Encoder on Three Dimensions (Row, Column and Time). EMNLP 2019.
[10] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin. Attention is all you need. NIPS 2017.
[11] Richard S Sutton and Andrew G Barto. Introduction to reinforcement learning, volume 135. 1998.
哈尔滨工业大学社会计算与信息检索研究中心
联系人: | 透明七彩巨人 |
---|---|
Email: | weok168@gmail.com |