先打草稿可以生成更高质量的文本，Percy Liang新论文广受赞誉

上官123 · 发表于: 2017-11-1 16:35:00

源自：雷锋网

　　雷锋网 AI 科技评论按：文本生成是自然语言处理NLP领域的重要问题，许多知名学者都提出了自己的方法，改善现阶段文本生成中丰富性不足、句法语意不自然、长句生成困难等问题，比如不久之前我们做过报道的上海交通大学俞勇、张伟楠联合UCL汪军发表的“LeakGAN”、Percy Liang的ICML2017最佳论文「Understanding Black-box Predictions via Influence Functions」。
　　Percy Liang是NLP领域的著名研究者，师从Michael I.Jordan，现为斯坦福大学教授；除了论文得到广泛认可之外，Percy Liang还拿下了 IJCAI 2016 计算机和思想奖（Computers and Thought Award）。
　　近期，Percy Liang团队的一篇新论文提出了一种新的文本生成新方法，「Generating Sentences by Editing Prototypes」（用修改草稿的方式生成句子），这个方法不仅符合直觉，生成的效果也非常好，引起了很多研究者的注意和赞誉。以下雷锋网 AI 科技评论对这篇论文做简单介绍。
论文内容

_S7B-fynfvfi1657700.jpg 保存到相册

这篇论文中提出了一种新的句子生成模型。它首先从样本语料库中随机采样一个句子作为“草稿”（论文中prototype），然后再把这个草稿编辑为一个新的句子（如下图）

8f33-fynhhay9558533.jpg 保存到相册

此前表现较好的系统大多数都是基于循环神经语言模型（NLM）的，它们“从零开始”生成句子，顺序往往从左到右。这类模型中很容易观察到生成通用化应答的问题，比如“我不知道”这样。为了提高生成文本的丰富性，目前采用的比较直白的策略都会导致语法准确性的降低，表明目前的NLM模型可能并不具备对复杂应答的各种可能性做完全表征的能力。
　　论文作者们由此想到了人类写作时常常有先打草稿、再逐渐把它修改为一篇精美文章的做法，由此提出了文中的模型。模型首先会从训练语料库中随机采样一个草稿句子，然后激活一个神经网络编辑器；这个编辑器会生成随机的“编辑向量”，然后根据编辑向量对草稿句子做条件编辑，从而生成新的句子。
　　这个思路的出发点在于，语料库中的句子提供了一个高质量的起点：它们语法正确，天然地具有复杂性，而且不会对长短和模糊性有任何偏好。编辑器中的注意力机制就会从草稿中提取出丰富的文本信息，然后把它泛化为新的句子。
　　模型的训练方式是最大化估计生成模型的对数最大似然。这个目标函数是训练集中具有相似词法的句子对的和，从而可以用局部敏感哈希（Locality Sensitive Hashing）做量化估计。论文中同时用实证方法表明，多数词法相同的句子同时在语义上也是相似的，这样给神经编辑器的语义结构方面带来了额外的益处。比如，作者们可以让一个神经编辑器从一个种子句子出发，探索很大一片语义空间。
　　作者们从两个方面对比了这个“先打草稿再优化”的模型和以往从零生成的模型：语言生成质量以及语义属性。对于语言生成质量，人类评价者给论文中的模型打了更好的分数，在Yelp语料库上把复杂度（perplexity）提升了13分，在One Billion Word Benchmark中提升了7分。对于语义属性，论文中表明隐编辑向量在语义相似性、局部控制文本生成和句子模拟任务中优于标准的句子可变编码器。
　　下图是一组草稿句子和修改后句子的对比，有显著的不同，并且保持了高质量

S7Vc-fynfvff4881209.jpg 保存到相册

社交网络上的评价　　论文公布并经过转推扩散开来后，许多研究者都在推特上表示了对这篇论文的认可

U-Tb-fynhhay9558566.jpg 保存到相册

（Percy Liang实验室带来的聪明的句子生成方法：从语料库中的例子开始，学习加上有模有样的变化）

zknd-fynfvff4881218.jpg 保存到相册

（下面网友说：“这看起来很像我学英语的方法”）

Mt_k-fynfvfi1657726.jpg 保存到相册

更多论文细节请阅读原文 https://arxiv.org/abs/1709.08878
　　雷锋网（公众号：雷锋网）AI 科技评论编译

☆　相关资讯
　　《安娜卡列尼娜》文本生成──利用 TensorFlow 构建 LSTM 模型
　　强化学习在生成对抗网络文本生成中扮演的角色（Role of RL in Text Generation by GAN）（上）
　　强化学习在生成对抗网络文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）
　　如何让对抗网络GAN生成更高质量的文本？LeakGAN现身说法：“对抗中，你可能需要一个间谍！”

帐号		自动登录	找回密码
密码			免费注册

[纪实·新闻] 先打草稿可以生成更高质量的文本，Percy Liang新论文广受赞誉

浏览过的版块