巴蜀网

 找回密码
 免费注册

QQ登录

只需一步,快速开始

同板块主题的 前一篇 同板块主题的 后一篇
开启左侧
查看: 779|回复: 0
1# 贡嘎山
跳转到指定楼层

[纪实·新闻先打草稿可以生成更高质量的文本,Percy Liang新论文广受赞誉

 [复制链接]
源自:雷锋
  雷锋网 AI 科技评论按:文本生成是自然语言处理NLP领域的重要问题,许多知名学者都提出了自己的方法,改善现阶段文本生成中丰富性不足、句法语意不自然、长句生成困难等问题,比如不久之前我们做过报道的上海交通大学俞勇、张伟楠联合UCL汪军发表的“LeakGAN”、Percy Liang的ICML2017最佳论文「Understanding Black-box Predictions via Influence Functions」。
  Percy Liang是NLP领域的著名研究者,师从Michael I.Jordan,现为斯坦福大学教授;除了论文得到广泛认可之外,Percy Liang还拿下了 IJCAI 2016 计算机和思想奖(Computers and Thought Award)。
  近期,Percy Liang团队的一篇新论文提出了一种新的文本生成新方法,「Generating Sentences by Editing Prototypes」(用修改草稿的方式生成句子),这个方法不仅符合直觉,生成的效果也非常好,引起了很多研究者的注意和赞誉。以下雷锋网 AI 科技评论对这篇论文做简单介绍。
论文内容
这篇论文中提出了一种新的句子生成模型。它首先从样本语料库中随机采样一个句子作为“草稿”(论文中prototype),然后再把这个草稿编辑为一个新的句子(如下图)
此前表现较好的系统大多数都是基于循环神经语言模型(NLM)的,它们“从零开始”生成句子,顺序往往从左到右。这类模型中很容易观察到生成通用化应答的问题,比如“我不知道”这样。为了提高生成文本的丰富性,目前采用的比较直白的策略都会导致语法准确性的降低,表明目前的NLM模型可能并不具备对复杂应答的各种可能性做完全表征的能力。
  论文作者们由此想到了人类写作时常常有先打草稿、再逐渐把它修改为一篇精美文章的做法,由此提出了文中的模型。模型首先会从训练语料库中随机采样一个草稿句子,然后激活一个神经网络编辑器;这个编辑器会生成随机的“编辑向量”,然后根据编辑向量对草稿句子做条件编辑,从而生成新的句子。
  这个思路的出发点在于,语料库中的句子提供了一个高质量的起点:它们语法正确,天然地具有复杂性,而且不会对长短和模糊性有任何偏好。编辑器中的注意力机制就会从草稿中提取出丰富的文本信息,然后把它泛化为新的句子。
  模型的训练方式是最大化估计生成模型的对数最大似然。这个目标函数是训练集中具有相似词法的句子对的和,从而可以用局部敏感哈希(Locality Sensitive Hashing)做量化估计。论文中同时用实证方法表明,多数词法相同的句子同时在语义上也是相似的,这样给神经编辑器的语义结构方面带来了额外的益处。比如,作者们可以让一个神经编辑器从一个种子句子出发,探索很大一片语义空间。
  作者们从两个方面对比了这个“先打草稿再优化”的模型和以往从零生成的模型:语言生成质量以及语义属性。对于语言生成质量,人类评价者给论文中的模型打了更好的分数,在Yelp语料库上把复杂度(perplexity)提升了13分,在One Billion Word Benchmark中提升了7分。对于语义属性,论文中表明隐编辑向量在语义相似性、局部控制文本生成和句子模拟任务中优于标准的句子可变编码器。
  下图是一组草稿句子和修改后句子的对比,有显著的不同,并且保持了高质量
社交网络上的评价  论文公布并经过转推扩散开来后,许多研究者都在推特上表示了对这篇论文的认可
(Percy Liang实验室带来的聪明的句子生成方法:从语料库中的例子开始,学习加上有模有样的变化)
(下面网友说:“这看起来很像我学英语的方法”)
更多论文细节请阅读原文 https://arxiv.org/abs/1709.08878
  雷锋网(公众号:雷锋网)AI 科技评论编译

☆ 相关资讯
  《安娜卡列尼娜》文本生成──利用 TensorFlow 构建 LSTM 模型
  强化学习在生成对抗网络文本生成中扮演的角色(Role of RL in Text Generation by GAN)(上)
  强化学习在生成对抗网络文本生成中扮演的角色(Role of RL in Text Generation by GAN)(下)
  如何让对抗网络GAN生成更高质量的文本?LeakGAN现身说法:“对抗中,你可能需要一个间谍!”
『 巴蜀网 』提醒,在使用本论坛之前您必须仔细阅读并同意下列条款:
  1. 遵守《全国人大常委会关于维护互联网安全的决定》及中华人民共和国其他各项有关法律法规,并遵守您在会员注册时已同意的《『 巴蜀网 』管理办法》;
  2. 严禁发表危害国家安全、破坏民族团结、破坏国家宗教政策、破坏社会稳定、侮辱、诽谤、教唆、淫秽等内容;
  3. 本帖子由 上官123 发表,享有版权和著作权(转帖除外),如需转载或引用本帖子中的图片和文字等内容时,必须事前征得 上官123 的书面同意;
  4. 本帖子由 上官123 发表,仅代表用户本人所为和观点,与『 巴蜀网 』的立场无关,上官123 承担一切因您的行为而直接或间接导致的民事或刑事法律责任。
  5. 本帖子由 上官123 发表,帖子内容(可能)转载自其它媒体,但并不代表『 巴蜀网 』赞同其观点和对其真实性负责。
  6. 本帖子由 上官123 发表,如违规、或侵犯到任何版权问题,请立即举报,本论坛将及时删除并致歉。
  7. 『 巴蜀网 』管理员和版主有权不事先通知发帖者而删除其所发的帖子。
时隔14年这部法律大修 关乎6亿中国人的生存 苹果揭秘“Hey Siri”的开发细节,原来不仅有两步检测,还能辨别说话人
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

© 2002-2025, 蜀ICP备12031014号, Powered by 5Panda
GMT+8, 2025-5-5 01:02, Processed in 0.140400 second(s), 8 queries, Gzip On, MemCache On
同板块主题的 后一篇 !last_thread! 快速回复 返回顶部 返回列表