巴蜀网

 找回密码
 免费注册

QQ登录

只需一步,快速开始

开启左侧
查看: 69|回复: 0
 红英 发表于: 2018-1-31 10:35:00|显示全部楼层|阅读模式

[纪实·新闻] 微软这个新工具让你当一回“造物主”

 [复制链接]
  本文来自爱范儿
  现在是咸蛋超人直播答题现场,奖金 100万,请看本次答题的最后一题:
  图片中的这只鸟类的学名叫什么?
dh9c-fyqzcxh9921489.jpg
  如果真有这题,估计没人能真答对。即使用上了答题助手,求助科学达人,甚至动物学家都会全军覆没。
  因为这只小鸟实际上并不存在,是微软的AI工具AttnGAN生成的一张假照片,操作十分简单,只要你根据想象输入对这只鸟类的一句话描述,这只不存在的鸟类就诞生了。
pwn--fyqzcxh9921536.jpg
  这是微软研究实验室最近开发的一项人工智能技术AttnGAN,可以让AI根据类似字幕的文本描述生成相应的图片。
  其实根据文本生成图像的技术不算新鲜,但微软称AttnGAN生成的图像质量比此前的文本生成图像技术相比提高了近 3 倍,微软研究实验室的首席研究员 Xiaodong He 表示:
  四年前还没人相信这个技术能做到这种程度。

当AI拥有想象力
  到底AttnGAN这项技术有什么了不起,总结起来其实就三个字:想象力。
  以开头那只小鸟为例,如果我们要凭空画出来,大概步骤会是这样,先在那脑海中想象这幅画的样子:一只腹部红白相间、黑色翅膀、短喙的小鸟。然后先在纸上勾勒出鸟身的轮廓,然后用不同颜色的画笔画出鸟身的各个部位,最后画上黑色短小的鸟喙。
Um_N-fyqzcxh9921833.jpg
(图自:时光网)
  而AttnGAN也可以完成这样需要丰富想象力的工作,微软研究人员称之为绘图机器人。Xiaodong He 认为这样这项技术的挑战在于,需要让绘图机器人想象出文字描述中没有包含的细节:
  这意味着,你需要让AI通过机器学习的算法想象出这个图像中缺失的部分。

  目前 Google 和 Adobe 的一些图片生成技术都是基于真实的图片开始生成,而微软这个绘图机器人则是从像素点开始生成,是真的‘凭空想象’。
ejxy-fyqzcxh9921888.gif
(小鸟照片生成过程)
  比如那幅小鸟的照片,输入的文本中并没有提到它会站在一个树枝上,最后的结果其实是来自AI在大量数据学习后的想象。
  这一切都是通过一个生成式对抗网络(Generative Adversarial Network,GAN)完成的。顾名思义,这是由‘敌对’的两个机器学习模型组成。一个负责从文本描述生产图像,另一个是鉴别器(discriminator),负责判断生产图片的真实性。
ntHc-fyqzcxh9921995.jpg
  如果鉴别器判定生成的图片不合格,就会打回重做。而负责从文本描述生产图像的AI模型则要想方设法提高图片的真实性,以‘欺骗’鉴别器的火眼金睛。两者相互矛盾又相互配合,让最终生产的图片可信度更高。
aA4u-fyqzcxh9922043.jpg
  此外微软的这个绘图机器人高度模仿了人类绘画的思路。在人类的绘画过程中,会对正在描绘的部分十分专注,根据反复想象画出下一部分的内容。
  AttnGAN 模拟了了这个过程,将输入的文本拆解为各个单词,再分别将这些关键词与图像中的特定区域相匹配。微软研究实验室的首席研究员 Xiaodong He 表示:
  注意力是一个人类的概念,我们把这个概念变成了一个机器学习的问题。
  尽管微软这个绘图机器人在文本到图像的生成方面取得了突破,不过实际上目前仍不够成熟。上文中提到的那只‘不存在’的小鸟,照片像素只有 256×256,这已经是它能做到的极限了。
  而这些机器生成的照片如果仔细查看,还是会有不少破绽。比如这幅这张根据‘摆放了香蕉和奇异果’的文本描述生成的照片,可以看到香蕉发生了明显的变形。
PbD1-fyqzcxh9922162.jpg
  而面对某些更为复杂的文字描述,AttnGAN 显然还无法很好地理解。研究人员对其进行了一系列难度测试,比如输入‘漂浮在湖面上的红色双层巴士’。结果生成的却是一艘红白相间的游艇,可能是AI认为巴士漂浮在湖面并不可能。
z_Ie-fyqzcxh9922192.jpg
  而一些看似简单的文字描述AttnGAN也未必能领会,比如面对‘一个吃披萨的女孩’的文字命令,它生成的是一张人脸几乎无法辨认甚至有点惊悚的照片。
Yts8-fyqzcxh9922258.jpg
  微软的研究人员表示,这个绘图机器人还需要学习更多常识和背景知识才能绘制出更逼真和复杂的图像。

绘图机器人是福还是祸?
  说了这么多,微软的绘图机器人在生活中有有什么用呢?
  微软表示,随着这种文本到图像的生成技术逐渐成熟,它可以作为画家和设计师的智能助理,还能通过语音指令来美化图片,甚至能基于电影剧本生成动画电影,降低动画电影制作的成本。
1v-c-fyqzcxh9922401.jpg
(AI 编剧的电影《Sunspring》,图自:YouTube)
  不过如果生成一张虚构照片真的只需要一句话,这样的低门槛也可能让假新闻和谣言的滋长和传播增添一大利器。
  在社交网络里,我们市场看到一些营销号‘发现’了奇葩的或者已经灭绝的新物种照片,偶尔还会被一些媒体当作新闻报道。
  其中最为知名的则是发生在2007年的华南虎事件,陕西林业厅公布了猎人周正龙用数码相机和胶片相机拍摄的野生华南虎照片。
TN6j-fyqzcxh9922550.jpg
  当时野生华南虎已经基本绝迹,因此照片公布后引起了全国范围的关注,不过这些照片很快就被证明是根据一张年画伪造的。
  过去做这样的假新闻还需要比较好的P图技术,而微软绘图机器人这样的工具,可能让生成假照片变得更加容易,也更难以甄别真假。
  去年7月份,美国华盛顿大学的研究者们就利用人工智能以及数字图像合成技术,生产了一段真假难辨的奥巴马演讲视频。
26hS-fyqzcxh9922616.gif
(你能分辨出哪个才是真的奥巴马演讲视频吗?图片来源:YouTube)
  而最近还有人利用AI工具把好莱坞女星的脸嫁接到色情影片的演员上。
  尽管如此,也不必对这种技术过于担忧。很多科技产物本事就是双刃剑,就像核裂变的链式反应既可以给人类的大量能源,也能发生核泄漏或者变成核弹毁了一座城市。
  科技让生活更美好,前提是我们能掌控它,我们要做的是想办法去掌控它,而不是因为它的副作用而把它关进盒子里。
『 巴蜀网 』提醒,在使用本论坛之前您必须仔细阅读并同意下列条款:
  1. 遵守《全国人大常委会关于维护互联网安全的决定》及中华人民共和国其他各项有关法律法规,并遵守您在会员注册时已同意的《『 巴蜀网 』管理办法》;
  2. 严禁发表危害国家安全、破坏民族团结、破坏国家宗教政策、破坏社会稳定、侮辱、诽谤、教唆、淫秽等内容;
  3. 本帖子由 红英 发表,享有版权和著作权(转帖除外),如需转载或引用本帖子中的图片和文字等内容时,必须事前征得 红英 的书面同意;
  4. 本帖子由 红英 发表,仅代表用户本人所为和观点,与『 巴蜀网 』的立场无关,红英 承担一切因您的行为而直接或间接导致的民事或刑事法律责任。
  5. 本帖子由 红英 发表,帖子内容(可能)转载自其它媒体,但并不代表『 巴蜀网 』赞同其观点和对其真实性负责。
  6. 本帖子由 红英 发表,如违规、或侵犯到任何版权问题,请立即举报,本论坛将及时删除并致以最深的歉意。
  7. 『 巴蜀网 』管理员和版主有权不事先通知发帖者而删除其所发的帖子。
分享到:
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

© 2002-2018, 蜀ICP备12031014号, Powered by 5Panda
GMT+8, 2018-8-18 18:15, Processed in 0.249601 second(s), 12 queries, Gzip On, MemCache On
快速回复 返回顶部 返回列表