在我看来,鸟看起来完全是真实的。一种特色是羽毛的蓬松黄色腹部。另一个是森林绿色的尾巴,带有长长的喙,看起来非常适合从树皮上钩住虫子。但是我正在查看的这些照片是完整的小说。它们是直接来自微软最新AI的想象力的图像attngan。它们是通过在系统中键入句子来创建的,例如:“这只鸟是红色和白色,喙很短。”然后,Attngan生成了这些高度逼真的256 x 256像素照片,这些照片是虚构的。
“四年前,没有人相信可以做这件事,”该项目的主要研究员Xiaodong说。
确实,在过去的五年中,他一直在研究图像和单词的关系,训练AIS完成各种令人信服的任务。首先,他创建了一个名为Captionbot这可以使用单词来描述照片,这是一项研究,现在是一项可访问性功能,可以帮助使用Microsoft产品的视力受损。然后,他进一步推动了这项研究,创建了一个AI,可以回答您可能会问的有关照片的特定问题。现在,与Attngan一起,他“关闭了循环”。换句话说,微软的AIS可以从单纯的单词中创建图像,然后另一个AI可以标题。
这些照片通常是现实的,尽管分辨率相对较低,而且在现实主义之外,它们的定制细节也很有特殊性。这是“ attngan”的“注意力”部分,因为每个图像的AI微调非常小的区域到口头规格。例如,这意味着鸟可以具有极为具体的特征,例如蓝喙,黄色的喙,长喙或短喙。从分辨率到即兴创作,再到包含有限细节,都比Google的广义素描AI。甚至Adobe的怪异图像创建工具所有都是从实际照片开始的,而不是空白的画布。
attngan是观鸟者的梦想,能够以可信的方式产生无数定制的鸟类。但是,鸟类的照片相对可预测:大多数是将鸟类栖息在树上的树枝上的鸟类,当您要求它绘制鸟时,它很容易被Attngan即兴。但是请问attngan将这些物体从它们的上下文中脱颖而出,并将其与其他一些物体混合在一起,而事情变得不那么糟糕。他说:“如果系统中对象存在复杂的属性或关系,那么机器会感到困惑,并绘制一些不如我们希望的东西。”在另一种案例中,研究人员要求“一个女孩吃一大片披萨的图像”。女孩的形状实际上很棒。但是,这张发明的肖像中几乎所有其他一切都脱颖而出。它看起来很奇怪。
他总结说:“机器仍然需要学习很多常识,以画出复杂物体的良好图片。”的确,在这两种失败的情况下,Attngan似乎都了解了要的要求,但是它缺乏根本的世界对观察关系,无法令人信服地吸引它们。这种逻辑对于地面的想象力是必不可少的。即便如此,他也没有受到威胁。在短短几年内,他坚持认为这些AI模型将大大改善,并且随着计算机加载更多的记忆力,研究人员也将能够使最终图像更大,更详细。鉴于他的进步了最后十年,很难不同意。最终,他认为Attngan风格的技术将完全改变创意工具。他想象Bing图像搜索根据需要发明照片 - 例如,如果您要求停车牌在天空中飞来飞去,而Istockphoto上没有这样的东西。但是快进一点,他看到该系统为艺术家或为设计师的房间布局生成图像,这些系统只需要进行一些调整即可令人信服。他甚至认为,在可预见的未来有一天,这样的AIS将能够将脚本翻译成交钥匙动画电影。
但是,目前,该研究旨在模糊人类思维与机器思维之间的界限。“这很有趣。这是一个基本的人工智能问题,‘什么是智力?是什么使我们与动物分开?''他沉思。“我们知道如何表达自己,并且知道如何阅读图像。[重复]对我而言,这类事情是一种[重现]人类一般智力的方法。”