优惠活动当前位置:主页 > 优惠活动 >

人工智能开始学习看漫画了,但仍然还赶不上人

时间:2016-11-25 11:35 作者:admin 点击:

  近日,来自马里兰大学帕克分校和科罗拉多大学波德分校的 Mohit Iyyer 等研究者在 arXiv 上发表了一篇论文《The Amazing Mysteries of the Gutter: Drawing Inferences Between Panels in Comic Book Narratives》介绍了他们这一可以给人类增加信心的研究结果。
 
  为了了解人工智能理解漫画情节的能力如何,这些研究者首先构建了一个包含了超过 120 万张漫画画格(panel)数据集 COMICS,其中每张画格还配备有相应的文本对话框转录数据,这些加起来使得这个数据集的大小达到了 120 GB。据该论文介绍,因为版权方面的原因,这些数据集是由来自 20 世纪 30 年代到 50 年代的漫画作品构成的。
 
  而更重要的是,和视频不一样,漫画的不同画格之间的时间和空间是不连贯的,中间的过渡情节往往需要读者自己的想象。这种在我们人类看来自然而然的能力对计算机来说却是难于登天。
 
  据介绍,这种将单张画格和之前的情节抽象地联系起来的过程叫做「闭合(closure)」。这些研究者用实际行动证明了这种能力目前仍然还是人类的专属技能。要对计算机的这种能力进行测试,研究者设计了让人工智能程序根据之前见过的画面预测下一个画格的实验。
 
  首先,机器必须要学习漫画的操作过程。所以研究小组将漫画中的一个画格及其文本投给不同的机器算法,让它们学习一组漫画中的每个画格之间是怎么相互连接的。这些机器已经预训练过识别自然界中对象,但是还没有训练过识别卡通对象。
 
  有了这些训练过的机器后,研究小组用一组机器之前没见过的漫画(包含好几个画格)测试了它们,并且要求它们预测下一张图像或者后面的一系列文本内容。
 
  在神经架构中结合图像和文本可以提升它们在 COMICS 故事中识别下一张图像或对话的能力。之前画格所呈现出的语境信息对所有任务都是有用的:只查看单张画格(NC-image-text)的模型的表现总是不及了解语境的模型。但是,即使表现最好的模型也还赶不上人类(Human)。
 
  从结果我们可以看到,人类预测漫画情节或内容的正确率可以达到 80%,但是机器却很难做到。
 
  当然,这倒没什么非常让人惊讶的。机器学习尽管近段时间以来已经在图像和文本模式识别上取得了相当优异的表现,但仍旧缺乏人类大脑所具有的常识和逻辑——而这些都是叙事性故事所必需的。
 
  所以人类还能留有一点讲故事能力的保留地。但是这种保留地还能维持多久呢?