目标导向的视觉对话是“视觉-语言”交叉领域中一个较新的任务,它要求机器能通过多轮对话完成视觉相关的特定目标。该任务兼具研究意义与应用价值。日前,北京邮电大学王小捷教授团队与美团AI平台NLP中心团队合作,在目标导向的视觉对话任务上的研究论文《Answer-Driven Visual State Estimator for Goal-Oriented Visual Dialogue-commentCZ》被国际多媒体领域顶级会议ACMMM 2020录用。

该论文分享了他们在目标导向视觉对话中的最新进展,即提出了一种响应驱动的视觉状态估计器(Answer-Driven Visual State Estimator,ADVSE)用于融合视觉对话中的对话历史信息和图片信息,其中的聚焦注意力机制(Answer-Driven Focusing Attention,ADFA)能有效强化响应信息,条件视觉信息融合机制(Conditional Visual Information Fusion,CVIF)用于自适应选择全局和差异信息。该估计器不仅可以用于生成问题,还可以用于回答问题。在视觉对话的国际公开数据集GuessWhat?!上的实验结果表明,该模型在问题生成和回答上都取得了当前的领先水平。

背景

一个好的视觉对话模型不仅需要理解来自视觉场景、自然语言对话两种模态的信息,还应遵循某种合理的策略,以尽快地实现目标。同时,目标导向的视觉对话任务具有较丰富的应用场景。例如智能助理、交互式拾取机器人,通过自然语言筛查大批量视觉媒体信息等。

图1 目标导向的视觉对话

研究现状及分析

为了进行目标导向的和视觉内容一致的对话,AI智能体应该能够学习到视觉信息敏感的多模态对话表示以及对话策略。对话策略学习的相关工作有很多,如Strub等人[1]首先提出使用强化学习来探索对话策略,随后的工作则着重于奖励设计[2,3]或动作选择[4,5]。但是,它们中的大多数采用了一种简单的方式来表示多模态对话,分别编码两个模态信息,即由RNN编码的语言特征和由预训练CNN编码的视觉特征,并将它们拼接起来。

好的多模态对话表示是策略学习的基石。为了改进多模态对话的表示,研究者们提出了各种注意机制[6,7,8],从而增强了多模态交互。尽管已有工作取得了许多进展,但是还存在一些重要问题。

  1. 在语言编码方面,现有方法的语言编码方式都不能对不同的响应(Answer)进行区分,Answer通常只是附在Question后面编码,由于Answer只是Yes或No一个单词,而Question则包含更长的词串,因此,Answer的作用很微弱。但实际上,Answer的回答很大程度决定了后续图像关注区域的变化方向,也决定了对话的发展方向,回答是Yes和No会导致完全不同的发展方向。例如图1中通过对话寻找目标物体的示例,当第一个问题的答案“是花瓶吗?”为“是”,则发问者继续关注花瓶,并询问可以最好地区分多个花瓶的特征;当第三个问题的答案“部分为红色吗?”为“否”,则发问者不再关注红色的花瓶,而是询问有关剩余候选物体的问题。
  2. 在视觉以及融合方面的情况也是类似,现有的视觉编码方式或者采用静态编码在对话过程中一直不变,直接和动态变化的语言编码拼接,或者用QA对编码引导对视觉内容的注意力机制。因此,也不能对不同的Answer进行有效区分。而如前所述,当Answer回答不同时,会导致图像关注区域产生非常不同的变化,一般地,当回答为“是”时,图像会聚焦于当前对象,进一步关注其特点,当回答为“否”时,可能需要再次关注图像整体区域去寻找新的可能候选对象。

响应驱动的视觉状态估计器

为此,本文提出一个响应驱动的视觉状态估计器,如下图2所示,新框架中包含响应驱动的注意力更新(ADFA-ASU)以及视觉信息的条件融合机制(CVIF)分别解决上述两个问题。

图2 响应驱动的视觉状态估计器框架图

响应驱动的注意力更新首先采用门限函数极化当前轮次Question引导的注意力,随后基于对该Question的不同Answer进行注意力反转或保持,得到当前Question-Answer对对话状态的影响,并累积到对话状态上,这种方式有效地强调了Answer对对话状态的影响;CVIF在当前QA的指导下融合图像的整体信息和当前候选对象的差异信息,从而获得估计的视觉状态。

答案驱动的注意力更新(ADFA-ASU)

视觉信息的条件融合机制(CVIF)

响应驱动的视觉状态估计器用于问题生成和回答

ADVSE是面向目标的视觉对话的通用框架。因此,我们将其应用于GuessWhat ?!中的问题生成(QGen)和回答(Guesser)建模。我们首先将ADVSE与经典的层级对话历史编码器结合起来以获得多模态对话表示,而后将多模态对话表示与解码器联合则可得到基于ADVSE的问题生成模型;将多模态对话表示与分类器联合则得到基于ADVSE的回答模型。

图3 响应驱动的视觉状态估计器用于问题生成和回答示意图

在视觉对话的国际公开数据集GuessWhat?!上的实验结果表明,该模型在问题生成和回答上都取得了当前的领先水平。我们首先给出了ADVSE-QGen和ADVSE-Guesser与最新模型对比的实验结果。

此外,我们评测了联合使用ADVSE-QGen和ADVSE-Guesser的性能。最后,我们给出了模型的定性分析内容。我们模型的代码即将可从ADVSE-GuessWhat获得。

表1 QGen任务性能对比,评测指标为任务成功率

表2 Guesser任务性能对比,评测指标为错误率

图4 问题生成过程中响应驱动的注意力转移样例分析

图5 ADVSE-QGen对话生成样例

总结

本论文提出了一种响应驱动的视觉状态估计器(ADVSE),以强调在目标导向的视觉对话中不同响应对视觉信息的重要影响。首先,我们通过响应驱动的集中注意力(ADFA)捕获响应对视觉注意力的影响,其中是保持还是移动与问题相关的视觉注意力由每个回合的不同响应决定。

此外,在视觉信息的条件融合机制(CVIF)中,我们为不同的QA状态提供了两种类型的视觉信息,然后依情况地将它们融合,作为视觉状态的估计。将提出的ADVSE应用于Guesswhat?!中的问题生成任务和猜测任务,与这两个任务的现有最新模型相比,我们可以获得更高的准确性和定性结果。后续,我们还将进一步探讨同时使用同源的ADVSE-QGen和ADVSE-Guesser的潜在改进。

参考文献

  • [1] FlorianStrub,HarmdeVries,JérémieMary,BilalPiot,AaronC.Courville,and Olivier Pietquin. 2017. End-to-end optimization of goal-driven and visually grounded dialogue systems. In Joint Conference on Artificial Intelligence.
  • [2] Pushkar Shukla, Carlos Elmadjian, Richika Sharan, Vivek Kulkarni, Matthew Turk, and William Yang Wang. 2019. What Should I Ask? Using Conversationally Informative Rewards for Goal-oriented Visual Dialog.. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Association for ComputationalLinguistics,Florence,Italy,6442–6451. https://doi.org/10.18653/v1/P19-1646
  • [3] JunjieZhang,QiWu,ChunhuaShen,JianZhang,JianfengLu,andAntonvanden Hengel. 2018. Goal-Oriented Visual Question Generation via Intermediate Re- wards. In Proceedings of the European Conference on Computer Vision.

  • [4] Ehsan Abbasnejad, Qi Wu, Iman Abbasnejad, Javen Shi, and Anton van den Hengel. 2018. An Active Information Seeking Model for Goal-oriented Vision- and-Language Tasks. CoRR abs/1812.06398 (2018). arXiv:1812.06398 http://arxiv.org/abs/1812.06398

  • [5] EhsanAbbasnejad,QiWu,JavenShi,andAntonvandenHengel.2018.What’sto Know? Uncertainty as a Guide to Asking Goal-Oriented Questions. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 4150–4159.

  • [6] Chaorui Deng, Qi Wu, Qingyao Wu, Fuyuan Hu, Fan Lyu, and Mingkui Tan. 2018. Visual Grounding via Accumulated Attention. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 7746–7755.

  • [7] Tianhao Yang, Zheng-Jun Zha, and Hanwang Zhang. 2019. Making History Matter: History-Advantage Sequence Training for Visual Dialog. In Proceedings of the IEEE International Conference on Computer Vision. 2561–2569.

  • [8] BohanZhuang,QiWu,ChunhuaShen,IanD.Reid,andAntonvandenHengel. 2018. Parallel Attention: A Unified Framework for Visual Object Discovery Through Dialogs and Queries. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 4252–4261.

作者简介

本文作者包括徐子彭、冯方向、王小捷、杨玉树、江会星、王仲远等等,他们来自北京邮电大学人工智能学院智能科学与技术中心与美团搜索与NLP中心团队。

招聘信息

美团搜索与NLP部,长期招聘搜索、推荐、NLP算法工程师,坐标北京/上海。欢迎感兴趣的同学发送简历至:tech@meituan.com(邮件注明:搜索与NLP部)