从 视觉问答 Visual Question Answering(VQA)到 多模态表征 Multimodal representation learning 简单综述

less than 1 minute read

Published:

文本主要是对VQA整个任务做一个综述。

于2022.2.24完成第三版的撰写,并且更新在了Github

  • 增加了2021-2022的部分模型
  • 重修了2015-2019的模型解释
  • 不再局限于VQA而是多模态任务
  • 重新规划了文章结构把VQA相关数据集转移到了下游任务章节中
  • 挖下更多的坑