从 视觉问答 Visual Question Answering(VQA)到 多模态表征 Multimodal representation learning 简单综述
Published:
文本主要是对VQA整个任务做一个综述。
于2022.2.24完成第三版的撰写,并且更新在了Github。
- 增加了2021-2022的部分模型
- 重修了2015-2019的模型解释
- 不再局限于VQA而是多模态任务
- 重新规划了文章结构把VQA相关数据集转移到了下游任务章节中
- 挖下更多的坑
Published:
文本主要是对VQA整个任务做一个综述。
于2022.2.24完成第三版的撰写,并且更新在了Github。