从视觉问答 Visual Question Answering（VQA）到多模态表征 Multimodal representation learning 简单综述

less than 1 minute read

Published: August 14, 2022

文本主要是对VQA整个任务做一个综述。

于2022.2.24完成第三版的撰写，并且更新在了Github。

增加了2021-2022的部分模型
重修了2015-2019的模型解释
不再局限于VQA而是多模态任务
重新规划了文章结构把VQA相关数据集转移到了下游任务章节中
挖下更多的坑

Share on

Bluesky Facebook LinkedIn X (formerly Twitter)

You May Also Enjoy

Comprehensive LaTeX Template for Waseda University PhD Theses

less than 1 minute read

Published: June 24, 2025

Github: https://github.com/wanng-ide/phd_thesis_template_waseda_university

📚论文阅读

less than 1 minute read

Published: June 21, 2025

阅读的论文合集。

🤔一些思考

less than 1 minute read

Published: June 13, 2025

记录一些简单的思考💬。

Markdown Guide

7 minute read

Published: June 13, 2025

📒 This page is from Academic Pages.