论文名称:Visual Instruction Tuning
Code: https://github.com/haotian-liu/LLaVA
- LLM 中的指令微调(Instruction tuning)多使用机器生成的指令遵循(instruction-following)数据,然而从未有在多模态领域的探索;
- 本文使用 language-only 的 GPT-4 来生成多模态 language-image 指令遵循数据;通过在该数据上进行指令微调,得到了一个端到端训练的用于通用视觉和语言理解的多模态模型 LLaVA:Large Language and Vision Assistant。
- 提出了两个具有多样性和挑战性应用的评估基准。
- 人类通过语言、视觉等通道与世界交互,不同的方式拥有其各自的优势,通用人工智能助手应该遵循多模态的视觉和语言指令,完成人们的意图;
- 语言在 LLM 中扮演着十分重要的角色:通用的交互界面;任务要求可以被显式地使用语言表示;
- 本文首次提出了视觉指令微调以构建一个通用的人工智能助手,主要贡献有:
- 多模态指令遵循数据,使用 ChatGPT/GPT-4 生成;
- Large multimodal models(LMM),使用了 CLIP 的开放集(open-set)视觉编码器和语言解码器 Vicuna;
- 多模态数据遵循基准;
- 开源。
相关工作