分类论文阅读下的文章 - 人工智能炼丹师

标签搜索

Jefxiong

累计撰写 57 篇文章
累计收到 8 条评论

搜索到 1 篇与论文阅读的结果

2024-08-04
多模态预训练模型之CogVLM CogVLM：VISUAL EXPERT FOR LARGE LANGUAGE MODELS 被多个文生图模型广泛使用，包括SD3、可图用作Caption模型图像 & 文本分别建模的思想在SD3中的MMDIT中也被应用到 1. Motivation 浅层对齐的缺陷：例如BLIP2的QFormer或者LLAVA的MLP，作者认为是导致幻觉的一个重要原因浅层对齐 + 图文联合训练（LLM+Vision+adapter）会损害NLP的能力： Qwen-VL 等模型，会导致文本理解能力的灾难性遗忘【只要训练数据配比得当，就能避免这个问题？】 2. 主要贡献模型结构：引入视觉专家(QKV matrix+ FFN): 冻结LLM，100%保留文本对话能力视觉位置编码：图像特征共享一个位置编码，对于高分辨率理解有帮助。 3. 一些细节 3.1 消融实验(caption 任务 + VQA任务) 模型结构 & 微调的部分：【视觉专家 + MLP adapater】比其他更好，（为什么没有微调视觉+LLM+adapter全量实验，在下游任务上全量FT应该可以更好），该部分影响最大采用LLM的权重来初始化Visual Expert能够提升性能（应该能加速训练，和LLM expert融合会更容易）视觉部分，单向注意 or 双向注意的影响，使用单向注意反而更好视觉部分的自回归监督，没有提升 EMA可以多数任务上均能带来提升 3.3 训练数据细节 3.3.1 预训练数据 LAION-2B + COYO-700M-> 1.5B Visual grouding: 40M(GLIP v2预测的bounding box作为GT)，从LAION-115M中过滤出来的40M（75%的图片包含至少两个目标框） 3.3.2 SFT数据(50w) LLaVA-Instruct (corrected) LRV-Instruction LLaVAR in-house data 3.4 训练细节在SFT阶段，对LLM进行训练，学习率为base其他参数的10%，VIT始终保持固定
- 2024年08月04日
- 290 阅读
- 0 评论
- 0 点赞

Jefxiong

57 文章数

8 评论量

人生倒计时

标签云

粤ICP备2021042327号