CogVLM: 开源视觉语言模型创新突破

版权申诉

180 浏览量更新于2024-11-13 收藏 15.35MB ZIP 举报

资源摘要信息:"多模态预训练模型是一种集成了多种模态信息的模型，例如视觉和语言。这类模型能够在多个任务中实现先进的性能，如图像理解、多轮对话和各种视觉问答任务。 CogVLM是一个开源的视觉语言模型，代表了该领域当前最先进的技术水平。它具备100亿个视觉参数和70亿个语言参数，能在490*490分辨率下进行图像理解并支持多轮对话。CogVLM在10个跨模态基准测试中取得了领先的成绩，这些基准测试包括NoCaps、Flicker30k字幕、RefCOCO、RefCOCO+、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA 和 TDIUC。 CogAgent基于CogVLM进行了改进，并且支持GUI图像代理功能。CogAgent-18B比CogVLM多出了10亿个视觉参数，并且能够处理高达1120*1120分辨率的图像，除了支持CogVLM的所有功能，还具备其他优势。在9个跨模态基准测试上，包括VQAv2、OK-VQ、TextVQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet 和 POP，CogAgent-18B同样展现出了卓越的通用性能。在标签中提及的'语言模型'是指用于理解、生成或翻译自然语言的算法模型。'测试'通常涉及模型性能的验证，确保模型在各类任务上达到预期效果。'多模态'则强调模型对不同模态信息（如文本、图像、声音等）的处理能力。'预训练对话模型'是一种在大量数据集上预先训练好的模型，能够支持以文本形式的对话任务。压缩包子文件的文件名称'CogVLM-main'可能指向包含CogVLM模型主要代码库或重要资源的压缩文件。该文件可能是开源项目的一部分，供研究人员和开发者下载、分析和进一步开发使用。" 知识点: 1. 多模态预训练模型: - 集成多种模态信息，如视觉和语言。 - 能够处理图像理解、多轮对话和视觉问答等任务。 2. CogVLM模型介绍: - 开源的视觉语言模型。 - 拥有100亿个视觉参数和70亿个语言参数。 - 在10个跨模态基准测试中取得领先成绩。 - 支持490*490分辨率的图像理解。 3. CogAgent模型增强: - 在CogVLM的基础上进行了改进。 - 拥有110亿个视觉参数和70亿个语言参数。 - 支持1120*1120分辨率的图像理解。 - 在9个跨模态基准测试中取得先进性能。 - 增加了GUI图像代理功能。 4. 模型性能测试: - 通过在各类基准测试中的表现验证模型性能。 - 了解模型在实际应用中的效果和潜力。 5. 模型标签解释: - '语言模型': 处理自然语言的算法模型。 - '测试': 模型性能验证和任务执行能力的评估。 - '多模态': 处理和理解不同信息模态的能力。 - '预训练对话模型': 在大量数据上预训练，用于文本对话任务的模型。 6. 开源项目资源: - 'CogVLM-main'可能指包含模型核心代码或资源的压缩文件。 - 用于社区共享、进一步研究和开发。以上知识点总结了标题、描述和标签中提到的关键信息，并针对压缩包子文件的文件名称进行了补充解释，旨在为感兴趣的读者提供全面的了解。

收起资源包目录

a state-of-the-art-level open visual language model - 多模态预训练模型（62个子文件）

__init__.py 185B

test_config_bf16.json 939B

README_zh.md 25KB

llava-comparison-min.png 470KB

web_demo.py 10KB

finetune_cogvlm_demo.py 11KB

evaluate_cogagent_demo.py 10KB

cogvlm_model.py 8KB

method-min.png 109KB

compare.png 247KB

pear_grounding.png 256KB

finetune_cogagent_lora.sh 2KB

demo.jpg 1.01MB

chat.py 7KB

wechat.jpg 151KB

utils.py 20KB

web_demo.png 302KB

dataset_zh.md 4KB

split_dataset.py 1KB

client.py 9KB

MODEL_LICENSE 5KB

cogagent_function.jpg 140KB

__init__.py 235B

demo_chat_cogvlm.py 4KB

WECHAT.md 222B

cli_demo_sat.py 7KB

cogagent_function_cn.jpg 146KB

web_demo-min.png 70KB

README.md 28KB

dataset.py 2KB

evaluate_cogvlm_demo.py 9KB

main.py 5KB

metrics.png 238KB

cli_demo_hf.py 4KB

finetune_cogagent_demo.py 12KB

openai_api.py 13KB

compare-min.png 64KB

eva_clip_L_hf.py 31KB

metrics-min.png 56KB

chat.png 7.09MB

chat-min.png 1.93MB

openai_api_request.py 5KB

eva_clip_model.py 6KB

cogagent_model.py 11KB

requirements.txt 360B

template.py 60KB

merge_model.py 2KB

vision.py 1KB

grounding_parser.py 3KB

cogagent_main_demo.jpg 3.84MB

.deepspeed_env 41B

mixin.py 12KB

language.py 10KB

evaluate_cogagent.sh 2KB

finetune_cogvlm_lora.sh 2KB

demo_agent_cogagent.py 4KB

__init__.py 0B

demo_chat_cogagent.py 4KB

conversation.py 8KB

method.png 286KB

dataset.md 4KB

evaluate_cogvlm.sh 2KB

共 62 条

博士僧小星

粉丝: 2279
资源: 5990

CogVLM: 开源视觉语言模型创新突破

人工智能-项目实践-预训练-open visual language model 多模态预训练模型

Python_a stateoftheartlevel open visual language model 多模态.zip

CLIP预训练-基于Region-based实现的Language-Image多模态大模型CLIP的预训练-附项目源码+流程教程

多模态模型学习1——CLIP对比学习 语言-图像预训练模型_clip模型-CSDN博客.pdf

视觉-语言多模态预训练模型一种基于预训练文本和图像编码器的图像-文本多模态理解模型，可应用于如视觉问答、图像-文本检索等.zip

VLE：视觉-语言多模态预训练模型一种基于预训练文本和图像编码器的图像-文本多模态理解模型，可应用于如视觉问答、图像-文本检索等

3-1+超大规模多模态预训练模型M6.pdf

1-3+中文大规模多模态预训练模型M6.pdf

人工智能-多模态-基于baichuan-7b的多模态大语言模型

多模态模型持续预训练实战指南详解-从FoMo-in-Flux到实际应用

最新资源

多模态模型学习1——CLIP对比学习语言-图像预训练模型_clip模型-CSDN博客.pdf