large-vision-language-model

Here are 20 public repositories matching this topic...

BradyFU / Awesome-Multimodal-Large-Language-Models

✨✨Latest Advances on Multimodal Large Language Models

multi-modality instruction-following in-context-learning large-language-models chain-of-thought instruction-tuning visual-instruction-tuning large-vision-language-model multimodal-instruction-tuning large-vision-language-models multimodal-large-language-models multimodal-in-context-learning multimodal-chain-of-thought

Updated Nov 6, 2025

PKU-YuanGroup / Video-LLaVA

Star

【EMNLP 2024🔥】Video-LLaVA: Learning United Visual Representation by Alignment Before Projection

multi-modal instruction-tuning large-vision-language-model

Updated Dec 3, 2024
Python

InternLM / InternLM-XComposer

Star

InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions

foundation gpt language-model multimodal multi-modality vision-transformer gpt-4 visual-language-learning llm chatgpt instruction-tuning large-language-model supervised-finetuning mllm vision-language-model large-vision-language-model

Updated May 26, 2025
Python

PKU-YuanGroup / MoE-LLaVA

Star

【TMM 2025🔥】 Mixture-of-Experts for Large Vision-Language Models

moe multi-modal mixture-of-experts large-vision-language-model

Updated Jul 15, 2025
Python

yaotingwangofficial / Awesome-MCoT

Star

Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey

survey mcts reasoning cot multimodal system-2 chain-of-thought instruction-tuning large-vision-language-model multimodal-large-language-models multimodal-chain-of-thought openai-o1 slow-thinking deepseek-r1 mllm-reasoning

Updated Aug 26, 2025

jqtangust / hawk

Star

🔥 🔥 🔥 [NeurIPS 2024] Official Implementation of Hawk: Learning to Understand Open-World Video Anomalies

video anomaly video-understanding anomaly-detection video-anomaly-detection large-vision-language-model

Updated Apr 14, 2025
Python

MMStar-Benchmark / MMStar

Star

[NeurIPS 2024] This repo contains evaluation code for the paper "Are We on the Right Way for Evaluating Large Vision-Language Models"

evaluation multimodality multimodal-learning visual-question-answering multimodal large-language-models llm llms large-vision-language-model large-vision-language-models large-multimodal-models lvlms lvlm

Updated Sep 26, 2024
Python

yu-rp / apiprompting

Star

[ECCV 2024] API: Attention Prompting on Image for Large Vision-Language Models

visual-prompting prompting vision-language-model large-vision-language-model large-vision-language-models large-multimodal-models vision-language-models

Updated Oct 10, 2024
Python

Orlando-CS / Awesome-VLA

Star

✨✨latest advancements in VLA models(VIsion Language Action)

multi-modality large-language-models large-vision-language-model

Updated Apr 14, 2025

richard-peng-xia / CARES

Star

[NeurIPS'24] CARES: A Comprehensive Benchmark of Trustworthiness in Medical Vision Language Models

trustworthy-ai vision-language-model large-vision-language-model medical-multimodal-learning

Updated Dec 4, 2024
Python

Ruiyang-061X / VL-Uncertainty

Star

🔎Official code for our paper: "VL-Uncertainty: Detecting Hallucination in Large Vision-Language Model via Uncertainty Estimation".

uncertainty uncertainty-quantification multi-modal uncertainty-estimation uncertainty-analysis hallucination vision-language vision-language-model large-vision-language-model hallucination-evaluation hallucination-detection multi-modal-large-language-model

Updated Mar 18, 2025
Python

SuperBruceJia / Awesome-Large-Vision-Language-Model

Star

Awesome Large Vision-Language Model: A Curated List of Large Vision-Language Model

machine-learning natural-language-processing computer-vision deep-learning artificial-intelligence artificial-general-intelligence general-artificial-intelligence vision-and-language foundation-models large-language-models large-vision-language-model large-vision-language-models multimodal-large-language-models

Updated Jul 23, 2025

ADL-X / LLAVIDAL

Star

This is the offical repository of LLAVIDAL

llvm activities-of-daily-living action-recognition large-vision-language-model

Updated Oct 4, 2025
Python

[CVPR 2024 Highlight] The first benchmark for lithic use-wear analysis leveraging SOTA vision and vision-language models (DINOv2, GPT-4V), demonstrating AI performance surpassing that of expert archaeologists.

computer-vision archeology anthropology ai4science large-vision-language-model

Updated Mar 24, 2025
Jupyter Notebook

lca0503 / MergeToVLRM

Star

Source code of our paper "Transferring Textual Preferences to Vision-Language Understanding through Model Merging", ACL 2025

model-merging large-vision-language-model reward-modeling

Updated Apr 25, 2025
Python

lucaswychan / quant-lvlm

Star

Easy-to-use large vision language model pipeline for quantitative analysis

pytorch quantitative-finance multimodal-learning large-vision-language-model

Updated Apr 26, 2025
Python

amazon-science / THRONE

Star

Code release for THRONE, a CVPR 2024 paper on measuring object hallucinations in LVLM generated text.

benchmark hallucination hallucinations large-language-models large-language-model vision-language-model large-vision-language-model large-vision-language-models cvpr2024 hallucination-evaluation vision-language-models

Updated Aug 6, 2025
Python

pzrain / DiViCo

Star

Official implementation of TCSVT 2025 paper: DiViCo: Disentangled Visual Token Compression For Efficient Large Vision-Language Model

multimodal large-vision-language-model token-compression

Updated May 13, 2025
Python

devdhananjay14 / multim

Star

🔍 Experiment with neural networks for binary classification on multimodal data using this extensible PyTorch framework.

python computer-vision deep-learning robotics tensorflow healthcare transformer reading-list llama representation-learning emotion-detection in-context-learning large-language-models chain-of-thought visual-instruction-tuning large-vision-language-model large-vision-language-models multimodal-large-language-models

Updated Nov 6, 2025
Python

ZPider0 / Multimodal

Star

🎤 Transform speech and text with this lightweight Python toolkit for transcription, analysis, and audio conversion tasks.

agent machine-learning real-time reinforcement-learning ai deep-learning robotics reading-list multi-modality unified-model neural-search instruction-following llm large-vision-language-model multimodal-instruction-tuning multimodal-large-language-models multimodal-in-context-learning multimodal-chain-of-thought

Updated Nov 6, 2025
Jupyter Notebook

Improve this page

Add a description, image, and links to the large-vision-language-model topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the large-vision-language-model topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

large-vision-language-model

Here are 20 public repositories matching this topic...

BradyFU / Awesome-Multimodal-Large-Language-Models

PKU-YuanGroup / Video-LLaVA

InternLM / InternLM-XComposer

PKU-YuanGroup / MoE-LLaVA

yaotingwangofficial / Awesome-MCoT

jqtangust / hawk

MMStar-Benchmark / MMStar

yu-rp / apiprompting

Orlando-CS / Awesome-VLA

richard-peng-xia / CARES

Ruiyang-061X / VL-Uncertainty

SuperBruceJia / Awesome-Large-Vision-Language-Model

ADL-X / LLAVIDAL

ai4ce / LUWA

lca0503 / MergeToVLRM

lucaswychan / quant-lvlm

amazon-science / THRONE

pzrain / DiViCo

devdhananjay14 / multim

ZPider0 / Multimodal

Improve this page

Add this topic to your repo