Codestin Search App

mlfoundations / open_clip

An open source implementation of CLIP.

computer-vision deep-learning pytorch pretrained-models language-model contrastive-loss multi-modal-learning zero-shot-classification

Updated Sep 11, 2025
Python

mlfoundations / open_clip

Star

An open source implementation of CLIP.

computer-vision deep-learning pytorch pretrained-models language-model contrastive-loss multi-modal-learning zero-shot-classification

Updated Sep 11, 2025
Python

OFA-Sys / Chinese-CLIP

Star

Chinese version of CLIP which achieves Chinese cross-modal retrieval and representation generation.

nlp computer-vision deep-learning transformers pytorch chinese pretrained-models multi-modal clip coreml-models contrastive-loss vision-language multi-modal-learning image-text-retrieval vision-and-language-pre-training

Updated Aug 29, 2025
Jupyter Notebook

OFA-Sys / Chinese-CLIP

Star

Chinese version of CLIP which achieves Chinese cross-modal retrieval and representation generation.

nlp computer-vision deep-learning transformers pytorch chinese pretrained-models multi-modal clip coreml-models contrastive-loss vision-language multi-modal-learning image-text-retrieval vision-and-language-pre-training

Updated Aug 29, 2025
Jupyter Notebook

lyuchenyang / Macaw-LLM

Star

Macaw-LLM: Multi-Modal Language Modeling with Image, Video, Audio, and Text Integration

machine-learning natural-language-processing deep-learning neural-networks language-model multi-modal-learning

Updated Jan 1, 2025
Python

lyuchenyang / Macaw-LLM

Star

Macaw-LLM: Multi-Modal Language Modeling with Image, Video, Audio, and Text Integration

machine-learning natural-language-processing deep-learning neural-networks language-model multi-modal-learning

Updated Jan 1, 2025
Python

NVlabs / prismer

Star

The implementation of "Prismer: A Vision-Language Model with Multi-Task Experts".

vqa image-captioning language-model multi-task-learning vision-and-language multi-modal-learning vision-language-model

Updated Jan 17, 2024
Python

NVlabs / prismer

Star

The implementation of "Prismer: A Vision-Language Model with Multi-Task Experts".

vqa image-captioning language-model multi-task-learning vision-and-language multi-modal-learning vision-language-model

Updated Jan 17, 2024
Python

lucidrains / x-clip

Star

A concise but complete implementation of CLIP with various experimental improvements from recent papers

deep-learning artificial-intelligence zero-shot-learning multi-modal-learning contrastive-learning

Updated Oct 16, 2023
Python

jokieleung / awesome-visual-question-answering

Star

A curated list of Visual Question Answering(VQA)(Image/Video Question Answering),Visual Question Generation ,Visual Dialog ,Visual Commonsense Reasoning and related area.

vqa awesome-list multi-modal multi-modal-learning attention-networks

Updated Jul 6, 2023

jokieleung / awesome-visual-question-answering

Star

A curated list of Visual Question Answering(VQA)(Image/Video Question Answering),Visual Question Generation ,Visual Dialog ,Visual Commonsense Reasoning and related area.

vqa awesome-list multi-modal multi-modal-learning attention-networks

Updated Jul 6, 2023

InternRobotics / EmbodiedScan

Star

[CVPR 2024 & NeurIPS 2024] EmbodiedScan: A Holistic Multi-Modal 3D Perception Suite Towards Embodied AI

computer-vision robotics 3d-vision multi-modal-learning

Updated Jun 13, 2025
Python

InternRobotics / EmbodiedScan

Star

[CVPR 2024 & NeurIPS 2024] EmbodiedScan: A Holistic Multi-Modal 3D Perception Suite Towards Embodied AI

computer-vision robotics 3d-vision multi-modal-learning

Updated Jun 13, 2025
Python

kyegomez / zeta

Sponsor

Star

Build high-performance AI models with modular building blocks

multi-platform deep-learning transformers pytorch artificial-intelligence transformer speech-recognition multi-modal multi-agent-systems multi-modal-learning gpt4 llama2 longnet

Updated Sep 8, 2025
Python

kyegomez / zeta

Sponsor

Star

Build high-performance AI models with modular building blocks

multi-platform deep-learning transformers pytorch artificial-intelligence transformer speech-recognition multi-modal multi-agent-systems multi-modal-learning gpt4 llama2 longnet

Updated Sep 8, 2025
Python

DmitryRyumin / CVPR-2023-24-Papers

Star

CVPR 2023-2024 Papers: Dive into advanced research presented at the leading computer vision conference. Keep up to date with the latest developments in computer vision and deep learning. Code included. ⭐ support visual intelligence development!

Updated Jul 15, 2024
Python

DmitryRyumin / CVPR-2023-24-Papers

Star

CVPR 2023-2024 Papers: Dive into advanced research presented at the leading computer vision conference. Keep up to date with the latest developments in computer vision and deep learning. Code included. ⭐ support visual intelligence development!

Updated Jul 15, 2024
Python

zjukg / KG-MM-Survey

Star

Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey

information-extraction survey knowledge-graph awsome image-classification image-generation surveys entity-linking knowledge-graph-embeddings visual-question-answering entity-alignment paper-list awsome-list cross-modal-retrieval multi-modal-learning multi-modal-fusion large-language-models multi-modal-knowledge-graph

Updated Dec 10, 2024

zjukg / KG-MM-Survey

Star

Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey

information-extraction survey knowledge-graph awsome image-classification image-generation surveys entity-linking knowledge-graph-embeddings visual-question-answering entity-alignment paper-list awsome-list cross-modal-retrieval multi-modal-learning multi-modal-fusion large-language-models multi-modal-knowledge-graph

Updated Dec 10, 2024

zhengli97 / PromptKD

Star

[CVPR 2024] Official PyTorch Code for "PromptKD: Unsupervised Prompt Distillation for Vision-Language Models"

clip knowledge-distillation multi-modal-learning prompt-learning vision-language-model cvpr2024

Updated Aug 29, 2025
Python

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

multi-modal-learning

Here are 230 public repositories matching this topic...

mlfoundations / open_clip

mlfoundations / open_clip

OFA-Sys / Chinese-CLIP

OFA-Sys / Chinese-CLIP

lyuchenyang / Macaw-LLM

lyuchenyang / Macaw-LLM

NVlabs / prismer

NVlabs / prismer

lucidrains / x-clip

jokieleung / awesome-visual-question-answering

jokieleung / awesome-visual-question-answering

InternRobotics / EmbodiedScan

InternRobotics / EmbodiedScan

kyegomez / zeta

kyegomez / zeta

DmitryRyumin / CVPR-2023-24-Papers

DmitryRyumin / CVPR-2023-24-Papers

zjukg / KG-MM-Survey

zjukg / KG-MM-Survey

zhengli97 / PromptKD

Improve this page

Add this topic to your repo