ViF

Visual Multi-Agent System: Mitigating Hallucination Snowballing via Visual Flow

📑Quick Start

1) Install

conda create -n vif python=3.10 -y
conda activate vif
pip install -r requirements.txt

2) Prepare

Place the base VLM (e.g., LLaVA-NeXT) under ./examples/base_model/ or pass a HuggingFace model id.
Prepare multimodal data:
- Stage 1: general pretraining/tuning data (image, instruction, short answer) – paths in configs/stage1.yaml
- Stage 2: instruction-tuning datasets – paths in configs/stage2.yaml
Multi-Agent Construction
- Files under vif/multiagent/ implement the worker agents with dynamic allocation.

3) Train

# Stage 1 Pre-Training
python scripts/train_stage1.py --config configs/stage1.yaml

# Stage 2 Instruction Tuning
python scripts/train_stage2.py --config configs/stage2.yaml

4) Evaluate

python scripts/eval_demo.py --config configs/eval.yaml --images_dir examples/data/images --questions_file examples/data/train_stage2.jsonl

📜Requisite Analyses

Layer-Wise Attention Allocation in Different Agent Turns

Dropping Subsets of Vision Tokens in Different Layers

Investigation of Unimodal Tokens

Insights

The visual evidence relayed in MAS, which is typically via textual flow, potentially results in multi-agent hallucination snowballing.
When the agent turns increase, the average attention allocated to vision tokens reduces, and the attention peak in middle layers diminishes, while attention to instruction tokens increases accordingly; system and output tokens receive relatively stable attention.
In middle layers, vision tokens with unimodal attention allocation relay visual information; all vision tokens are significant in shallow layers and less significant in deep layers.

🌟🌟🌟ViF

🔥🔥🔥Results

Results on Six Base Models and Four MAS Structures

Results on Larger Base Models

Results on Multi-Agent Hallucination Snowballing Mitigation

Comparison Results

🔗 Citation

@article{yu2025visual,
  title={Visual Multi-Agent System: Mitigating Hallucination Snowballing via Visual Flow},
  author={Yu, Xinlei and Xu, Chengming and Zhang, Guibin and He, Yongbo and Chen, Zhangquan and Xue, Zhucun and Zhang, Jiangning and Liao, Yue and Hu, Xiaobin and Jiang, Yu-Gang and others},
  journal={arXiv preprint arXiv:2509.21789},
  year={2025}
}

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

ViF

📑Quick Start

1) Install

2) Prepare

3) Train

4) Evaluate

📜Requisite Analyses

Layer-Wise Attention Allocation in Different Agent Turns

Dropping Subsets of Vision Tokens in Different Layers

Investigation of Unimodal Tokens

Insights

🌟🌟🌟ViF

🔥🔥🔥Results

Results on Six Base Models and Four MAS Structures

Results on Larger Base Models

Results on Multi-Agent Hallucination Snowballing Mitigation

Comparison Results

🔗 Citation

About

Uh oh!

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
configs		configs
examples/data		examples/data
scripts		scripts
static		static
vif		vif
README.md		README.md
requirements.txt		requirements.txt

YU-deep/ViF

Folders and files

Latest commit

History

Repository files navigation

ViF

📑Quick Start

1) Install

2) Prepare

3) Train

4) Evaluate

📜Requisite Analyses

Layer-Wise Attention Allocation in Different Agent Turns

Dropping Subsets of Vision Tokens in Different Layers

Investigation of Unimodal Tokens

Insights

🌟🌟🌟ViF

🔥🔥🔥Results

Results on Six Base Models and Four MAS Structures

Results on Larger Base Models

Results on Multi-Agent Hallucination Snowballing Mitigation

Comparison Results

🔗 Citation

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages