VLP/VQA 世界知识一阶段最佳 checkpoint 共享包

日期：2026-05-20

这个目录用于共享当前 Jarvis LF / Qwen2.5-VL 实验里表现最好的“一阶段 VLP/VQA 世界知识模型”。它主要用于图像问答、世界知识探测、视觉语义理解，不是直接用于 Minecraft 动作评测的最终 VLA policy。

共享路径和权限

共享目录：

/data/zianguan/shared_vlp_world_knowledge_clean_best_20260520

推荐 checkpoint：一阶段 VQA / 世界知识模型

推荐使用：

/data/zianguan/shared_vlp_world_knowledge_clean_best_20260520/best_vqa_world_knowledge_ckpt

来源：

/data/zianguan/output/jarvis_lf_qwen25vl7b/vlp_world_knowledge_clean_action_tokens_4gpu

为什么选这个：

这是纯一阶段 clean world-knowledge VLP/VQA 模型。
训练数据是 jarvis_wk_clean_merged。
训练了完整 Qwen2.5-VL 栈，包括 vision tower 和 projector。
还没有进入 VLA action policy 二阶段，因此更适合作为 VQA/世界知识模型使用。

下游 VLA 二阶段模型

如果需要已经经过 VLA/action 二阶段训练的模型，用：

/data/zianguan/shared_vlp_world_knowledge_clean_best_20260520/downstream_vla_stage2_ckpt

来源：

/data/zianguan/output/jarvis_lf_qwen25vl7b/vlp_world_knowledge_clean_then_vla_stage2_action_tokens_gpu4_7

这个不是纯 VQA 模型，而是世界知识 VLP 模型继续做 VLA/action training 后的 policy 模型。

已知 Fair20 target_v2 composite 表现：

mine target_v2：4/5
non-mine：3/15
total：7/20

本地 VQA 调用方式

示例：

CUDA_VISIBLE_DEVICES=0 \
/data/zianguan/shared_vlp_world_knowledge_clean_best_20260520/scripts/run_vqa_example.sh \
  /path/to/image.png \
  "What blocks or entities are visible in this Minecraft scene?"

也可以直接调用 Python：

CUDA_VISIBLE_DEVICES=0 \
python /data/zianguan/shared_vlp_world_knowledge_clean_best_20260520/scripts/query_image_vqa.py \
  --image /path/to/image.png \
  --prompt "What should the agent do next?"

Downloads last month: -; Downloads are not tracked for this model. How to track

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support