YAML Metadata Warning:empty or missing yaml metadata in repo card
Check out the documentation for more information.
VLP/VQA 世界知识一阶段最佳 checkpoint 共享包
日期:2026-05-20
这个目录用于共享当前 Jarvis LF / Qwen2.5-VL 实验里表现最好的“一阶段 VLP/VQA 世界知识模型”。它主要用于图像问答、世界知识探测、视觉语义理解,不是直接用于 Minecraft 动作评测的最终 VLA policy。
共享路径和权限
共享目录:
/data/zianguan/shared_vlp_world_knowledge_clean_best_20260520
推荐 checkpoint:一阶段 VQA / 世界知识模型
推荐使用:
/data/zianguan/shared_vlp_world_knowledge_clean_best_20260520/best_vqa_world_knowledge_ckpt
来源:
/data/zianguan/output/jarvis_lf_qwen25vl7b/vlp_world_knowledge_clean_action_tokens_4gpu
为什么选这个:
- 这是纯一阶段 clean world-knowledge VLP/VQA 模型。
- 训练数据是
jarvis_wk_clean_merged。 - 训练了完整 Qwen2.5-VL 栈,包括 vision tower 和 projector。
- 还没有进入 VLA action policy 二阶段,因此更适合作为 VQA/世界知识模型使用。
下游 VLA 二阶段模型
如果需要已经经过 VLA/action 二阶段训练的模型,用:
/data/zianguan/shared_vlp_world_knowledge_clean_best_20260520/downstream_vla_stage2_ckpt
来源:
/data/zianguan/output/jarvis_lf_qwen25vl7b/vlp_world_knowledge_clean_then_vla_stage2_action_tokens_gpu4_7
这个不是纯 VQA 模型,而是世界知识 VLP 模型继续做 VLA/action training 后的 policy 模型。
已知 Fair20 target_v2 composite 表现:
- mine target_v2:
4/5 - non-mine:
3/15 - total:
7/20
本地 VQA 调用方式
示例:
CUDA_VISIBLE_DEVICES=0 \
/data/zianguan/shared_vlp_world_knowledge_clean_best_20260520/scripts/run_vqa_example.sh \
/path/to/image.png \
"What blocks or entities are visible in this Minecraft scene?"
也可以直接调用 Python:
CUDA_VISIBLE_DEVICES=0 \
python /data/zianguan/shared_vlp_world_knowledge_clean_best_20260520/scripts/query_image_vqa.py \
--image /path/to/image.png \
--prompt "What should the agent do next?"
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support