YAML Metadata Warning:empty or missing yaml metadata in repo card

Check out the documentation for more information.

VLP/VQA 世界知识一阶段最佳 checkpoint 共享包

日期:2026-05-20

这个目录用于共享当前 Jarvis LF / Qwen2.5-VL 实验里表现最好的“一阶段 VLP/VQA 世界知识模型”。它主要用于图像问答、世界知识探测、视觉语义理解,不是直接用于 Minecraft 动作评测的最终 VLA policy。

共享路径和权限

共享目录:

/data/zianguan/shared_vlp_world_knowledge_clean_best_20260520

推荐 checkpoint:一阶段 VQA / 世界知识模型

推荐使用:

/data/zianguan/shared_vlp_world_knowledge_clean_best_20260520/best_vqa_world_knowledge_ckpt

来源:

/data/zianguan/output/jarvis_lf_qwen25vl7b/vlp_world_knowledge_clean_action_tokens_4gpu

为什么选这个:

  • 这是纯一阶段 clean world-knowledge VLP/VQA 模型。
  • 训练数据是 jarvis_wk_clean_merged
  • 训练了完整 Qwen2.5-VL 栈,包括 vision tower 和 projector。
  • 还没有进入 VLA action policy 二阶段,因此更适合作为 VQA/世界知识模型使用。

下游 VLA 二阶段模型

如果需要已经经过 VLA/action 二阶段训练的模型,用:

/data/zianguan/shared_vlp_world_knowledge_clean_best_20260520/downstream_vla_stage2_ckpt

来源:

/data/zianguan/output/jarvis_lf_qwen25vl7b/vlp_world_knowledge_clean_then_vla_stage2_action_tokens_gpu4_7

这个不是纯 VQA 模型,而是世界知识 VLP 模型继续做 VLA/action training 后的 policy 模型。

已知 Fair20 target_v2 composite 表现:

  • mine target_v2:4/5
  • non-mine:3/15
  • total:7/20

本地 VQA 调用方式

示例:

CUDA_VISIBLE_DEVICES=0 \
/data/zianguan/shared_vlp_world_knowledge_clean_best_20260520/scripts/run_vqa_example.sh \
  /path/to/image.png \
  "What blocks or entities are visible in this Minecraft scene?"

也可以直接调用 Python:

CUDA_VISIBLE_DEVICES=0 \
python /data/zianguan/shared_vlp_world_knowledge_clean_best_20260520/scripts/query_image_vqa.py \
  --image /path/to/image.png \
  --prompt "What should the agent do next?"
Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support