压缩包一览

文件 体积(约) 内容 主权重 / 关键产物
Bagel_caption_thinking.tar.gz ~54 GB SFT 工程:Nano250K Reasoning Edit 监督微调代码、配置、脚本 results/250K/checkpoints/0000500/step 500
R3_odd_data_1K.tar ~72 GB 理解侧 RL:仅优化文本推理/理解,不反传图像生成 ckpt-000350online_rl_und8k_edit_7p6k
R3_odd_data_1K-img-extract.tar ~59 GB 生成侧:优化扩散图像编辑,MoT 理解支路 detach ckpt-000150pairscore_remix_scope_gate
Bagel_eval.tar ~25 GB 评测工程:ImgEdit / 理解 benchmark 脚本、benchmark 数据、历史评测结果 无训练权重;含 eval/scripts/eval/results/

各包说明

1. Bagel_caption_thinking.tar.gz — SFT

  • 任务:before 图 + 编辑指令 → target caption + thinking → after 图
  • 数据:V2-Nano250K(257,730 条)
  • 基座BAGEL-7B-MoT
  • 解压
tar -xzf Bagel_caption_thinking.tar.gz
cd Bagel_caption_thinking
  • 详细文档:包内 README_SFT.md

2. R3_odd_data_1K.tar — 理解侧 RL

  • 任务skip_image_gen=Truereward_fn=entity_diff_vlm,仅训理解/文本 CoT
  • 基座:SFT step-500
  • 数据Und8K-Edit-7.6K.tar(~7.6K 编辑对,包内另附)
  • 解压
hf download wyjlu/Youtu-SFT R3_odd_data_1K.tar
tar -xf R3_odd_data_1K.tar
tar -xf R3_odd_data_1K/Und8K-Edit-7.6K.tar -C R3_odd_data_1K/data/rl_train/
  • 详细文档:包内 README_RL_understanding.md

3. R3_odd_data_1K-img-extract.tar — 生成侧 RL

  • 任务skip_image_gen=Falsetrain_generation_only=Truereward_fn=edit_pair_score_vlm
  • 基座:理解侧 RL ckpt(训练时);归档权重为 ckpt-150(评测常用)
  • 数据Und8K-Edit-7.6K.tar(~7.6K 编辑对,包内另附)
  • 解压
hf download wyjlu/Youtu-SFT R3_odd_data_1K-img-extract.tar
tar -xf R3_odd_data_1K-img-extract.tar
tar -xf R3_odd_data_1K-img-extract/ThinkEdit-ge7-weakuniq-plus-new-add.tar \
  -C R3_odd_data_1K-img-extract/data/rl_train/
export THINKEDIT_DATA_ROOT="$(pwd)/R3_odd_data_1K-img-extract/data/rl_train/ThinkEdit-ge7-weakuniq-plus-new-add"
  • 详细文档:包内 README_RL_generation.md

4. Bagel_eval.tar — 评测

  • 内容:BAGEL 模型在 ImgEdit、BLINK、CVBench、POPE 等 benchmark 上的评测脚本与结果
  • 主要目录
    • eval/vlm/eval/gen/ — 评测代码与 benchmark 数据
    • scripts/eval/ — 统一启动脚本(如 run_imgedit_ckpt000150.shrun_eval_vlm.sh
    • results/ — 各次评测推理输出
  • 解压
hf download wyjlu/Youtu-SFT Bagel_eval.tar
tar -xf Bagel_eval.tar
cd eval   # 包内顶层目录名
  • 说明:不含训练权重;评测时需自行指定 MODEL_PATH / BAGEL_ROOT

训练链路关系

BAGEL-7B-MoT
    ↓  Bagel_caption_thinking(SFT step-500)
    ↓  R3_odd_data_1K(理解侧 RL → ckpt-350)
    ↓  R3_odd_data_1K-img-extract(生成侧 RL → ckpt-150)
    ↳  Bagel_eval(各阶段 checkpoint 评测)

通用说明

  • 所有 RL 包内 checkpoint 已剥离 optimizer,仅含 ema.safetensors + config + tokenizer
  • RL 训练需外部 VLM reward 服务,启动前设置 MASTER_ADDRREWARD_SERVER_URLS 等(见各包 README)
  • 下载示例:
pip install -U huggingface_hub
hf download wyjlu/Youtu-SFT <文件名>

Citation

@misc{ye2026understandingvsgenerationnavigating,
      title={Understanding vs. Generation: Navigating Optimization Dilemma in Multimodal Models},
      author={Sen Ye and Mengde Xu and Shuyang Gu and Di He and Liwei Wang and Han Hu},
      year={2026},
      eprint={2602.15772},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2602.15772},
}
Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for wyjlu/AHA

Base model

Qwen/Qwen2.5-7B
Finetuned
(33)
this model

Paper for wyjlu/AHA