压缩包一览

文件	体积（约）	内容	主权重 / 关键产物
`Bagel_caption_thinking.tar.gz`	~54 GB	SFT 工程：Nano250K Reasoning Edit 监督微调代码、配置、脚本	`results/250K/checkpoints/0000500/`（step 500）
`R3_odd_data_1K.tar`	~72 GB	理解侧 RL：仅优化文本推理/理解，不反传图像生成	`ckpt-000350`（`online_rl_und8k_edit_7p6k`）
`R3_odd_data_1K-img-extract.tar`	~59 GB	生成侧：优化扩散图像编辑，MoT 理解支路 detach	`ckpt-000150`（`pairscore_remix_scope_gate`）
`Bagel_eval.tar`	~25 GB	评测工程：ImgEdit / 理解 benchmark 脚本、benchmark 数据、历史评测结果	无训练权重；含 `eval/`、`scripts/eval/`、`results/`

各包说明

1. `Bagel_caption_thinking.tar.gz` — SFT

任务：before 图 + 编辑指令 → target caption + thinking → after 图
数据：V2-Nano250K（257,730 条）
基座：BAGEL-7B-MoT
解压：

tar -xzf Bagel_caption_thinking.tar.gz
cd Bagel_caption_thinking

详细文档：包内 README_SFT.md

2. `R3_odd_data_1K.tar` — 理解侧 RL

任务：skip_image_gen=True，reward_fn=entity_diff_vlm，仅训理解/文本 CoT
基座：SFT step-500
数据：Und8K-Edit-7.6K.tar（~7.6K 编辑对，包内另附）
解压：

hf download wyjlu/Youtu-SFT R3_odd_data_1K.tar
tar -xf R3_odd_data_1K.tar
tar -xf R3_odd_data_1K/Und8K-Edit-7.6K.tar -C R3_odd_data_1K/data/rl_train/

详细文档：包内 README_RL_understanding.md

3. `R3_odd_data_1K-img-extract.tar` — 生成侧 RL

任务：skip_image_gen=False，train_generation_only=True，reward_fn=edit_pair_score_vlm
基座：理解侧 RL ckpt（训练时）；归档权重为 ckpt-150（评测常用）
数据：Und8K-Edit-7.6K.tar（~7.6K 编辑对，包内另附）
解压：

hf download wyjlu/Youtu-SFT R3_odd_data_1K-img-extract.tar
tar -xf R3_odd_data_1K-img-extract.tar
tar -xf R3_odd_data_1K-img-extract/ThinkEdit-ge7-weakuniq-plus-new-add.tar \
  -C R3_odd_data_1K-img-extract/data/rl_train/
export THINKEDIT_DATA_ROOT="$(pwd)/R3_odd_data_1K-img-extract/data/rl_train/ThinkEdit-ge7-weakuniq-plus-new-add"

详细文档：包内 README_RL_generation.md

4. `Bagel_eval.tar` — 评测

内容：BAGEL 模型在 ImgEdit、BLINK、CVBench、POPE 等 benchmark 上的评测脚本与结果
主要目录：
- eval/vlm/、eval/gen/ — 评测代码与 benchmark 数据
- scripts/eval/ — 统一启动脚本（如 run_imgedit_ckpt000150.sh、run_eval_vlm.sh）
- results/ — 各次评测推理输出
解压：

hf download wyjlu/Youtu-SFT Bagel_eval.tar
tar -xf Bagel_eval.tar
cd eval   # 包内顶层目录名

说明：不含训练权重；评测时需自行指定 MODEL_PATH / BAGEL_ROOT

训练链路关系

BAGEL-7B-MoT
    ↓  Bagel_caption_thinking（SFT step-500）
    ↓  R3_odd_data_1K（理解侧 RL → ckpt-350）
    ↓  R3_odd_data_1K-img-extract（生成侧 RL → ckpt-150）
    ↳  Bagel_eval（各阶段 checkpoint 评测）

通用说明

所有 RL 包内 checkpoint 已剥离 optimizer，仅含 ema.safetensors + config + tokenizer
RL 训练需外部 VLM reward 服务，启动前设置 MASTER_ADDR、REWARD_SERVER_URLS 等（见各包 README）
下载示例：

pip install -U huggingface_hub
hf download wyjlu/Youtu-SFT <文件名>

Citation

@misc{ye2026understandingvsgenerationnavigating,
      title={Understanding vs. Generation: Navigating Optimization Dilemma in Multimodal Models},
      author={Sen Ye and Mengde Xu and Shuyang Gu and Di He and Liwei Wang and Han Hu},
      year={2026},
      eprint={2602.15772},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2602.15772},
}

Downloads last month: -; Downloads are not tracked for this model. How to track

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for wyjlu/AHA

Base model

Qwen/Qwen2.5-7B

Finetuned

Qwen/Qwen2.5-7B-Instruct

Finetuned

ByteDance-Seed/BAGEL-7B-MoT

Finetuned

(33)

this model

Paper for wyjlu/AHA

Understanding vs. Generation: Navigating Optimization Dilemma in Multimodal Models

Paper • 2602.15772 • Published Feb 17 • 7

压缩包一览

各包说明

1. Bagel_caption_thinking.tar.gz — SFT

2. R3_odd_data_1K.tar — 理解侧 RL

3. R3_odd_data_1K-img-extract.tar — 生成侧 RL

4. Bagel_eval.tar — 评测

训练链路关系

通用说明

Citation

Model tree for wyjlu/AHA

Paper for wyjlu/AHA

1. `Bagel_caption_thinking.tar.gz` — SFT

2. `R3_odd_data_1K.tar` — 理解侧 RL

3. `R3_odd_data_1K-img-extract.tar` — 生成侧 RL

4. `Bagel_eval.tar` — 评测