Learning from Your Own Mistakes: Constructing Learnable Micro-Reflective Trajectories for Self-Distillation
Paper • 2606.18844 • Published • 15
Note 1)使用了错误的路径的信息,不仅是正确的。2)数据/学习信号增强,更明确细致的学习点,额外的环境反馈。3)不同的子蒸馏思路,至少强于baseline
Note 1)前人工作credit assign coarse不满意,能不能提?什么角度?本质思考,什么地方最重要。如果要做实验去看,怎么具体分辨?2)