Yuexi Shen's picture

3 1

Yuexi Shen

yuexishen

AI & ML interests

None yet

Recent Activity

upvoted a paper 12 days ago

Code as Agent Harness

upvoted a paper 6 months ago

Video-R4: Reinforcing Text-Rich Video Reasoning with Visual Rumination

upvoted a paper 8 months ago

Tree-based Dialogue Reinforced Policy Optimization for Red-Teaming Attacks

View all activity

Organizations

None yet

models 11

yuexishen/codellama-7b-humaneval-ppo-qlora

Updated Jun 5, 2025

yuexishen/codellama-7b-instruct-humaneval-ppo-qlora

Updated Jun 5, 2025

yuexishen/codellama-7b-python-mbpp-grpo-qlora

Updated Jun 5, 2025

yuexishen/codellama-7b-python-mbpp-ppo-qlora

Updated Jun 5, 2025

yuexishen/codellama-7b-grpo-qlora

Updated Jun 3, 2025

yuexishen/deepseek-coder-7b-instruc-ppo-qlora

Updated Jun 2, 2025

yuexishen/deepseek-coder-7b-base-v1-ppo-qlora

Updated Jun 2, 2025

yuexishen/codellama-7b-mbpp-ppo-qlora

Updated Jun 1, 2025

yuexishen/codellama-7b-instruct-ppo-qlora

Updated Jun 1, 2025

yuexishen/Llama-3-8B-Instruct-Finance-RAG

Text Generation • 8B • Updated Jan 20, 2025

datasets 0

None public yet