Xu's picture

2 7

Xu

UCCCCCCCD

AI & ML interests

None yet

Recent Activity

upvoted a paper 7 days ago

π-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows

liked a model over 1 year ago

stabilityai/stable-diffusion-3-medium

liked a model over 1 year ago

meta-llama/Llama-2-7b-hf

View all activity

Organizations

None yet

upvoted a paper 7 days ago

π-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows

Paper • 2605.14678 • Published 14 days ago • 102

upvoted a paper over 1 year ago

NaturalBench: Evaluating Vision-Language Models on Natural Adversarial Samples

Paper • 2410.14669 • Published Oct 18, 2024 • 39