Tom Lu's picture

Tom Lu

eigentom

·

https://eigentom.github.io

EigenTom

AI & ML interests

MLLM, Generative AI, Agentic RL

Recent Activity

upvoted a paper 1 day ago

Lyra 2.0: Explorable Generative 3D Worlds

upvoted a paper 4 days ago

MMDeepResearch-Bench: A Benchmark for Multimodal Deep Research Agents

updated a Space 7 days ago

ReviewGrounder/GradioDemo

View all activity

Organizations

upvoted a paper 1 day ago

Lyra 2.0: Explorable Generative 3D Worlds

Paper • 2604.13036 • Published 4 days ago • 30

upvoted a paper 4 days ago

MMDeepResearch-Bench: A Benchmark for Multimodal Deep Research Agents

Paper • 2601.12346 • Published Jan 18 • 52

upvoted 3 papers 7 days ago

Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding

Paper • 2604.05015 • Published 12 days ago • 233

Watch Before You Answer: Learning from Visually Grounded Post-Training

Paper • 2604.05117 • Published 12 days ago • 35

ClawBench: Can AI Agents Complete Everyday Online Tasks?

Paper • 2604.08523 • Published 9 days ago • 255

upvoted a paper 9 days ago

SWE-QA-Pro: A Representative Benchmark and Scalable Training Recipe for Repository-Level Code Understanding

Paper • 2603.16124 • Published Mar 17 • 3

upvoted a paper 22 days ago

OpenResearcher: A Fully Open Pipeline for Long-Horizon Deep Research Trajectory Synthesis

Paper • 2603.20278 • Published about 1 month ago • 94

upvoted a paper about 1 month ago

AI Can Learn Scientific Taste

Paper • 2603.14473 • Published Mar 15 • 423

upvoted 7 papers 3 months ago

Self-Refining Video Sampling

Paper • 2601.18577 • Published Jan 26 • 25

VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents

Paper • 2601.16973 • Published Jan 23 • 40

AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning

Paper • 2601.18631 • Published Jan 26 • 48

Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models

Paper • 2601.20354 • Published Jan 28 • 112

DeepSearch: Overcome the Bottleneck of Reinforcement Learning with Verifiable Rewards via Monte Carlo Tree Search

Paper • 2509.25454 • Published Sep 29, 2025 • 148

LongLive: Real-time Interactive Long Video Generation

Paper • 2509.22622 • Published Sep 26, 2025 • 189

Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning

Paper • 2601.06943 • Published Jan 11 • 216

upvoted 2 papers 4 months ago

Rethinking Chain-of-Thought Reasoning for Videos

Paper • 2512.09616 • Published Dec 10, 2025 • 19

TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models

Paper • 2512.02014 • Published Dec 1, 2025 • 74

upvoted 2 papers 5 months ago

OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe

Paper • 2511.16334 • Published Nov 20, 2025 • 96

Visual Spatial Tuning

Paper • 2511.05491 • Published Nov 7, 2025 • 53

upvoted a paper 6 months ago

Emu3.5: Native Multimodal Models are World Learners

Paper • 2510.26583 • Published Oct 30, 2025 • 114