6 5

han weidong

dongdong2021

https://github.com/weidong2018

weidong2018

AI & ML interests

NLP;Multi-modal;LLM

Recent Activity

upvoted a paper about 1 month ago

Hunyuan-TurboS: Advancing Large Language Models through Mamba-Transformer Synergy and Adaptive Chain-of-Thought

upvoted a paper about 1 month ago

Lossless KV Cache Compression to 2%

upvoted a paper about 1 month ago

OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation

View all activity

Organizations

upvoted 3 papers about 1 month ago

Hunyuan-TurboS: Advancing Large Language Models through Mamba-Transformer Synergy and Adaptive Chain-of-Thought

Paper • 2505.15431 • Published May 21, 2025 • 2

Lossless KV Cache Compression to 2%

Paper • 2410.15252 • Published Oct 20, 2024 • 2

OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation

Paper • 2604.18486 • Published Apr 20 • 95

upvoted a paper 2 months ago

TransMamba: Flexibly Switching between Transformer and Mamba

Paper • 2503.24067 • Published Mar 31, 2025 • 21

authored 2 papers 8 months ago

Lossless KV Cache Compression to 2%

Paper • 2410.15252 • Published Oct 20, 2024 • 2

Hunyuan-TurboS: Advancing Large Language Models through Mamba-Transformer Synergy and Adaptive Chain-of-Thought

Paper • 2505.15431 • Published May 21, 2025 • 2

liked a model 11 months ago

tencent/Hunyuan-A13B-Instruct

Text Generation • Updated Aug 21, 2025 • 44.8k • 794

authored a paper about 1 year ago

TransMamba: Flexibly Switching between Transformer and Mamba

Paper • 2503.24067 • Published Mar 31, 2025 • 21

upvoted an article over 1 year ago

Article

Open-R1: a fully open reproduction of DeepSeek-R1

eliebak, lvwerra, lewtun

•

Jan 28, 2025

• 889

upvoted a paper over 1 year ago

Scaling Laws for Floating Point Quantization Training

Paper • 2501.02423 • Published Jan 5, 2025 • 26

authored a paper over 1 year ago

Scaling Laws for Floating Point Quantization Training

Paper • 2501.02423 • Published Jan 5, 2025 • 26

liked a model over 1 year ago

tencent/Tencent-Hunyuan-Large

Text Generation • Updated Jan 19, 2025 • 129 • 616

updated a model over 2 years ago

dongdong2021/instruct_fc_checkpointing

Updated Nov 8, 2023

updated a dataset almost 3 years ago

dongdong2021/cc_sbu_align

Viewer • Updated Aug 1, 2023 • 3.44k • 8

updated a model almost 3 years ago

dongdong2021/vicuna_7b_v0

Updated Jul 29, 2023

liked a dataset about 3 years ago

Hello-SimpleAI/HC3-Chinese

Viewer • Updated Jan 21, 2023 • 25.7k • 5.12k • 172

liked 2 models about 3 years ago

silk-road/luotuo-lora-7b-0.3

Updated Mar 23, 2023 • 12

zai-org/chatglm-6b

Updated Aug 4, 2024 • 1.94k • 2.89k

han weidong

AI & ML interests

Recent Activity

Organizations

dongdong2021's activity

Open-R1: a fully open reproduction of DeepSeek-R1