Inference Optimization

community

AI & ML interests

None defined yet.

Recent Activity

MeganEFlynn published a dataset about 2 hours ago

inference-optimization/Longbench_Samples_Specdec

MeganEFlynn updated a model about 3 hours ago

inference-optimization/Gemma4_SWA_DFLASH

MeganEFlynn published a model about 3 hours ago

inference-optimization/Gemma4_SWA_DFLASH

View all activity

inference-optimization 's models 352

inference-optimization/Llama-3.2-1B-Instruct-5-bits-mode-hybrid-per-tensor

1B • Updated 27 days ago • 39

inference-optimization/Llama-3.2-1B-Instruct-5-bits-mode-heuristic-per-tensor

1B • Updated 27 days ago • 35

inference-optimization/Meta-Llama-3-8B-Instruct-spinquantR1R2R4-w4a16-gptq

2B • Updated 28 days ago • 74

inference-optimization/Meta-Llama-3-8B-Instruct-spinquantR1R2R4-w4a16-qmod

2B • Updated 28 days ago • 20

inference-optimization/Meta-Llama-3-8B-Instruct-spinquantR1R2R4-nvfp4-qmod

5B • Updated 28 days ago • 21

inference-optimization/Meta-Llama-3-8B-Instruct-spinquantR1R2R4-nvfp4-gptq

5B • Updated 28 days ago • 22

inference-optimization/Llama-3.1-8B-Instruct-quip-w4a16-gptq

2B • Updated 28 days ago • 20

inference-optimization/Llama-3.1-8B-Instruct-quip-w4a16-qmod

2B • Updated 28 days ago • 21

inference-optimization/Llama-3.1-8B-Instruct-quip-nvfp4-qmod

5B • Updated 28 days ago • 17

inference-optimization/Llama-3.1-8B-Instruct-quip-nvfp4-gptq

5B • Updated 28 days ago • 17

inference-optimization/Meta-Llama-3-8B-Instruct-W4A16_actorder_group

2B • Updated 29 days ago • 20

inference-optimization/llama3-8b-sharegpt-5k-gen

inference-optimization/Llama-3.2-3B-Instruct-NVFP4

2B • Updated Apr 7 • 319

inference-optimization/Llama-3.2-3B-Instruct-FP8-Dynamic

3B • Updated Apr 7 • 25

inference-optimization/Llama-3.2-3B-Instruct-FP8-Block

3B • Updated Apr 7 • 4

inference-optimization/Llama-3.2-1B-Instruct-NVFP4

0.8B • Updated Apr 7 • 32

inference-optimization/Llama-3.2-1B-Instruct-FP8-Dynamic

1B • Updated Apr 7 • 27

inference-optimization/Llama-3.2-1B-Instruct-FP8-Block

1B • Updated Apr 7 • 5

inference-optimization/Qwen3-30B-A3B_5.5_bits_mode_heuristic

22B • Updated Apr 2 • 2

inference-optimization/Qwen3-30B-A3B_7.0_bits_mode_heuristic

27B • Updated Apr 2 • 3

inference-optimization/Qwen3-30B-A3B_7.0_bits_mode_noise

27B • Updated Apr 2 • 2

inference-optimization/Qwen3-30B-A3B_7.0_bits_mode_hybrid

25B • Updated Apr 2 • 1

inference-optimization/Qwen3-30B-A3B_6.5_bits_mode_heuristic

25B • Updated Apr 2 • 1

inference-optimization/Qwen3-30B-A3B_6.5_bits_mode_noise

25B • Updated Apr 2 • 5

inference-optimization/Qwen3-30B-A3B_6.5_bits_mode_hybrid

24B • Updated Apr 1 • 4

inference-optimization/Qwen3-30B-A3B_6.0_bits_mode_heuristic

23B • Updated Apr 1 • 1

inference-optimization/Qwen3-30B-A3B_6.0_bits_mode_noise

24B • Updated Apr 1 • 2

inference-optimization/gpt-oss-120b-from-qwen235b-then-self-ckpt5-speculator.eagle3

0.9B • Updated Apr 1 • 3

inference-optimization/Qwen3-30B-A3B_6.0_bits_mode_hybrid

23B • Updated Apr 1 • 2

inference-optimization/Qwen3-30B-A3B_5.5_bits_mode_noise

22B • Updated Apr 1 • 1 • 1