Inference Optimization

community

AI & ML interests

None defined yet.

Recent Activity

kylesayrs updated a model about 3 hours ago

inference-optimization/DeepSeek-V4-Flash-5layers-nvfp4moe

kylesayrs published a model about 3 hours ago

inference-optimization/DeepSeek-V4-Flash-5layers-nvfp4moe

kylesayrs updated a model about 8 hours ago

inference-optimization/DeepSeek-V4-Flash-bf16-dequantized-5layers

View all activity

inference-optimization 's models 322

inference-optimization/Qwen3-30B-A3B-Instruct-2507-FP8-Dynamic

31B • Updated Mar 4 • 32

inference-optimization/Qwen3-30B-A3B-Instruct-2507-FP8-Block

31B • Updated Mar 4 • 4

inference-optimization/Qwen3-Coder-Next.w4a16-old

Text Generation • 12B • Updated Feb 26 • 4

inference-optimization/Kimi-K2-Instruct-0905-BF16-NVFP4

Updated Feb 24 • 1

inference-optimization/Ministral-3-14B-Instruct-2512-NVFP4

Updated Feb 4 • 14

inference-optimization/Ministral-3-14B-Instruct-2512.w8a8

Updated Feb 4 • 2

inference-optimization/Ministral-3-14B-Instruct-2512.w4a16

Updated Feb 3 • 14

inference-optimization/Meta-Llama-3-8B-Instruct-NVFP4-GPTQ-Quant

5B • Updated Jan 29 • 1

inference-optimization/Meta-Llama-3-8B-Instruct-NVFP4-GPTQ-MSE

5B • Updated Jan 29 • 1

inference-optimization/DeepSeek-V3-debug-multiply-FP8_DYNAMIC

1B • Updated Jan 24 • 2

inference-optimization/DeepSeek-V3-debug-add-FP8_DYNAMIC

1B • Updated Jan 24 • 1

inference-optimization/DeepSeek-V3-debug-empty-FP8_DYNAMIC

1B • Updated Jan 23 • 8.67k

inference-optimization/DeepSeek-V3-debug-multiply-NVFP4A16

0.9B • Updated Jan 23 • 1

inference-optimization/DeepSeek-V3-debug-add-NVFP4A16

0.9B • Updated Jan 23 • 3

inference-optimization/DeepSeek-V3-debug-empty-NVFP4A16

0.9B • Updated Jan 23 • 121

inference-optimization/DeepSeek-V3-debug-add

1B • Updated Jan 23 • 7

inference-optimization/DeepSeek-V3-debug-multiply

1B • Updated Jan 23 • 37

inference-optimization/Qwen3-0.6B-debug-add-FP8_BLOCK

0.6B • Updated Jan 23 • 2

inference-optimization/Qwen3-0.6B-debug-multiply-FP8_BLOCK

0.6B • Updated Jan 23 • 1

inference-optimization/Qwen3-0.6B-FP8_BLOCK

0.6B • Updated Jan 23 • 87

inference-optimization/Qwen3-0.6B-debug-add-W4A16-G128

0.2B • Updated Jan 23 • 1

inference-optimization/Qwen3-0.6B-debug-multiply-W4A16-G128

0.2B • Updated Jan 23 • 1

inference-optimization/Qwen3-0.6B-W4A16-G128

0.2B • Updated Jan 23 • 139

inference-optimization/Qwen3-0.6B-debug-add

0.6B • Updated Jan 23 • 1

inference-optimization/Qwen3-0.6B-debug-multiply

0.6B • Updated Jan 23 • 4

inference-optimization/DeepSeek-V3-debug-empty

1B • Updated Jan 23 • 317

inference-optimization/granite-4.0-h-tiny-FP8-block

Text Generation • 7B • Updated Jan 23 • 3

inference-optimization/granite-4.0-h-tiny-quantized.w8a8

7B • Updated Jan 23 • 2

inference-optimization/granite-4.0-h-tiny-NVFP4

Updated Jan 22 • 66

inference-optimization/granite-4.0-h-tiny-quantized.w4a16

Updated Jan 22 • 4