Skip Navigation

Hacker News @lemmy.smeargle.fans

bot @lemmy.smeargle.fans

2y ago

70B Llama 2 at 35tokens/second on 4090

GitHub - turboderp/exllamav2: A fast inference library for running LLMs locally on modern consumer-class GPUs

TechNews @radiation.party

irradiated @radiation.party

2y ago

HN

70B Llama 2 at 35tokens/second on 4090

github.com /turboderp/exllamav2

Hacker News @derp.foo

haxor @derp.foo

2y ago

70B Llama 2 at 35tokens/second on 4090

github.com /turboderp/exllamav2

LocalLLaMA @sh.itjust.works

noneabove1182 @sh.itjust.works

2y ago

Exllama V2 released! Available in Ooba! Big speed upgrades!

github.com /turboderp/exllamav2

0 comments

No comments