Skip Navigation

LocalLLaMA @sh.itjust.works

noneabove1182 @sh.itjust.works

2y ago

HUGE dataset released for open source use

RedPajama-Data-v2: an Open Dataset with 30 Trillion Tokens for Training Large Language Models — Together AI

30T tokens, 20.5T in English, allegedly high quality, can't wait to see people start putting it to use!

Related github: https://github.com/togethercomputer/RedPajama-Data

Hacker News @lemmy.smeargle.fans

bot @lemmy.smeargle.fans

2y ago

RedPajama v2 Open Dataset with 30T Tokens for Training LLMs

together.ai /blog/redpajama-data-v2

Hacker News @derp.foo

haxor @derp.foo

2y ago

RedPajama v2 Open Dataset with 30T Tokens for Training LLMs

together.ai /blog/redpajama-data-v2

4 comments

Load comments