Hugging Face 近日开源了一款名为“Cosmopedia”的 AI 训练数据集,号称是目前世界上最大的合成数据集。该数据集内容均由 Mixtral 7b 模型汇总生成,其中收录 3000 万以上文本文件,包含大量教科书、博客文章、故事小说、WikiHow 教程等内容,共计 250 亿个 Token。Cosmopedia 数据集除了收录上述文本文件外,还为每条文件提供了标注信息,其中包含“提示”、“合成内容”、“初始数据来源”、“标记长度”、“类型”和“目标受众”等。同时团队也提供较小的子数据集 Cosmopedia-100k,供用户轻松管理和使用。Hugging Face 表示,这次开源的数据集为 0.1 版本,未来团队还将持续更新该数据集,推进业界 AI 训练发展。
声明:
猎游人
每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料
猜你喜欢
- Hugging Face推出专门为训练大语言模型而设计的大规模文本数据集FineWeb
- Hugging Face旗下AI聊天应用Hugging Chat上架苹果 App Store,在手机上使用各种开源大模型
- Hugging Face推出数据集WebSight和基于视觉-语言模型的系统Sightseer:它们旨在自动化网页截图到HTML代码的转换过程
- AMEX数据集:为了提升移动设备上AI代理(也就是智能助手)的能力而设计
- 多元化“角色”库PERSONA:这些角色具有不同的背景和个性特征
- VIDEOGAMEBUNNY模型:为理解视频游戏图像而特别定制的多模态大模型
- 无需训练的视频大语言模型SlowFast-LLaVA:能够同时捕捉视频的细节空间语义和长时序时间上下文,而不会超出常用LLM的令牌预算
- 新型视频预训练方法SIGMA:通过一种特别的方式来学习视频数据的表示,以便让计算机能够更好地理解和处理视频内容
- “诊断链(CoD)”:解决了大语言模型在医疗诊断领域中可解释性的问题
- 新型文本检索基准测试BRIGHT:用来评估和挑战检索系统在处理复杂查询时的表现
- 多模态大语言模型评估框架MultiTrust
- Phi-3 Safety Post-Training:调整和优化他们开发的Phi-3系列小型语言模型
0条评论