阿里云通义千问开源320亿参数模型Qwen1.5-32B,可最大限度兼顾性能、效率和内存占用的平衡,例如相比14B模型,32B在智能体场景下能力更强;相比72B,32B的推理成本更低。迄今通义千问共开源了7款大语言模型,在海内外开源社区累计下载量突破300万。基础能力方面,通义千问320亿参数模型在MMLU、GSM8K、HumanEval、BBH等多个测评中表现优异,性能接近通义千问720亿参数模型,远超其他300亿级参数模型;Chat模型方面,Qwen1.5-32B-Chat模型在MT-Bench评测得分超过8分,与Qwen1.5-72B-Chat之间的差距相对较小;多语言能力方面,通义千问团队选取了12种语言,在考试、理解、数学及翻译等多个领域做了测评,Qwen1.5-32B的多语言能力只略逊于通义千问720亿参数模型。
声明:
猎游人
每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料
猜你喜欢
- 新型神经网络架构KANs:作为多层感知器( MLPs)的有前景的替代品
- Meta推出AdvPrompter:快速适应性地为大语言模型(LLMs)生成对抗性提示(adversarial prompts)
- Llama-Recipes: 强化你的Meta Llama模型之旅
- 提高大语言模型(LLMs)在生成文本时的效率和速度
- XC-CACHE:旨在提高大语言模型(LLMs)的推理效率,同时减少所需的缓存空间
- 腾讯发布基准测试工具SEED-Bench-2-Plus:专门用于评估多模态大语言模型在处理富含文本的视觉内容方面的性能
- 开源多模态大语言模型InternVL 1.5,旨在缩小开源模型与商业专有模型在多模态理解能力方面的差距
- 开源多语言大语言模型Tele-FLM:在语言理解和生成方面展现了卓越的能力,支持广泛的应用场景
- Meta推出LayerSkip:加速大语言模型的推理过程
- 改善大语言模型在处理长文本输入时的信息利用问题,解决所谓的“中间丢失”(lost-in-the-middle)挑战
- SoM-LLaVA:提高多模态大语言模型视觉理解能力的新方法,它通过在图像上添加带标签的标记(tags)来增强模型将视觉对象与文本标记关联的能力
- 阿里巴巴发布了首个千亿参数的大模型 Qwen1.5-110B
0条评论