苹果推出OpenELM开源项目:设备端高效运行的大语言模型

| 分类: AI情报 | 热度: 4 ℃

近日,苹果公司公开发布了若干个开源大语言模型(LLMs),命名为 OpenELM(开源高效语言模型),这些模型专门设计为在本地设备上运行,而非依赖云端服务器。用户现可在 Hugging Face平台上获取这些模型及其相关资源。(参考:苹果推出新型大型开放语言模型OpenELM:提高自然语言处理领域的研究透明度和可复现性

苹果研发的 OpenELM 系列共计包含八个模型,其中四个采用 CoreNet 库进行了预训练,另外四个则是经过指令微调的版本。在技术论文中指出,苹果采用了逐层缩放策略,旨在提高模型的精确度与效率。

OpenELM 通过巧妙地在Transformer模型的各个层级内部平衡参数分配,实现了性能上的显著提升。例如,在参数量约10亿级别时,OpenELM相较于OLMo模型的准确率提高了2.36%,并且所需预训练数据量减半。

值得注意的是,苹果不仅提供了最终训练完成的模型权重和推理代码,还一并发布了完整的训练框架,包括训练日志、多个检查点以及预训练配置文件,并且所有这些都是基于公开数据集进行训练和评估的。这样的透明化举措旨在促进自然语言人工智能领域的快速进步,带来“更可靠的结果”。

苹果推出OpenELM的初衷是为了赋能并丰富开源研究社区,让其掌握最先进的语言模型技术。公开源码使得研究人员能够深入探讨潜在的风险、数据偏见以及模型偏差问题。同时,开发者和各企业既可以直接使用这些模型,也可以在此基础上进行个性化定制。

苹果通过开放分享此类信息,已成为吸引顶尖工程师、科学家和专业人才的重要途径,特别是在过去受到严格保密政策限制的研究领域。尽管当前苹果设备尚未内置这类AI功能,但业界预测在未来的iOS 18系统更新中或将集成诸多新的人工智能特性,更有传闻称苹果正计划在设备端运行大型语言模型,以保护用户隐私。

声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)!

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论