当前位置：首页 > 情报 >AI情报>文章详情

苹果推出OpenELM开源项目：设备端高效运行的大语言模型

2年前 (2024-04-25) | 分类： AI情报 | 热度： 558 ℃

暂无评论

近日，苹果公司公开发布了若干个开源大语言模型（LLMs），命名为 OpenELM（开源高效语言模型），这些模型专门设计为在本地设备上运行，而非依赖云端服务器。用户现可在 Hugging Face平台上获取这些模型及其相关资源。（参考：苹果推出新型大型开放语言模型OpenELM：提高自然语言处理领域的研究透明度和可复现性）

苹果研发的 OpenELM 系列共计包含八个模型，其中四个采用 CoreNet 库进行了预训练，另外四个则是经过指令微调的版本。在技术论文中指出，苹果采用了逐层缩放策略，旨在提高模型的精确度与效率。

OpenELM 通过巧妙地在Transformer模型的各个层级内部平衡参数分配，实现了性能上的显著提升。例如，在参数量约10亿级别时，OpenELM相较于OLMo模型的准确率提高了2.36%，并且所需预训练数据量减半。

值得注意的是，苹果不仅提供了最终训练完成的模型权重和推理代码，还一并发布了完整的训练框架，包括训练日志、多个检查点以及预训练配置文件，并且所有这些都是基于公开数据集进行训练和评估的。这样的透明化举措旨在促进自然语言人工智能领域的快速进步，带来“更可靠的结果”。

苹果推出OpenELM的初衷是为了赋能并丰富开源研究社区，让其掌握最先进的语言模型技术。公开源码使得研究人员能够深入探讨潜在的风险、数据偏见以及模型偏差问题。同时，开发者和各企业既可以直接使用这些模型，也可以在此基础上进行个性化定制。

苹果通过开放分享此类信息，已成为吸引顶尖工程师、科学家和专业人才的重要途径，特别是在过去受到严格保密政策限制的研究领域。尽管当前苹果设备尚未内置这类AI功能，但业界预测在未来的iOS 18系统更新中或将集成诸多新的人工智能特性，更有传闻称苹果正计划在设备端运行大型语言模型，以保护用户隐私。

OpenELM 苹果