当前位置：首页 > 优惠 >大语言模型>文章详情

大语言模型书⽣·浦语 2.0发布技术报告

推荐人：暴走AI| 商城: AI | 2年前 (2024-03-27)| 分类：大语言模型 | 热度：458 ℃

已关闭评论

上海 AI 实验室与商汤科技联合香港中文大学和复旦大学正式发布新一代大语言模型书⽣·浦语 2.0（InternLM2）。InternLM2 是在 2.6 万亿 token 的高质量语料上训练得到的，沿袭第一代书生·浦语（InternLM）的设定，包含 7B 及 20B 两种参数规格及基座、对话等版本，提供免费商用授权。书生·浦源大模型挑战赛同日启动，首期赛事包含行业应用和创新创意两个赛道，即日起面向全球进行场景和赛队征集。

GitHub 地址：https://github.com/InternLM/InternLM

HuggingFace 地址：https://huggingface.co/internlm

魔搭地址：https://modelscope.cn/organization/Shanghai_AI_Laboratory

大语言模型书⽣·浦语 2.0发布技术报告

主要功能和特点：

长文本理解与生成： InternLM2特别擅长处理和生成长文本，这得益于其对长范围依赖关系的捕捉能力。
高效的训练框架： 论文详细介绍了InternLM2的训练过程，包括使用的数据类型（如文本、代码和长文本数据）以及预训练设置。
对齐策略： 为了更好地符合人类价值观和指令，InternLM2采用了监督式微调（SFT）和条件在线强化学习（COOL RLHF）策略。
开放源代码： 为了促进社区的发展和研究，InternLM2将其模型在不同训练阶段的版本开源。

工作原理： InternLM2的训练分为几个阶段，首先是使用4k词汇长度的文本进行训练，然后过渡到32k词汇长度的文本，以提高对长文本的处理能力。在预训练阶段，模型通过大量的文本数据学习语言规律和知识。随后，通过SFT和RLHF进一步优化模型，使其更好地遵循人类指令并符合人类价值观。COOL RLHF策略通过条件奖励模型来协调不同的人类偏好，并使用近端策略优化（PPO）来减少奖励黑客行为。

具体应用场景：