如果没有所谓的大型语言模型 (LLM),当前的生成式 AI 革命就不可能实现。LLM 是基于强大的神经架构transformers的 AI 系统,用于对人类语言进行建模和处理。它们之所以被称为“大型”,是因为它们有数亿甚至数十亿个参数,这些参数是使用大量文本数据进行预训练的。
立即开始我们的大型语言模型 (LLM) 概念课程,了解有关 LLM 工作原理的更多信息。
LLM 是流行且广泛使用的聊天机器人的基础模型,例如ChatGPT和Google Bard。具体来说,ChatGPT 由OpenAI 开发和拥有的 LLM GPT-4提供支持,而 Google Bard 则基于 Google 的 PaLM 2 模型。
ChatGPT 和 Bard 以及许多其他流行的聊天机器人有一个共同点,即它们的基础 LLM 是专有的。这意味着它们归公司所有,并且只有购买许可证后才能供客户使用。该许可证附带权利,但也可能对如何使用 LLM 有所限制,并且有关该技术背后机制的信息有限。
然而,法学硕士领域的一个平行运动正在迅速发展:开源法学硕士。随着人们对专有法学硕士缺乏透明度和可访问性有限的担忧日益增加,这些专有法学硕士主要由微软、谷歌和 Meta 等大型科技公司控制,开源法学硕士有望使快速发展的 LMM 和生成式人工智能领域更加易于访问、透明和创新。
本文旨在探索 2023 年最热门的开源 LLM。尽管 ChatGPT 的推出和 (专有) LLM 的普及才一年,但开源社区已经取得了重要的里程碑,有大量开源 LLM 可用于不同目的。继续阅读以查看最受欢迎的 LLM!
开发人工智能应用程序
学习使用 OpenAI API 构建 AI 应用程序。
使用开源法学硕士 (LLM) 的好处
选择开源 LLM 而不是专有 LLM 有多种短期和长期好处。下面列出了最令人信服的理由:
增强数据安全性和隐私性
使用专有法学硕士的最大担忧之一是数据泄露或法学硕士提供者未经授权访问敏感数据的风险。事实上,已经出现了一些关于将个人和机密数据用于培训目的的争议。
通过使用开源 LLM,公司将全权负责个人数据的保护,因为他们将完全控制它。
节省成本并减少对供应商的依赖
大多数专有 LLM 都需要许可证才能使用。从长远来看,这可能是 领英数据库 些公司(尤其是中小企业)无法承受的一笔重要开支。开源 LLM 则不是这样,因为它们通常可以免费使用。
然而,值得注意的是,运行 LLM 需要大量资源,即使仅用于推理,这意味着您通常必须为使用云服务或强大的基础设施付费。
代码透明性和语言模型定制
选择开源 LLM 的公司将能够了解 LLM 的工作原理,包括其源代码、架构、训练数据以及训练和推理机制。这种透明度是审查的第一步,也是定制的第一步。
由于开源 LLM(包括其源代码)可供所有人访问,因此使用它们的公司可以根据其特定用例对其进行定制。
积极的社区支持和促进创新
开源运动有望使 LLM 和生成式 AI 技术的使用和访问变得民主化。允许开发人员检查 LLM 的内部工作原理是该技术未来发展的关键。通过降低全球程序员的准入门槛,开源 LLM 可以促进创新,并通过减少偏见、提高准确性和整体性能来改进模型。
解决人工智能的环境足迹
随着法学硕士的普及,研究人员和环保监督机构开始担心运行这些技术所需的碳足迹和水消耗。专有法学硕士很少发布有关培训和运营法学硕士所需资源的信息,也不会发布相关的环境足迹。
通过开源 LLM,研究人员有更多机会了解这些信息,这可以为旨在减少人工智能对环境影响的新改进打开大门。
2024 年 8 大顶级开源大型语言模型
1.LLaMA 3.1
法学硕士 (LLM) 领域的大多数顶尖企业都选择闭门修读法学硕士 (LLM)。然而,Meta 仍然是一个例外,它推出了一系列开源法学硕士 (LLM),目前包括最新的LLaMA 3.1。
LLaMA 3.1 于 2024 年 7 月 23 日发布,包含具有 8B、70B 和首次 405B 参数的模型,是该系列中最大的模型。这些模型旨在处理多种语言的各种自然语言处理任务,包括英语、西班牙语、葡萄牙语、德语、泰语、法语、意大利语和印地语。
LLaMA 3.1 模型支持大幅增加的 128,000 个标记的上下文长度,这增强了它们处理和理解长文本的能力,从而显著提高复杂推理任务的性能并在较长的对话中保持上下文。
405B 模型尤其适用于生成合成数据,可用于训练其他模型,也可用于知识提炼,允许将来自这个大型模型的知识转移到更小、更高效的模型中。此功能为在资源受限的环境中部署高级 AI 开辟了新的可能性。
此外,LLaMA 3.1 继续利用人类反馈强化学习 (RLHF),确保模型符合人类对帮助性和安全性的偏好。
要了解有关 LLaMA 的更多信息,请查看我们的Meta AI 的 LLaMA 简介和我们的微调 LLaMA 3.1文章。
2. 布卢姆
图片6.png
BLOOM于 2022 年推出,是与来自 70 多个国家的志愿者和 Hugging Face 的研究人员进行为期一年的合作项目之后推出的,它是一门自回归法学硕士课程,使用工业规模的计算资源对大量文本数据进行训练,根据提示继续处理文本。
BLOOM 的发布标志着生成式 AI 民主化的重要里程碑。BLOOM 拥有 1760 亿个参数,是最强大的开源 LLM 之一,能够以 46 种语言和 13 种编程语言提供连贯而准确的文本。
透明度是 BLOOM 的支柱,在这个项目中,每个人都可以访问源代码和训练数据,以便运行、研究和改进它。