电力的阴暗面:扩展变压器改变了人工智能领域并在语言理解方面带来了重大进步,但扩展这些模型以处理更大的数据集和更复杂的任务也带来了一系列挑战。 首先,Transformer 是资源密集型的。随着其规模和复杂性的增长,它们需要大量计算资源才能有效地进行训练和部署。训练大规模 Transformer 模型需要高性能计算集群或基于云的基础设施,并配备专用硬件,例如图形处理单元 (GPU) 或张量处理单元 (TPU)。
对计算能力的需求增加可能会给资源不足的组织带来财 澳洲电报放映 务限制。 看看 OpenAI 及其 GPT 模型就知道了。没有人能否认这些模型有多么神奇,但这是有代价的。这些模型在数据中心运行,相比之下,旧电脑主机就像一台笔记本电脑。事实上,你可以下载任何开源 LLM,并尝试在你的电脑上运行它,然后看着你的内存在模型吞噬它时痛苦地哭泣。 而且大多数模型在参数方面与 GPT-3.5 相比都相形见绌。
例如,Llama(Meta 的 LLM)及其开源同类模型的参数数量约为 400 亿。相比之下,GPT-3 的参数数量为 1750 亿。尽管 OpenAI 选择不透露 GPT-4 有多少参数,但有传言称其参数数量约为 1 万亿。 为了便于理解,OpenAI 首席执行官 Sam Altman 告诉媒体,训练 GPT-4 的成本约为 1 亿美元。