【大语言模型】一位LLM的时代（论文综述）

语言 Chinese, Simplified

SEO Title

摘要

2023年推出的BitNet模型开创了1位LLM的时代。该模型标志着从传统的高精度、计算成本高昂的LLM向低精度、低成本的LLM的重大转变。BitNet b1.58是基于BitNet的一种新的1位LLM变体，该模型将每个权重限制为三个可能的值：-1、0或1。BitNet b1.58模型可以在使用相同的模型大小和训练数据的情况下匹配全精度（FP16或BF16）LLM的性能（困惑和最终任务结果）。此外，与传统LLM相比，BitNet b1.58显著降低了延迟、内存使用和能耗。

介绍

全精度LLM的问题

大型语言模型（LLM）在自然语言处理方面取得了令人难以置信的进展，但这是随着模型大小的不断增加而来的。LLM的大小给实际部署带来了问题。这些模型计算成本高，能耗高，并且占用大量内存。

量化是次优解

训练后量化是一种用于使LLM更小、更高效地进行推理（模型的实际使用）的技术。它通过降低用于表示权重和激活的数字的精度来压缩模型。典型的减少是从16位表示减少到4位或更低。低位模型使用更少的内存，计算速度更快，使用起来更实用。尽管培训后量化在行业中很受欢迎，但它并不是完美的解决方案。压缩模型的过程有时会影响其性能。

解决方案是1位LLM

BitNet等1位模型体系结构为降低LLM的成本同时保持其性能提供了一个很有前途的方向。BitNet 1.58b基于BitNet架构，并将其权重限制为-1、0或1。最初的BitNet架构只使用-1和1，而BitNet 1.58b除了使用-1和1。包含“0”允许在模型中进行功能筛选。这意味着它可以选择性地忽略某些功能，与纯1位LLM相比，提高了性能。