LLM 输出的无损压缩：关键算法

每天，LLM 都会生成大量数据，这使其成为妥善存储和发送数据的关键。无损压缩是在不丢失任何数据的情况下缩小文件大小的最佳选择。 以下是它至关重要的原因及其工作原理：

为什么这是关键: LLM 的输出无法猜测而且看起来很人性化，这使得旧的压缩方法很弱。无损压缩可保留所有数据，保持其含义以及我们如何使用它。
主要收益：降低存储成本，将能源消耗降低多达40％，并使人工智能更好地运作。
最好的方法: 像新技术一样 lmCompress 而且下一个代币的猜测方法比 Gzip 等旧工具要好得多，压缩率最高可提高 20 倍。
现实生活中的影响: 像这样的网站 prompts.ai 使用这些方法可以节省存储空间、削减成本并满足不断增长的数据的需求。

无损压缩不仅可以节省空间，而且是处理越来越多的人工智能数据的一种明智方式。

70% 大小，100% 准确度：通过动态长度浮点进行无损 LLM 压缩，进行 GPU 推理

无损压缩的工作原理

无损压缩是在不丢失任何数据的情况下很好地存储人工智能制作的文本的一种很酷的方法。它可以在数据中发现模式并使用它们来缩小文件大小。对于人工智能制作的文本，这种方法与其他缩小文件的方法略有不同。让我们来看看它是如何保持数据正确的，并做得很好。

保持数据的完整性和可逆性

无损压缩的重要部分在于它可以缩小数据量，同时保留所有信息。它会看到经常出现的重复内容（例如图案），然后用简短的方式写出来。例如，如果 “the” 经常出现在文本中，则可以将其放入占用更少空间的小代码中。当我们再次把它做大时，文本会变成原样。

诸如霍夫曼编码和算术编码之类的方法使这项工作得以实现。霍夫曼编码为经常出现的事物提供短码，而算术编码通过接近数据的最佳小尺寸来做得更好。新的方法甚至可以走得更远，因为他们看到LLM如何生成数据，从而更好地压缩数据，从而进行学习和改变。

降低数据的随机性并对其进行分解

随机性，或者数据的不确定程度，对你能压缩多少数据非常重要。随机数据越少，模式越清晰，因此更容易缩小。人工智能往往会生成易于猜测的数据，因此这有助于使其有利于压缩。

我们如何将文本分解为位（例如字母、字节组或完整单词）会影响我们能把它做得有多小。取决于事物发生频率的编码为普通位提供短码，为稀有位提供更长的代码。由于人工智能通过猜测这些位来制作文本，因此它非常适合压缩数据的方式。根据较早的比特进行预测可以使这些猜测变得更好，从而提高我们制作数据的微小程度。智能预测以此为基础，使压缩效果更好。

良好的压缩和智能猜测

缩小数据并猜测数据是相辅相成的：模型了解数据越聪明，缩小数据的能力就越强。LmCompress 就是一个很好的例子，它是由来自华中人工智能研究所等地的大脑在 2025 年 5 月开发的一种方法滑铁卢大学。LmCompress 使东西变小了很多，与旧方法相比，我们可以制作文本、图片、视频和声音的小量翻了一番。

例如，LmCompress制作的文本大约是zpaq所能做的三分之一。它还使来自ImageNet的图像位数达到43.4％，而来自LibriSpeech的声音仅为16.4％，表现要好于PNG（58.5％）和FLAC（30.3％）等其他方式。这种让事物变小的高水平来自于智能算术编码，它使用 LLM 在训练时学到的知识。

作为 LmCompress 研究的重要组成部分的李明谈到了学习和压缩事物是如何相互关联的：

“在这篇论文中：我们证明了压缩意味着最好的学习/理解。”

其他工具，如 DeepSeekZip 和 lmazip 也表现不错，压制率比zlib高出10％以上。在像 prompts.ai 这样处理许多 LLM 制作内容的大型网站上，这些新举措减少了空间的使用量并加快了数据的移动速度。要知道的主要事情？猜测模型和无损压缩是一回事的两个部分，使用它们都会改变我们保存和使用信息的方式。

这些重大步骤不仅节省了空间，而且可以很好地与人工智能设置相结合，从而使工作顺利进行并降低成本。

缩小 LLM 输出的关键方法

缩小LLM（大语言模型）的输出很难，但是新的技术方法有很大帮助。这些方法不仅仅是以旧的方式缩小范围；它们使用人工智能来猜测数据，改变我们在当今人工智能设置中保存和控制数据的方式。

lmCompress

LMCompress

LmCompress 是一种一流的无损收缩方法，专为人工智能制造的东西而设计。它使用三步法：砍掉，揣测，以及 数学编码。它在缩小文字、图片、声音和视频等不同数据类型方面做得非常好。通过将这类数据转化为 LLM 可以处理的比特，LmCompress 可以进一步节省空间。它的构建基于所罗门诺夫猜测之类的想法，使其更擅长猜测和移动。

例如，LmCompress 的收缩大小为 6.32 在 CLIC2019 的照片集上，比 JPEG-XL 的要好得多 2.93。在缩小声音文件时，它将数据大小减少了 25% — 94%，在 libriSpeech 和 ljSpeech 之类的东西中名列前茅 FLAC。不言而喻，LmCompress 的缩小尺寸几乎比 zlib、bzip2 和 brotli 等旧工具好三倍，这让人大吃一惊 8.5% 在 meDal 上和 38.4% 在 Pile of Law 上与 Llama3-8B 的原始输出进行了比较。即使在缩小视频时，它显示的视频也超过 好了 20% 静止场景的结果至少是 好了 50% 用于以 FFV1、H.264 和 H.265 等旧方式移动场景。

“LMCompress 以深刻的理解为动力，开创了数据压缩的新时代。它的架构受到所罗门诺夫归纳法的启发，不仅超过了之前的基准，而且将压缩重新定义为一种植根于预测和适应的智能过程。”-Aniruddha Shrikhande

对于像 prompts.ai 这样处理大量人工智能制作内容的地方来说，LmCompress 是一个很大的帮助。

下一代币预测压缩

一种新的、很酷的方法是使用语言模型猜测下一个单词或标记。已打电话 下一个代币预测压缩，这个技巧利用这种猜测将数据放入一个小空间中。它实际上使用了大语言模型（LLM）的数据概念来尽可能多地打包数据。

其运作效果在很大程度上取决于语言模型的优良程度。顶级模型意味着你可以更好地打包数据。此外，这种方式非常适合当前的LLM系统，使其易于使用，可以更好地在大公司中完成文本数据工作。

双重压缩技术

为了获得更好的小尺寸， 双重压缩 将两种方法结合在一起，可以更好地保存和发送数据。首先，通过量化之类的方法使模型变小，然后对结果使用无损压缩。

在一个案例中，他们制作了一个文本工具 1.09 亿个零件 (438 MB) 到 5280 万个零件 (211 MB)。然后，他们使用 4 位量化将其缩减为 62.7 兆字节。下一步打包模型的输出和其他数据，使打包数据的系统比单独使用一种方法更好。

这种两步法非常适合大型工作用途，因为它可以节省空间，发送数据的费用更低，运行成本更低。但是，要使双重压缩效果良好，需要仔细研究，尤其是在量化如何改变模型输出数字的外观方面。如果做得好，则可以根据公司的需求在节省空间、加快流程或减少数据使用量之间做出选择。

sbb-itb-f3c4398

比较算法的工作原理

在为 LLM 输出选择最佳压缩方法时，请考虑每种压缩方法在实际使用中的工作原理。每种方法都有其优点和利弊，在大型商业案例中使用时更是如此。

我们如何衡量绩效

为了测试压缩方法，我们来看看几个关键点：

压缩比：这显示了模型大小下降了多少。高比率意味着可以节省大量的存储和内存。
推理时间：这会跟踪 LLM 将输入数据转换为输出的速度，这是实时使用的关键。
浮点运算 (FLOP)：这计算了每项工作所需的工作。这个 平均浮点利用率 (MFU) 根据设备的功能说明FLOP的使用情况。

所选择的算法类型确实可以改变应用程序在大企业中的运行情况。例如，像 LZ4 和 Snappy 这样的方法都与速度有关，这使得它们非常适合现场作业，即使它们减少了你可以压缩的量。另一方面，为了将数据保留在速度并不重要的地方，诸如带有动态哈夫曼表的Zstd或GZIP之类的选择可以提供更好的压缩效果。来自 CAST 的 Calliope-Louisa Sotiropoulou 博士说：

“选择正确的算法需要研究和经验，因为它必须基于数据集、数据类型、平均和最大文件大小以及正确的算法配置。”

这样可以很容易地看到顶级算法是如何排列的。

看看数据

在这里，我们列出了关键算法及其工作原理：

方法挤压等级快速打开备份好好成长待添加最适合 lmCompress 非常高（比平时好得多）很好，智能技术有帮助高，在设定字段中变得更好很难，需要智能技术使用大量类型的数据 下一代币猜猜挤压 非常高（在智能文本中超过 20 倍）不错，很聪明的猜测辅助工具与其他智能技术一起成长很难，需要智能科技让智能文本更好地发挥作用 标准版 (Zstd) 良好（与其他基本类型相同）非常快（比其他人快 2 倍）高，可以从 22 种方式中选择简单，可供所有人使用日常办公任务

这种对事物的看法表明了其工作效果、添加的难易程度和用途之间的权衡，以帮助企业做出明智的选择。

当你看看 LmCompress 能打包数据有多紧时，它表现不错，在 CLIC2019 上得分为 6.32，而 JPEG-XL 的得分仅为 2.93。它可以使打包各种数据的旧方法提高一倍甚至四倍，但它需要与LLM一起使用。

Next-Token 预测压缩是针对来自 LLM 的数据制作的，其打包率比 Gzip 的 3 倍好 20 倍以上。这使其成为像 prompts.ai 这样的地方的首选，在这些地方，削减代币成本非常重要。

Zstandard 找到了一个中间道路，速度比 zlib 快 3 到 5 倍，而且打包的数据仍然非常紧张。它几乎是拆包速度的两倍，而且不难添加，因此对于想要轻松修复的公司来说，这是一个不错的选择。

选择正确的数据打包方式确实可以改变企业的运作方式。例如，CAST表示，存储中的智能包装可以减少多达40％的用电量。此外，谷歌发现Brotli打包消耗的数据量减少了20％，从而在移动数据时节省了电量。这表明紧凑包装在使LLM更好地运作方面起着重要作用。

为 AI 工具带来压缩

将压缩技术应用到人工智能工具中不仅仅是升级，它可以改善工作流程并降低成本。通过向这些工具添加压缩功能，您可以使它们更好地运行，而不会影响它们的工作或使用方式。

将压缩混合到工作流程中的最佳方法

当你为 AI 任务添加无损压缩时，时机非常重要。为了保持快速运行并保留存储空间，请在没有其他事情发生时压缩数据，而不是在系统忙于处理问题时压缩数据。对于需要同时进行的工作，请将保存的数据安静地压缩在后面，这样就不会有人受阻。不同种类的数据可能需要各自的方式，例如，文本在下一个单词的猜测压缩中效果良好，但其他类型可能需要自己的方式。像 ZipNN 这样的工具擅长通过使用熵编码来减少额外内容来处理大文本模型的输出。

跟踪代币和清算成本

密切关注使用了多少代币是关键。人工智能模型每百万个代币的成本在10到20美元之间，因此，即使提高一点效率也意味着可以节省大量资金。为了很好地管理成本，你需要知道输入代币和自制代币之间的区别，因为这种清晰度有助于找到通过压缩可以节省的地方。例如，将存储的代币数量减少22.42％可能意味着每月可以节省大量资金。由于系统每月处理数十亿个代币，猜测使用了多少代币的工具可以清楚地了解使用情况和成本影响。像 prompts.ai 这样的工具可以从实时代币观察和压缩统计数据中获得很多好处，这为观看和充分利用这些调整提供了清晰的方式。这些方法不仅可以降低成本，而且还有助于实现更大、更好的运营变革。

增加压缩带来的业务收益

添加压缩的好处不仅仅是让事情变得更好——它们达到了底线。LmCompress 和 ZipNN 等工具展示了智能压缩如何改善存储并帮助企业发展。 IBM 公司研究员莫希克·赫什科维奇指出了这些方法的价值：

“我们的方法可以降低 AI 存储和传输成本，几乎没有缺点。当你解压缩文件时，它会恢复到其原始状态。你不会失去任何东西。”

这是一个简单的例子：2025年2月，拥抱的脸他们开始在系统中使用一种名为ZipNN的方法打包数据的新方法，并将存储成本降低了20％。ZipNN 还将大型通用模型文件缩小了大约三分之一，并且打包和解压缩数据的速度可以加快 1.5 倍。例如，Llama 3.1 模型的运行速度比使用旧方法 zstd 快 62%。当在每天处理超过一百万个模型的大型系统上使用时，ZipNN可以节省大量的存储和数据，也可以节省成本。不仅可以省钱，使用这种智能包装方式还可以减少多达40％的能源，从而为金钱和地球提供帮助。对于像 prompts.ai 这样的网站，这些更改使处理更大的工作和更复杂的事情成为可能，而不必担心空间或成本。

摘要和要点

在不丢失的情况下打包大型 AI 模型结果的新方法是处理 AI 生成的大数据的关键。以人工智能为主导的新方法不仅效果更好，而且可以确保真实信息的安全。

以下是主要收益及其影响：

更好的算法: LmCompress 与照片的 JPEG-XL、声音的 FLAC 和视频的 H.264 等旧版本相比，LmCompress 通过将数据大小缩小了 50% 而大放异彩。换句话说，它压低到zpaq能做的事情的近三分之一。更重要的是，基于LLM的猜测方法的数据大小比Gzip等旧工具减少了20倍以上。

“我们的研究结果表明，模型对数据的理解越好，压缩数据的效率就越高，这表明理解与压缩之间存在深厚的联系。” — LMCompress 的作者

工作收益: IACC（智能 AI 上下文压缩）带来明显的好处。它将与上下文相关的成本降低了50％，将内存使用量降低了5％，并将处理速度提高了2.2倍。对于每天处理许多代币的系统来说，这些收益非常重要。
在现实生活中使用：打包数据的新方法在实际用途中取得了明显的胜利。它们减少了房间数据消耗量，提高了数据的移动速度。例如，充分使用它们可以节省大量的存储空间和通过网络发送的数据。

这些举措有助于使人工智能发挥更大作用并降低成本。通过妥善打包数据，企业可以处理更多数据，而不会达到代币限制，可以更轻松地查找数据，并更好地使用他们拥有的东西。无损压缩的工作方式可确保数据安全，并使加载和移动数据更顺畅、更快。

随着人工智能变得越来越大，混乱程度越来越高，使用这些顶级数据打包方式是必须的——这是跟上步伐的关键。使用这些技巧的公司可以更好地发展其人工智能，减少在所需资源上的支出，为用户提供更快、更可靠的工作。像 prompts.ai 这样的平台已经在使用这些方法来更好地跟踪代币，并通过智能压缩减少支出。