Llm 输出关键算法的无损压缩 |提示.ai

法学硕士每天都会产生大量数据，因此妥善存储和发送数据至关重要。无损压缩是在不丢失任何数据的情况下减小文件大小的最佳选择。这就是它的关键及其工作原理的原因：

Why it’s key: LLM outputs can't be guessed and seem human, making old ways of compression weak. Lossless compression keeps all bits of data, keeping its meaning and how we can use it.
主要收益：降低存储成本，减少高达 40% 的能源使用量，并使人工智能更好地工作。
最佳方法：像 LMcompress 和 next-token 猜测方法这样的新技术比 Gzip 等旧工具要好得多，压缩率提高了 20 倍。
对现实生活的影响：prompts.ai 等网站使用这些方法来节省存储空间、降低成本并满足不断增长的数据的需求。

无损压缩不仅可以节省空间，而且是处理越来越多人工智能数据的明智方法。

70% 大小，100% 准确度：通过动态长度浮点进行 GPU 推理的无损 LLM 压缩

无损压缩的工作原理

无损压缩是一种很好的存储人工智能文本而不丢失任何数据的好方法。它发现数据中的模式并使用它们来缩小文件大小。对于人工智能制作的文本，此方法的工作原理与其他缩小文件的方法有点不同。让我们看看它如何保持数据正确并做得很好。

保持数据完整且可逆

无损压缩的重要部分是它如何使数据更小，但保留所有信息。它会看到经常出现的重复事物（例如模式），然后用简短的方式将它们写下来。例如，如果“the”在文本中出现很多，则可以将其放入填充较少空间的小代码中。当我们再次将其放大时，文本会以相同的方式返回。

霍夫曼编码和算术编码等方法可以实现这一点。霍夫曼编码为经常出现的事物提供短代码，而算术编码通过接近数据的最佳小尺寸而做得更好。当他们看到法学硕士如何制作数据时，新的方法会通过学习和改变而走得更远，使他们能够更好地压缩数据。

减少数据的随机性并对其进行分解

随机性，或者说数据的不确定性，对于您可以压缩数据的程度非常重要。随机数据越少，模式越清晰，因此更容易缩小规模。人工智能倾向于生成易于猜测的数据，这有助于使其有利于压缩。

我们如何将文本分解为位（例如字母、字节组或完整单词）会影响我们可以将其缩小到多小。根据事情发生的频率进行编码，为常见位提供短代码，为罕见位提供较长代码。由于人工智能通过很好地猜测这些位来生成文本，因此它非常适合压缩数据的方法。基于早期位的预测可以使这些猜测更好，从而提高我们可以使数据变得更小。智能预测以此为基础，使压缩效果更好。

良好的压缩和智能猜测

让数据变小和正确猜测是相辅相成的：模型对数据了解得越多，它就能更好地缩小数据。 LMcompress 就是一个很好的例子，它是由华中人工智能研究院和滑铁卢大学等机构的专家于 2025 年 5 月开发的方法。 LMcompress 使内容变得更小，与旧方法相比，我们可以将文本、图片、视频和声音缩小一倍。

例如，LMcompress 制作的文本大约是 zpaq 功能的三分之一。它还使 ImageNet 中的图片位达到其初始大小的 43.4%，而 LibriSpeech 中的声音仅为 16.4% - 比 PNG (58.5%) 和 FLAC (30.3%) 等其他方式做得更好。这种把事情变得更小的高水平来自于智能算术编码，它利用了法学硕士在培训时学到的知识。

Ming Li 是 LMcompress 研究的重要参与者，他谈到了学习和压缩事物之间的关系：

__XLATE_10__

“在本文中：我们证明了压缩意味着最好的学习/理解。”

DeepSeekZip 和 LlamaZip 等其他工具也表现出色，压缩率比 zlib 高出 10% 以上。在像promps.ai这样的大型网站上，这些网站负责处理许多法学硕士制作的东西，这些新举措减少了使用的空间并加快了数据的移动速度。主要要知道什么？猜测模型和无损压缩是一件事的两个部分，使用它们都改变了我们保存和使用信息的方式。

这些重大举措不仅节省了空间，而且还与人工智能设置完美结合，使工作顺利进行并降低成本。

减少 LLM 产出的关键方法

缩小 LLM（大语言模型）的产出很困难，但新技术方法却有很大帮助。这些方法不仅仅以旧的方式缩小事物的大小；他们使用人工智能来猜测数据，改变了我们在当今人工智能设置中保存和控制数据的方式。

LM压缩

LMcompress 是一种专为人工智能制造的东西而设计的顶级无损收缩方法。它采用三步法：切碎、猜测和数学编码。它在缩小文字、图片、声音和视频等不同数据类型方面做得非常好。通过将这些类型的数据转换为 LLM 可以处理的位，LMcompress 使事情变得更加节省空间。它的构建基于像所罗门诺夫猜测这样的想法，使其更擅长猜测和转移。

For example, LMCompress got a shrink size of 6.32 on the CLIC2019 picture set, which was way better than JPEG-XL's 2.93. In making sound files smaller, it cut data size by 25%–94%, topping FLAC in stuff like LibriSpeech and LJSpeech. With words, LMCompress nearly made the shrink sizes three times better than older tools like zlib, bzip2, and brotli, giving a bump of 8.5% on MeDAL and 38.4% on Pile of Law compared to the raw Llama3-8B outputs. Even in making videos smaller, it showed more than 20% better results for still scenes and at least 50% better for moving scenes against old ways like FFV1, H.264, and H.265.

__XLATE_16__

“LMCompress 开创了由深刻理解驱动的数据压缩新时代。其架构受到所罗门诺夫归纳法的启发，不仅超越了之前的基准，而且将压缩重新定义为植根于预测和适应的智能过程。” - 阿尼鲁达·斯里坎德 (Aniruddha Shrikhande)

LMcompress 对于像 Promps.ai 这样处理大量 AI 制作内容的地方来说是一个很大的帮助。

下一个令牌预测压缩

一种新的、很酷的方法是利用语言模型猜测下一个单词或标记的方式。这个技巧称为下一个令牌预测压缩，利用这种猜测将数据很好地放入一个小空间中。它确实使用了数据的大语言模型 (LLM) 思想来尽可能多地打包数据，就像香农理论所说的那样。

其效果如何很大程度上取决于语言模型的好坏。顶级模型意味着您可以更好地打包数据。此外，这种方式非常适合当前的法学硕士系统，使其易于在大公司中用于更好的文本数据工作。

双重压缩技术

为了获得更好的小尺寸，双重压缩将两种方法结合在一起，以更好地保存和发送数据。首先通过量化等方法缩小模型，然后对结果使用无损压缩。

在一个案例中，他们将文本工具的大小从 1.09 亿个部分 (438 MB) 增加到 5280 万个部分 (211 MB)。然后，他们使用 4 位量化将其减少到 62.7 MB。下一步将打包模型的输出和其他数据，使打包数据的系统比单独使用一种方法更好。

这种两步方法非常适合大型工作使用，因为它可以节省空间、更便宜地发送数据并且运行成本更低。但是，要使双重压缩发挥良好作用，需要仔细工作，特别是在量化如何改变模型输出数字的外观方面。如果做得好，这将提供一种根据公司需求在节省空间、加快流程或使用更少数据之间进行选择的方法。

比较算法的工作原理

在为 LLM 输出选择最佳压缩方法时，请考虑每种方法在实际使用中的工作原理。每种方法都有其优点和缺点，在大型商业案例中使用时更是如此。

我们如何衡量绩效

为了测试压缩方法，我们看几个关键点：

压缩率：这显示模型尺寸下降了多少。高比率意味着大量节省存储和内存。
推理时间：这跟踪 LLM 将输入数据转换为输出的速度，这是实时使用的关键。
浮点运算 (FLOP)：计算每个作业所需的工作量。平均 FLOPS 利用率 (MFU) 表明根据设备的功能，FLOPs 的使用情况如何。

所选择的算法类型确实可以改变应用程序在大企业中的运行情况。例如，LZ4 和 Snappy 等方法都注重速度，因此非常适合现场工作，即使它们会减少可压缩的量。另一方面，为了在速度不重要的情况下保存数据，使用动态霍夫曼表的 Zstd 或 GZIP 等选择可以提供更好的压缩。 CAST 的 Calliope-Louisa Sotiropoulou 博士说道：

__XLATE_27__

“选择正确的算法需要研究和经验，因为它必须基于数据集、数据类型、平均和最大文件大小以及正确的算法配置。”

这使得您可以轻松了解顶级算法的排列情况。

看数据

在这里，我们列出了关键算法及其工作原理：

这种对事物的审视显示了它的工作效果、添加的容易程度以及它的用途之间的权衡，帮助企业做出明智的选择。

当您观察 LMCompress 数据打包的紧密程度时，它表现出色，在 CLIC2019 上获得 6.32 分，而 JPEG-XL 仅获得 2.93 分。它可以使打包各种数据的旧方法的工作效果提高一倍甚至四倍，但它需要与法学硕士一起工作。

Next-Token Prediction Compression 针对 LLM 的数据进行，打包率比 Gzip 的 3 倍高出 20 倍以上。这使得它成为像 Promps.ai 这样的地方的首选，因为在这些地方削减代币成本非常重要。

Zstandard 找到了一条中间道路，其速度比 zlib 快 3 到 5 倍，并且仍然将数据打包得很紧。它几乎使解包速度提高了一倍，并且添加起来并不困难，这对于想要轻松解决问题的公司来说是一个不错的选择。

选择正确的数据打包方式可以真正改变企业的运作方式。例如，CAST 表示，存储中的智能包装可以减少高达 40% 的用电量。此外，Google 发现 Brotli 打包使用的数据量减少了 20%，在移动数据时节省了电量。这显示了紧密包装对于让LLM更好地发挥作用的巨大作用。

为 AI 工具带来压缩

将压缩技术融入人工智能工具不仅仅是一种升级，它还能改善工作流程并降低成本。通过向这些工具添加压缩，您可以使它们运行得更好，而不会影响它们的工作或使用方式。

将压缩混合到工作流程中的最佳方法

当您向 AI 作业添加无损压缩时，时间非常重要。为了保持速度快并保持存储优势，请在没有其他事情发生时压缩数据，而不是在系统忙于处理事情时压缩数据。对于需要同时进行的工作，请在后面悄悄地压缩保存的数据，这样就不会耽误任何人。不同类型的数据可能需要自己的方式 - 例如，文本可以很好地处理下一个单词猜测压缩，但其他类型可能需要自己的方式。像 ZipNN 这样的工具擅长通过使用熵编码来删除多余内容来处理大文本模型输出。

跟踪代币和明确成本

It's key to keep an eye on how many tokens are used. AI models can cost between $10 and $20 for every million tokens, so even a little more efficiency can mean big savings. To manage costs well, you need to know the difference between input tokens and made tokens as this clarity helps find where you’re saving with compression. For example, cutting the number of stored tokens by 22.42% can mean big savings each month. With systems processing billions of tokens every month, tools that guess how many tokens are used give a clear picture of use and cost impacts. Tools like prompts.ai, which you pay for as you use, get a lot from real-time token watching along with compression stats, giving a clear way to watch and make the most of these tweaks. These ways not only keep costs down but also help with bigger and better changes in operations.

添加压缩带来的业务收益

添加压缩的好处不仅仅只是让事情变得更好——它们触及了底线。 LMcompress 和 ZipNN 等工具展示了智能压缩如何改善存储并帮助企业发展。 IBM 研究员 Moshik Hershcovitch 指出了这些方法的价值：

__XLATE_39__

“我们的方法可以降低人工智能存储和传输成本，几乎没有任何负面影响。当你解压缩文件时，它会恢复到原始状态。你不会丢失任何东西。”

这是一个简单的案例：2025 年 2 月，Hugging Face 开始在其系统中使用一种名为 ZipNN 的新方法来打包数据，并将存储成本降低了 20%。 ZipNN 还将大型通用模型文件缩小了约三分之一，并且打包和解包数据的速度提高了 1.5 倍。例如，Llama 3.1 模型的运行速度比旧方法 zstd 快 62%。当在每天处理超过一百万个模型的大型系统上使用时，ZipNN 可以节省大量存储和数据，从而节省成本。使用这种智能包装方式不仅可以省钱，还可以减少高达 40% 的能源消耗，为金钱和地球做出贡献。对于像 Promps.ai 这样的网站，这些变化使得处理更大的工作和更复杂的东西成为可能，而无需担心空间或成本。

总结和要点

无损打包大型人工智能模型结果的新方法是处理人工智能产生的大数据的关键。以人工智能为主导的新方法不仅效果更好，而且还能保证真实信息的安全。

以下是主要收益及其影响：

Better Algorithms: LMCompress shines by cutting down data size by 50% versus old kinds like JPEG-XL for photos, FLAC for sounds, and H.264 for videos. For words, it pushes down to nearly a third of what zpaq can do. Even more, LLM-based guess methods reach more than 20× lower data sizes, beating the 3× cut by old tools like Gzip.

"Our results demonstrate that the better a model understands the data, the more effectively it can compress it, suggesting a deep connection between understanding and compression." – Authors of LMCompress

"Our results demonstrate that the better a model understands the data, the more effectively it can compress it, suggesting a deep connection between understanding and compression." – Authors of LMCompress

工作收益：IACC（智能人工智能上下文压缩）带来了明显的好处。它将与上下文相关的成本降低了 50%，将内存使用量降低了 5%，并使处理速度提高了 2.2 倍。对于每天处理许多代币的系统来说，这些收益非常重要。
在现实生活中的使用：打包数据的新方法在实际使用中显示出明显的优势。它们减少了数据占用的空间并提高了数据移动的速度。例如，充分利用这些可以节省大量存储空间和通过网络发送的数据。

这些举措有助于让人工智能发挥更大作用并降低成本。通过很好地打包数据，公司可以处理更多数据，而不会达到代币限制，使查找数据变得更容易，并更好地利用他们拥有的数据。无损压缩的工作方式可确保数据安全，并使数据加载和移动更加顺畅和快速。

随着人工智能变得越来越大、越来越复杂，使用这些顶级数据打包方式是必须的——这是跟上的关键。使用这些技巧的公司可以更好地发展他们的人工智能工作，减少他们所需的支出，并为用户提供更快、更可靠的工作。像 Promps.ai 这样的平台已经在使用这些方法来更好地跟踪代币，并通过智能压缩减少花费。