従量課金制 - AI Model Orchestration and Workflows Platform
BUILT FOR AI FIRST COMPANIES

Llm 出力の可逆圧縮の主なアルゴリズム

Chief Executive Officer

Prompts.ai Team
2025年7月12日

LLM は毎日大量のデータを作成するため、データを適切に保存して送信することが重要です。データを失わずにファイル サイズを削減するには、可逆圧縮が最適です。これが重要な理由とその仕組みは次のとおりです。

  • Why it’s key: LLM outputs can't be guessed and seem human, making old ways of compression weak. Lossless compression keeps all bits of data, keeping its meaning and how we can use it.
  • 主な利点: ストレージのコストが削減され、エネルギー使用量が最大 40% 削減され、AI の動作が向上します。
  • 最良の方法: LMCompress やネクスト トークン推測メソッドなどの新しい技術は、Gzip などの古いツールよりもはるかに優れており、圧縮率は最大 20 倍に達します。
  • 実生活への影響: Prompts.ai などのサイトは、ストレージを節約し、コストを削減し、増大するデータのニーズを満たすために、これらの方法を使用しています。

可逆圧縮はスペースを節約するだけでなく、AI によって作成されるますます多くのデータを処理するための賢い方法です。

サイズ 70%、精度 100%: 動的長浮動小数点数による GPU 推論のためのロスレス LLM 圧縮

ロスレス圧縮の仕組み

可逆圧縮は、データを失わずに AI で作成されたテキストを適切に保存する優れた方法です。データ内のパターンを特定し、それを使用してファイル サイズを削減します。 AI で作成されたテキストの場合、この方法はファイルを小さくする他の方法とは少し異なります。データを適切に保ち、これをうまく行う方法を見てみましょう。

データを完全かつ可逆的に保つ

可逆圧縮の優れた点は、データを小さくしながらすべての情報を保持できることです。繰り返し現れるもの (パターンなど) を見て、それを短く書きます。たとえば、「the」がテキスト内に多く含まれる場合、スペースを埋める小さなコードに入れることができます。再度大きくすると、テキストは同じように表示されます。

ハフマンコーディングや算術コーディングなどの方法でこれを実現します。ハフマンコーディングは頻繁に現れるものに短いコードを与えますが、算術コーディングはデータに最適な小さなサイズに近づけることでさらに優れています。新しい方法は、LLM がデータをどのように作成するかを学習して変更することでさらに前進し、データの圧縮をより適切に行うことができます。

データのランダム性を減らし、データを細分化する

ランダム性、つまりデータがどの程度不確実であるかは、データをどの程度圧縮できるかに大きく影響します。ランダムなデータが少ないほどパターンが明確になるため、データを小さくするのが簡単になります。 AI は推測しやすいデータを作成する傾向があるため、圧縮に適しています。

テキストを文字、バイトのグループ、完全な単語などのビットにどのように分割するかは、テキストをどれだけ小さくできるかに影響します。物事の発生頻度に応じたコーディングでは、一般的なビットには短いコードが与えられ、まれなビットには長いコードが与えられます。 AI はこれらのビットをうまく推測してテキストを作成するため、データを圧縮する方法にうまく適合します。以前のビットに基づいて予測すると、これらの推測がより正確になり、データをどれだけ小さくできるかが向上します。スマート予測はこれに基づいて構築され、圧縮をさらに強化します。

適切な圧縮と賢い推測

データを小さくすることとそれを正しく推測することは両立します。モデルがデータをより賢く認識すればするほど、より適切にデータを圧縮できます。優れた例は LMCompress です。これは、中環人工知能研究所やウォータールー大学などの優秀な頭脳によって 2025 年 5 月に作成された方法です。 LMCompress は内容を大幅に小さくし、以前の方法と比較して、テキスト、画像、ビデオ、サウンドを作成できるサイズを 2 倍にしました。

たとえば、LMCompress は、zpaq が実行できるものの約 3 分の 1 のテキストを作成しました。また、ImageNet からの画像ビットを最初のサイズの 43.4% にし、LibriSpeech からのサウンドをわずか 16.4% に抑えました。これは、PNG (58.5%) や FLAC (30.3%) などの他の方法よりも優れています。この高度な小型化は、LLM がトレーニング中に学習した内容を使用するスマート算術コーディングによって実現されます。

LMCompress の研究に大きく貢献した Ming Li 氏は、学習と圧縮がどのように関係しているかについて次のように語っています。

__XLATE_10__

「この論文では、圧縮が最良の学習/理解につながることを証明しました。」

DeepSeekZip や LlamaZip などの他のツールも好調で、zlib を 10% 以上上回るスクッシュ レートを実現しています。 LLM で作られた多くのものを処理する Prompts.ai のような大規模サイトでは、これらの新しい動きにより、使用されるスペースが削減され、データの移動が高速化されます。知っておくべき主なことは何ですか?モデルの推測と損失のないスキッシュは 1 つのことの 2 つの部分であり、両方を使用すると、情報の保持方法と使用方法が変わります。

これらの大きなステップはスペースを節約するだけでなく、AI セットアップとうまく調和し、作業をスムーズに実行し、コストを削減します。

LLM 出力を縮小する主な方法

LLM (大きな言語モデル) の出力を縮小するのは困難ですが、新しい技術手法が大いに役立ちます。これらの方法は、従来の方法で物事を縮小するだけではありません。彼らは AI を使用してデータを推測し、今日の AI セットアップにおけるデータの保存方法と管理方法を変えています。

LM圧縮

LMCompress は、AI で作られたもの専用に作られた最高級の損失のない圧縮方法です。分割、推測、数学的コーディングという 3 段階の方法が使用されます。単語、画像、サウンド、ビデオなどのさまざまな種類のデータを小さくするのに非常に適しています。 LMCompress は、このような種類のデータを LLM が処理できるビットに変換することで、スペースを大幅に節約します。その構築はソロモノフの推測のようなアイデアに基づいており、推測と変更がより優れています。

For example, LMCompress got a shrink size of 6.32 on the CLIC2019 picture set, which was way better than JPEG-XL's 2.93. In making sound files smaller, it cut data size by 25%–94%, topping FLAC in stuff like LibriSpeech and LJSpeech. With words, LMCompress nearly made the shrink sizes three times better than older tools like zlib, bzip2, and brotli, giving a bump of 8.5% on MeDAL and 38.4% on Pile of Law compared to the raw Llama3-8B outputs. Even in making videos smaller, it showed more than 20% better results for still scenes and at least 50% better for moving scenes against old ways like FFV1, H.264, and H.265.

__XLATE_16__

「LMCompress は、深い理解に基づいたデータ圧縮の新時代の到来をもたらします。ソロモノフ帰納法からインスピレーションを得たそのアーキテクチャは、以前のベンチマークを上回るだけでなく、予測と適応に根ざしたインテリジェントなプロセスとして圧縮を再定義します。」 - アニルッダ・シュリカンデ

LMCompress は、AI によって作成されたコンテンツを多数扱う Prompts.ai のような場所にとって非常に役立ちます。

次のトークンの予測圧縮

新しいクールな方法では、言語モデルが次の単語またはトークンを推測する方法を使用します。次トークン予測圧縮と呼ばれるこのトリックは、この推測を使用してデータを小さなスペースにうまく配置します。実際には、ビッグ言語モデル (LLM) のデータの考え方を使用して、シャノン理論が言うようにデータを可能な限り詰め込みます。

これがどれだけうまく機能するかは、言語モデルがどれだけ優れているかによって決まります。最上位モデルは、データをより適切にパックできることを意味します。また、この方法は現在の LLM システムにぴったり適合するため、大企業でのより優れたテキスト データの仕事に簡単に使用できます。

二重圧縮技術

より優れた小さいサイズを実現するには、二重圧縮によって 2 つの方法を組み合わせて、データをより適切に保持および送信します。これは、量子化などを通じてモデルを小さくすることから始まり、その後、出力されたものに可逆圧縮を使用します。

あるケースでは、テキスト ツールを 1 億 900 万パート (438 MB) から 5,280 万パート (211 MB) に増やしました。次に、4 ビット量子化を使用して、それを 62.7 MB まで削減しました。次のステップでは、モデルの出力とその他のデータをパックし、1 つのメソッドだけよりも優れたデータをパックするシステムを作成します。

この 2 段階の方法は、スペースを節約し、より安価にデータを送信し、実行コストを削減できるため、大規模な作業に最適です。ただし、二重圧縮を適切に機能させるには、特に量子化によってモデル出力の数値がどのように変化するかについて、慎重な作業が必要です。これがうまく機能すると、企業のニーズに応じて、スペースの節約、プロセスの高速化、データ使用量の削減のいずれかを選択できるようになります。

アルゴリズムの仕組みを比較する

LLM 出力に最適な圧縮方法を選択するときは、それぞれが実際の使用でどのように機能するかを考慮してください。各方法にはそれぞれ長所とトレードオフがあり、大規模なビジネスケースで使用される場合はさらにその長所とトレードオフが異なります。

パフォーマンスの測定方法

圧縮方法をテストするために、いくつかの重要なポイントを確認します。

  • 圧縮率: モデル サイズがどの程度減少するかを示します。比率が高いということは、ストレージとメモリが大幅に節約されることを意味します。
  • 推論時間: LLM が入力データを出力に変換する速度を追跡します。これはリアルタイム使用の鍵となります。
  • 浮動小数点演算 (FLOP): これは、各ジョブに必要な作業量をカウントします。平均 FLOPS 使用率 (MFU) は、デバイスの機能に基づいて FLOP がどの程度よく使用されているかを示します。

選択したアルゴリズムの種類によって、大企業でアプリがどのように機能するかが大きく変わる可能性があります。たとえば、LZ4 や Snappy などの方法は、圧縮できる量が減っても、速度が重視されるため、現場の作業に最適です。一方、速度がそれほど重要でないデータを保持する場合は、ダイナミック ハフマン テーブルを備えた Zstd や GZIP などを選択すると、圧縮率が向上します。 CASTのCalliope-Louisa Sotiropoulou博士は次のように述べています。

__XLATE_27__

「正しいアルゴリズムを選択するには、データセット、データタイプ、平均および最大ファイルサイズ、および正しいアルゴリズム構成に基づいている必要があるため、学習と経験が必要です。」

これにより、上位のアルゴリズムがどのように並んでいるかを簡単に確認できます。

データを見る

ここでは、主要なアルゴリズムとその仕組みを説明します。

このように物事を分析すると、機能、追加のしやすさ、用途の間のトレードオフがわかり、企業が賢明な選択をするのに役立ちます。

LMCompress はデータをどの程度圧縮できるかという点で優れており、CLIC2019 では 6.32 のスコアを獲得していますが、JPEG-XL では 2.93 しか得られていません。あらゆる種類のデータをパックする従来の方法に比べて 2 倍、さらには 4 倍も効率的に作業できますが、LLM と連携する必要があります。

Next-Token Prediction 圧縮は LLM からのデータに対して行われ、Gzip の 3 倍よりも 20 倍以上優れたパッキング レートを実現します。そのため、トークンコストの削減が非常に重要なpromps.aiのような場所でのトップチョイスとなっています。

Zstandard は、zlib よりも 3 ~ 5 倍高速でありながら、データを同等に圧縮することで中間点を見つけます。解凍速度がほぼ 2 倍になり、追加も難しくないため、簡単な修正を必要とする企業に最適です。

データを圧縮する適切な方法を選択すると、ビジネスのやり方が大きく変わります。たとえば、CAST によれば、ストレージ内のスマート パッキングにより電力使用量を最大 40% 削減できるそうです。また、Google では、Brotli パッキングによりデータ使用量が 20% 削減され、データ移動時の電力が節約されることがわかりました。これは、LLM の機能を向上させる上でタイトなパッキングが大きな役割を果たしていることを示しています。

AI ツールに圧縮をもたらす

AI ツールに圧縮技術を導入することは、単なるアップグレードではなく、ワークフローを改善し、コストを削減します。これらのツールに圧縮を追加すると、ツールの動作や使用方法を損なうことなく、ツールの動作を向上させることができます。

ワークフローに圧縮を組み込む最良の方法

AI ジョブに可逆圧縮を追加する場合、タイミングが非常に重要になります。処理を高速化し、ストレージの特典を維持するには、システムが処理に忙しいときではなく、他に何も起こっていないときにデータを圧縮します。同時に実行する必要がある作業の場合は、誰にも邪魔されないように、保存されたデータを後ろで静かに圧縮します。さまざまな種類のデータには独自の方法が必要な場合があります。たとえば、テキストは次の単語の推測による圧縮で適切に機能しますが、他の種類のデータには独自の方法が必要な場合があります。 ZipNN のようなツールは、エントロピー エンコーディングを使用して余分なものをカットすることで、大きなテキスト モデルの出力を処理するのが得意です。

トークンの追跡と明確なコスト

It's key to keep an eye on how many tokens are used. AI models can cost between $10 and $20 for every million tokens, so even a little more efficiency can mean big savings. To manage costs well, you need to know the difference between input tokens and made tokens as this clarity helps find where you’re saving with compression. For example, cutting the number of stored tokens by 22.42% can mean big savings each month. With systems processing billions of tokens every month, tools that guess how many tokens are used give a clear picture of use and cost impacts. Tools like prompts.ai, which you pay for as you use, get a lot from real-time token watching along with compression stats, giving a clear way to watch and make the most of these tweaks. These ways not only keep costs down but also help with bigger and better changes in operations.

圧縮の追加によるビジネス上の利益

圧縮を追加するメリットは、単に動作を改善するだけではなく、最終的な結果につながります。 LMCompress や ZipNN などのツールは、スマート圧縮によってストレージがどのように改善され、ビジネスの成長に役立つかを示しています。 IBMの研究者Moshik Hershcovitch氏は、これらの方法の価値を次のように指摘しています。

__XLATE_39__

「私たちの方法では、AI ストレージと転送コストを実質的にゼロに削減できます。ファイルを解凍すると、元の状態に戻ります。何も失われることはありません。」

これは単純なケースです。2025 年 2 月に、Hugging Face はシステム内で ZipNN と呼ばれる方法からデータをパッキングする新しい方法の使用を開始し、ストレージ コストを 20% 削減しました。また、ZipNN は、大きな共通モデル ファイルを約 3 分の 1 に小さくし、データのパックとアンパックを 1.5 倍高速に行うことができました。たとえば、Llama 3.1 モデルは、古い方法である zstd よりも 62% 高速に動作しました。毎日 100 万を超えるモデルを扱う大規模システムで ZipNN を使用すると、膨大な量のストレージとデータを節約でき、コストも節約できます。このスマートな梱包方法を使用すると、お金を節約するだけでなく、エネルギーの使用を最大 40% 削減でき、お金と地球に優しいことになります。プロンプト.ai のようなサイトでは、これらの変更により、スペースやコストを気にせずに、より大規模なジョブやより複雑な作業を処理できるようになります。

概要と要点

大規模な AI モデルの結果を損失なくパックする新しい方法が、AI によって作成されたビッグ データの処理の鍵となります。 AI 主導の新しい方法は、機能が向上するだけでなく、真実の情報を安全に保ちます。

主な利点とその効果は次のとおりです。

  • Better Algorithms: LMCompress shines by cutting down data size by 50% versus old kinds like JPEG-XL for photos, FLAC for sounds, and H.264 for videos. For words, it pushes down to nearly a third of what zpaq can do. Even more, LLM-based guess methods reach more than 20× lower data sizes, beating the 3× cut by old tools like Gzip.

"Our results demonstrate that the better a model understands the data, the more effectively it can compress it, suggesting a deep connection between understanding and compression." – Authors of LMCompress

"Our results demonstrate that the better a model understands the data, the more effectively it can compress it, suggesting a deep connection between understanding and compression." – Authors of LMCompress

  • 仕事の利益: IACC (Smart AI Context Compression) は明確な特典をもたらします。コンテキストに関連するコストが 50% 削減され、メモリ使用量が 5% 削減され、処理が 2.2 倍高速になります。これらの利益は、毎日多くのトークンを処理するシステムにとって非常に重要です。
  • 実生活での使用: データをパックする新しい方法は、実際の使用において明らかな利点を示しています。部屋のデータ使用量が削減され、データの移動速度が向上します。たとえば、これらを完全に使用すると、ネットワーク経由で送信される膨大な量のストレージとデータが節約されます。

これらの動きは、AI の機能を大規模化し、コストを削減するのに役立ちます。データを適切にパックすることで、企業はトークンの制限に達することなくより多くのデータを扱うことができ、データの検索が容易になり、より優れたものを活用できるようになります。可逆圧縮の仕組みにより、データが安全に保たれ、データの読み込みと移動がよりスムーズかつ高速になります。

AI が大きくなり、より複雑になるにつれて、これらの優れたデータ パッキング方法を使用することは必須であり、追いつくことが重要です。これらのトリックを使用する企業は、AI の作業をより適切に成長させ、必要なものへの支出を減らし、より速く、より確実な作業をユーザーに提供することができます。プロンプト.ai などのプラットフォームは、トークンをより適切に追跡し、スマートな圧縮により支出を削減するために、すでにこれらの方法を使用しています。

よくある質問

企業は AI タスクで可逆圧縮方式を最大限に活用して、成果を上げ、支出を削減するにはどうすればよいでしょうか?

企業は、データを小さくしながらも完全な品質を維持できる可逆圧縮方式を使用することで、AI タスクを強化できます。 ZipNN や LMCompress などのツールはこれに非常に適しており、ストレージに費やす費用が減り、データの移動が高速になるなどの特典が得られます。これらのソリューションは、すべての詳細を保持しながらビッグ データ セットを適切に管理するのに役立ちます。

まず、企業はこれらの圧縮方法を進行中のデータ設定や AI 設計に追加できます。これにより、保管スペースとプロセスで使用される電力が節約され、速度が向上し、コストが削減されます。これらの方法をクラウド コストの削減などの手順と組み合わせると、明らかな現金の節約がもたらされ、全体的な作業効率が向上します。

関連するブログ投稿

  • LLM 意思決定パイプライン: その仕組み
  • LLM によるコンテキスト関係の抽出
  • LLM 出力によるナレッジ グラフの自動化
  • LLM のテキスト データを前処理するためのベスト プラクティス
SaaSSaaS
引用

Streamline your workflow, achieve more

Richard Thomas