Paiement à l'Usage - AI Model Orchestration and Workflows Platform
BUILT FOR AI FIRST COMPANIES

Compression sans perte pour les algorithmes clés des sorties Llm

Chief Executive Officer

Prompts.ai Team
12 juillet 2025

Chaque jour, les LLM génèrent d’énormes quantités de données, il est donc essentiel de bien les stocker et les envoyer. La compression sans perte est le meilleur choix pour réduire la taille des fichiers sans perdre de données. Voici pourquoi c'est essentiel et comment cela fonctionne :

  • Why it’s key: LLM outputs can't be guessed and seem human, making old ways of compression weak. Lossless compression keeps all bits of data, keeping its meaning and how we can use it.
  • Principaux gains : réduit les coûts de stockage, réduit la consommation d'énergie jusqu'à 40 % et améliore le fonctionnement de l'IA.
  • Meilleures solutions : les nouvelles technologies telles que LMCompress et les méthodes de recherche du jeton suivant fonctionnent bien mieux que les anciens outils comme Gzip, atteignant des taux de compression jusqu'à 20 fois supérieurs.
  • Effets dans la vie réelle : des sites comme prompts.ai utilisent ces moyens pour économiser sur le stockage, réduire les coûts et répondre aux besoins de données croissantes.

La compression sans perte ne permet pas seulement de gagner de la place : c'est un moyen intelligent de traiter de plus en plus de données créées par l'IA.

Taille de 70 %, précision de 100 % : compression LLM sans perte pour l'inférence GPU via un flotteur de longueur dynamique

Comment fonctionne la compression sans perte

La compression sans perte est un moyen intéressant de bien stocker des textes créés par l'IA sans perdre de données. Il repère des modèles dans les données et les utilise pour réduire la taille des fichiers. Pour le texte créé par l’IA, cette méthode fonctionne un peu différemment des autres méthodes permettant de réduire la taille des fichiers. Voyons comment il conserve les données correctement et le fait bien.

Conserver les données entières et réversibles

L’avantage de la compression sans perte réside dans la manière dont elle peut réduire la taille des données tout en conservant toutes les informations. Il voit des choses répétées – comme des modèles – qui apparaissent souvent, puis les écrit de manière brève. Par exemple, si « le » apparaît souvent dans un texte, il peut être placé dans un petit code qui occupe moins d’espace. Quand on refait grand chose, le texte revient quand même.

Des méthodes telles que le codage de Huffman et le codage arithmétique permettent à cela de fonctionner. Le codage de Huffman donne des codes courts aux éléments qui apparaissent souvent, tandis que le codage arithmétique fait encore mieux en se rapprochant de la meilleure petite taille pour les données. Les nouvelles méthodes vont encore plus loin en apprenant et en changeant à mesure qu'elles voient comment les LLM génèrent des données, ce qui les rend plus efficaces dans leur compression.

Rendre les données moins aléatoires et les décomposer

Le caractère aléatoire, ou le caractère incertain des données, est très important dans la mesure dans laquelle vous pouvez les compresser. Moins de données aléatoires ont des modèles plus clairs, il est donc plus facile de les réduire. L'IA a tendance à créer des données faciles à deviner, ce qui contribue à les rendre bonnes pour la compression.

La façon dont nous décomposons le texte en morceaux - comme en lettres, groupes d'octets ou mots complets - affecte la taille du texte. Un codage qui dépend de la fréquence à laquelle les événements se produisent donne des codes courts aux bits courants et des codes plus longs aux bits rares. Étant donné que l’IA crée du texte en devinant bien ces bits, cela correspond parfaitement aux méthodes de compression des données. La prédiction basée sur les bits antérieurs améliore ces suppositions, améliorant ainsi la taille des données. La prédiction intelligente s'appuie sur cela, rendant la compression encore meilleure.

Bonne compression et estimation intelligente

Réduire la taille des données et les deviner correctement vont de pair : plus un modèle connaît les données intelligemment, mieux il peut les réduire. Un bon exemple est LMCompress, une méthode créée en mai 2025 par de grands cerveaux provenant d'endroits comme l'Institut d'intelligence artificielle de Chine centrale et l'Université de Waterloo. LMCompress a rendu les choses beaucoup plus petites, doublant la taille du texte, des images, des vidéos et des sons par rapport aux anciennes méthodes.

Par exemple, LMCompress a créé des textes représentant environ un tiers de ce que zpaq pouvait faire. Il a également fait en sorte que les bits d'image d'ImageNet soient de 43,4 % à leur première taille et les sons de LibriSpeech de seulement 16,4 %, ce qui fait mieux que d'autres méthodes comme PNG (58,5 %) et FLAC (30,3 %). Ce haut niveau de réduction des choses vient du codage arithmétique intelligent, qui utilise ce que les LLM apprennent pendant leur formation.

Ming Li, un acteur majeur de l'étude LMCompress, a expliqué comment l'apprentissage et la compression sont liés :

__XLATE_10__

"Dans cet article : nous avons prouvé que la compression implique le meilleur apprentissage/compréhension."

D'autres outils comme DeepSeekZip et LlamaZip fonctionnent également bien, dépassant zlib de plus de 10 % en termes de taux d'écrasement. Sur les grands sites comme prompts.ai, qui s'occupent de beaucoup de choses créées par LLM, ces nouveaux mouvements réduisent la quantité d'espace utilisé et accélèrent le déplacement des données. La principale chose à savoir ? Deviner les modèles et l'écrasement sans perte sont deux parties d'une seule chose, et leur utilisation change la façon dont nous conservons et utilisons les informations.

Ces grandes étapes permettent non seulement d'économiser de l'espace, mais se combinent également bien avec les configurations d'IA, rendant le travail fluide et moins coûteux.

Principaux moyens de réduire les résultats du LLM

Il est difficile de réduire les résultats des LLM (grands modèles de langage), mais les nouvelles méthodes technologiques aident beaucoup. Ces méthodes ne se contentent pas de réduire les choses à l'ancienne ; ils utilisent l'IA pour deviner les données, modifiant ainsi la façon dont nous conservons et contrôlons les données dans les configurations d'IA actuelles.

LMCompresser

LMCompress est une méthode de réduction sans perte de premier ordre conçue uniquement pour les éléments créés par l'IA. Il utilise une méthode en trois étapes : découpage, devinette et codage mathématique. Il réussit très bien à réduire la taille de différents types de données tels que les mots, les images, le son et la vidéo. En transformant ces types de données en bits que les LLM peuvent gérer, LMCompress permet d'économiser beaucoup plus d'espace. Sa construction est basée sur des idées telles que la devinette de Solomonoff, ce qui la rend plus efficace pour deviner et se déplacer.

For example, LMCompress got a shrink size of 6.32 on the CLIC2019 picture set, which was way better than JPEG-XL's 2.93. In making sound files smaller, it cut data size by 25%–94%, topping FLAC in stuff like LibriSpeech and LJSpeech. With words, LMCompress nearly made the shrink sizes three times better than older tools like zlib, bzip2, and brotli, giving a bump of 8.5% on MeDAL and 38.4% on Pile of Law compared to the raw Llama3-8B outputs. Even in making videos smaller, it showed more than 20% better results for still scenes and at least 50% better for moving scenes against old ways like FFV1, H.264, and H.265.

__XLATE_16__

"LMCompress inaugure une nouvelle ère de compression de données alimentée par une compréhension approfondie. Son architecture, inspirée par l'induction de Solomonoff, non seulement bat les références précédentes, mais redéfinit la compression en tant que processus intelligent ancré dans la prédiction et l'adaptation." -Aniruddha Shrikhande

LMCompress est d'une grande aide pour des sites comme prompts.ai, qui traitent de nombreux contenus créés par l'IA.

Compression de prédiction du jeton suivant

Une nouvelle méthode intéressante utilise la façon dont les modèles de langage devinent le mot ou le jeton suivant. Appelée compression de prédiction du prochain jeton, cette astuce utilise cette supposition pour bien placer les données dans un petit espace. Il utilise vraiment l'idée des données du grand modèle de langage (LLM) pour les emballer autant que la théorie de Shannon le dit.

L'efficacité de cela dépend en grande partie de la qualité du modèle de langage. Un modèle haut de gamme signifie que vous pouvez mieux regrouper les données. De plus, cette méthode s'intègre parfaitement aux systèmes LLM actuels, ce qui la rend facile à utiliser pour de meilleurs travaux de données textuelles dans les grandes entreprises.

Techniques de double compression

Pour des tailles encore meilleures, la double compression associe deux méthodes pour mieux conserver et envoyer les données. Cela commence par réduire la taille des modèles grâce à des éléments tels que la quantification, puis utilise une compression sans perte sur ce qui en sort.

Dans un cas, ils ont fait passer un outil texte de 109 millions de parties (438 Mo) à 52,8 millions de parties (211 Mo). Ensuite, en utilisant une quantification sur 4 bits, ils l'ont réduit à 62,7 Mo. L'étape suivante regroupe les sorties du modèle et d'autres données, créant ainsi un système qui regroupe les données mieux qu'une seule méthode.

Cette méthode en deux étapes est idéale pour les gros travaux, car elle économise de l'espace, envoie des données à moindre coût et coûte moins cher à exécuter. Mais pour que la double compression fonctionne correctement, il faut un travail minutieux, en particulier sur la façon dont la quantification modifie l'apparence des nombres de sorties du modèle. Lorsqu'elle est bien faite, cela permet de choisir entre économiser de l'espace, accélérer les processus ou utiliser moins de données en fonction des besoins de l'entreprise.

Comparer le fonctionnement des algorithmes

Lorsque vous choisissez la meilleure méthode de compression pour vos sorties LLM, réfléchissez à la façon dont chacune fonctionne en utilisation réelle. Chaque méthode a ses avantages et ses inconvénients, d’autant plus lorsqu’elle est utilisée dans des analyses de rentabilisation de grande envergure.

Comment nous mesurons les performances

Pour tester les méthodes de compression, nous examinons quelques points clés :

  • Taux de compression : cela montre à quel point la taille du modèle diminue. Un ratio élevé signifie d’importantes économies de stockage et de mémoire.
  • Temps d'inférence : cela permet de suivre la vitesse à laquelle le LLM transforme les données d'entrée en sortie, ce qui est essentiel pour une utilisation en temps réel.
  • Opérations à virgule flottante (FLOP) : cela compte le travail nécessaire pour chaque tâche. L'utilisation moyenne des FLOPS (MFU) indique dans quelle mesure les FLOP sont utilisés en fonction de ce que l'appareil peut faire.

Le type d’algorithme choisi peut réellement changer le fonctionnement des applications dans les grandes entreprises. Par exemple, des méthodes telles que LZ4 et Snappy sont axées sur la vitesse, ce qui les rend idéales pour les travaux sur place, même si elles réduisent la quantité de compression possible. D'un autre côté, pour conserver les données là où la vitesse n'est pas un gros problème, des choix comme Zstd ou GZIP avec les tables Dynamic Huffman offrent une meilleure compression. Le Dr Calliope-Louisa Sotiropoulou de CAST déclare :

__XLATE_27__

"La sélection du bon algorithme nécessite étude et expérience car elle doit être basée sur l'ensemble de données, le type de données, la taille moyenne et maximale du fichier et la configuration correcte de l'algorithme."

Cela permet de voir facilement comment les meilleurs algorithmes s'alignent.

Regardez les données

Ici, nous présentons les algorithmes clés et comment ils fonctionnent :

Ce regard sur les choses montre les compromis entre son fonctionnement, sa facilité d'ajout et son utilisation, aidant ainsi les entreprises à faire des choix intelligents.

LMCompress s'en sort bien si l'on considère à quel point il peut regrouper les données, obtenant un score de 6,32 sur CLIC2019 tandis que JPEG-XL n'obtient que 2,93. Il peut doubler, voire quadrupler, le travail des anciennes méthodes de regroupement de données pour toutes sortes de données, mais il doit fonctionner avec les LLM.

La compression de prédiction Next-Token est conçue pour les données des LLM, avec des taux de compression plus de 20 fois supérieurs à ceux de Gzip. Cela en fait un premier choix pour des endroits comme prompts.ai, où la réduction des coûts des jetons est très importante.

Zstandard trouve une voie médiane en étant 3 à 5 fois plus rapide que zlib tout en conservant un volume de données aussi serré. Il double presque la vitesse de déballage et n’est pas difficile à ajouter, ce qui en fait un bon choix pour les entreprises qui souhaitent une solution simple.

Choisir la bonne façon de regrouper les données peut vraiment changer le fonctionnement d’une entreprise. Par exemple, CAST affirme qu’un emballage intelligent lors du stockage peut réduire la consommation d’énergie jusqu’à 40 %. En outre, Google constate que l'emballage Brotli utilise jusqu'à 20 % de données en moins, ce qui permet d'économiser de l'énergie lors du déplacement des données. Cela montre le rôle important d’un emballage serré pour améliorer le fonctionnement du LLM.

Apporter la compression aux outils d'IA

L'intégration de la technologie de compression dans les outils d'IA est plus qu'une simple mise à niveau : elle améliore le flux de travail et réduit les coûts. En ajoutant de la compression à ces outils, vous pouvez les améliorer sans nuire à leur fonctionnement ou à leur utilisation.

Meilleures façons d'intégrer la compression dans les flux de travail

Le timing est très important lorsque vous ajoutez une compression sans perte aux tâches d'IA. Pour que les choses restent rapides et conservent les avantages du stockage, compressez les données lorsque rien d'autre ne se passe, et non lorsque le système est occupé à travailler sur des choses. Pour les tâches qui doivent être effectuées en même temps, compressez silencieusement les données enregistrées à l'arrière afin que personne ne soit retardé. Différents types de données peuvent nécessiter leurs propres méthodes : par exemple, le texte fonctionne bien avec la compression du mot suivant, mais d'autres types peuvent nécessiter leurs propres méthodes. Des outils comme ZipNN sont efficaces pour gérer les grandes sorties de modèles de texte en utilisant le codage entropique pour supprimer les extras.

Garder une trace des jetons et effacer les coûts

It's key to keep an eye on how many tokens are used. AI models can cost between $10 and $20 for every million tokens, so even a little more efficiency can mean big savings. To manage costs well, you need to know the difference between input tokens and made tokens as this clarity helps find where you’re saving with compression. For example, cutting the number of stored tokens by 22.42% can mean big savings each month. With systems processing billions of tokens every month, tools that guess how many tokens are used give a clear picture of use and cost impacts. Tools like prompts.ai, which you pay for as you use, get a lot from real-time token watching along with compression stats, giving a clear way to watch and make the most of these tweaks. These ways not only keep costs down but also help with bigger and better changes in operations.

Les entreprises gagnent en ajoutant la compression

Les avantages de l’ajout de compression ne se limitent pas à améliorer le fonctionnement des choses : ils touchent les résultats. Des outils tels que LMCompress et ZipNN montrent comment la compression intelligente peut améliorer le stockage et aider les entreprises à se développer. Moshik Hershcovitch, chercheur chez IBM, souligne la valeur de ces méthodes :

__XLATE_39__

"Notre méthode peut réduire les coûts de stockage et de transfert de l'IA sans pratiquement aucun inconvénient. Lorsque vous décompressez le fichier, il revient à son état d'origine. Vous ne perdez rien."

Voici un cas simple : en février 2025, Hugging Face a commencé à utiliser une nouvelle façon de regrouper les données à partir d'une méthode appelée ZipNN dans son système, et a réduit ses coûts de stockage de 20 %. ZipNN a également créé de gros fichiers de modèle commun environ un tiers plus petits et pouvait compresser et décompresser les données 1,5 fois plus rapidement. Par exemple, les modèles Llama 3.1 fonctionnaient 62 % plus rapidement qu'avec l'ancienne méthode, zstd. Lorsqu'il est utilisé sur de gros systèmes fonctionnant avec plus d'un million de modèles chaque jour, ZipNN pourrait économiser d'énormes quantités de stockage et de données, tout en réduisant également les coûts. En plus d'économiser de l'argent, l'utilisation de cette méthode d'emballage intelligente peut également signifier utiliser jusqu'à 40 % d'énergie en moins, ce qui contribue à préserver l'argent et la planète. Pour des sites comme prompts.ai, ces changements permettent de gérer des tâches plus importantes et des tâches plus complexes sans se soucier de l'espace ou du coût.

Résumé et points principaux

De nouvelles façons de regrouper sans perte de grands résultats de modèles d’IA sont essentielles à la gestion du Big Data généré par l’IA. Les nouvelles méthodes basées sur l’IA fonctionnent non seulement mieux, mais préservent également la sécurité des véritables informations.

Voici les principaux gains et leurs effets :

  • Better Algorithms: LMCompress shines by cutting down data size by 50% versus old kinds like JPEG-XL for photos, FLAC for sounds, and H.264 for videos. For words, it pushes down to nearly a third of what zpaq can do. Even more, LLM-based guess methods reach more than 20× lower data sizes, beating the 3× cut by old tools like Gzip.

"Our results demonstrate that the better a model understands the data, the more effectively it can compress it, suggesting a deep connection between understanding and compression." – Authors of LMCompress

"Our results demonstrate that the better a model understands the data, the more effectively it can compress it, suggesting a deep connection between understanding and compression." – Authors of LMCompress

  • Gains de travail : IACC (Smart AI Context Compression) apporte des avantages évidents. Il réduit de 50 % les coûts liés au contexte, réduit l'utilisation de la mémoire de 5 % et rend le traitement 2,2 fois plus rapide. Ces gains sont très importants pour les systèmes qui traitent de nombreux jetons chaque jour.
  • Utilisation dans la vie réelle : les nouvelles façons de regrouper les données montrent des avantages évidents dans les utilisations réelles. Ils réduisent la quantité de données de la salle et accélèrent la vitesse de déplacement des données. Par exemple, les utiliser pleinement pourrait permettre d’économiser d’énormes quantités de stockage et de données envoyées sur les réseaux.

Ces évolutions contribuent à rendre l’IA plus efficace et moins coûteuse. En regroupant bien les données, les entreprises peuvent traiter davantage de données sans atteindre les limites des jetons, faciliter la recherche de données et mieux utiliser ce dont elles disposent. La façon dont fonctionne la compression sans perte assure la sécurité des données et rend le chargement et le déplacement des données plus fluides et plus rapides.

À mesure que l'IA devient de plus en plus grande et de plus en plus mélangée, il est indispensable d'utiliser ces meilleures méthodes de regroupement des données - il est essentiel de suivre le rythme. Les entreprises qui utilisent ces astuces peuvent mieux développer leur travail d’IA, dépenser moins pour ce dont elles ont besoin et offrir aux utilisateurs un travail plus rapide et plus sûr. Des plates-formes comme prompts.ai utilisent déjà ces méthodes pour mieux suivre les jetons et dépenser moins grâce à une compression intelligente.

FAQ

Comment les entreprises peuvent-elles tirer le meilleur parti des méthodes de compression sans perte dans les tâches d’IA pour faire mieux et dépenser moins ?

Les entreprises peuvent intensifier leurs tâches d’IA en utilisant des méthodes de compression sans perte qui réduisent la taille des données tout en conservant leur pleine qualité. Des outils comme ZipNN et LMCompress sont très efficaces pour cela, offrant des avantages tels que moins d'argent dépensé en stockage et un déplacement plus rapide des données. Ces solutions aident à bien gérer les grands ensembles de données tout en conservant tous les détails.

Pour commencer, les entreprises peuvent ajouter ces méthodes de compression à leurs configurations de données en cours ou à leurs conceptions d’IA. Cela accélère et réduit les coûts en économisant de l'espace de stockage et de l'énergie utilisée dans les processus. Associées à des mesures telles que la réduction des coûts du cloud, ces méthodes peuvent générer des économies de trésorerie évidentes et améliorer le fonctionnement général des choses.

Articles de blog connexes

  • Pipelines de décision LLM : comment ils fonctionnent
  • Extraction de relations contextuelles avec les LLM
  • Automatisation des Knowledge Graphs avec les résultats LLM
  • Meilleures pratiques pour le prétraitement des données textuelles pour les LLM
SaaSSaaS
Citation

Streamline your workflow, achieve more

Richard Thomas