Compression sans perte pour les sorties LLM : algorithmes clés

Chaque jour, les LLM génèrent d'énormes volumes de données, il est donc essentiel de les stocker et de les envoyer correctement. La compression sans perte est la meilleure solution pour réduire la taille des fichiers sans perdre de données. Voici pourquoi c'est essentiel et comment cela fonctionne :

Pourquoi c'est essentiel: Les sorties LLM ne peuvent pas être devinées et semblent humaines, ce qui affaiblit les anciennes méthodes de compression. La compression sans perte conserve tous les bits de données, leur signification et la manière dont nous pouvons les utiliser.
Principaux gains: Réduit les coûts de stockage, réduit la consommation d'énergie jusqu'à 40 % et améliore le fonctionnement de l'IA.
Les meilleurs moyens: De nouvelles technologies comme Compresse LM et les méthodes de supposition du jeton suivant fonctionnent bien mieux que les anciens outils tels que Gzip, atteignant des taux de compression jusqu'à 20 fois supérieurs.
Effets dans la vie réelle: Des sites tels que prompts.ai utilisez ces méthodes pour économiser sur le stockage, réduire les coûts et répondre aux besoins liés à l'augmentation du volume de données.

La compression sans perte ne permet pas seulement de gagner de la place, c'est un moyen intelligent de traiter de plus en plus de données créées par l'IA.

70 % de taille, 100 % de précision : compression LLM sans perte pour l'inférence GPU via Dynamic-Length Float

Comment fonctionne la compression sans perte

La compression sans perte est un moyen intéressant de stocker correctement les textes créés par l'IA sans perdre de données. Il repère des modèles dans les données et les utilise pour réduire la taille des fichiers. Pour le texte créé par IA, cette méthode fonctionne un peu différemment des autres méthodes de réduction de la taille des fichiers. Voyons comment il gère correctement les données et le fait bien.

Conserver l'intégralité et la réversibilité des données

L'avantage de la compression sans perte réside dans le fait qu'elle permet de réduire la taille des données tout en conservant toutes les informations. Il voit des choses qui se répètent, comme des motifs, qui apparaissent souvent, puis les écrit rapidement. Par exemple, si « le » se trouve beaucoup dans un texte, il peut être placé dans un petit code qui occupe moins d'espace. Lorsque nous l'agrandissons à nouveau, le texte revient tout de même.

Des méthodes telles que le codage Huffman et le codage arithmétique font que cela fonctionne. Le codage Huffman donne des codes courts à des éléments qui apparaissent souvent, tandis que le codage arithmétique fait encore mieux en se rapprochant de la meilleure petite taille pour les données. Les nouvelles méthodes vont encore plus loin en apprenant et en changeant au fur et à mesure qu'ils découvrent comment les LLM génèrent les données, ce qui leur permet de mieux les compresser.

Rendre les données moins aléatoires et les décomposer

Le caractère aléatoire, ou le degré d'incertitude des données, est très important pour ce qui est de la quantité que vous pouvez compresser. Les données moins aléatoires présentent des modèles plus clairs, il est donc plus facile de les réduire. L'IA a tendance à créer des données faciles à deviner, ce qui contribue à les rendre faciles à compresser.

La façon dont nous décomposons le texte en bits, par exemple en lettres, en groupes d'octets ou en mots complets, influe sur sa taille. Un codage qui dépend de la fréquence à laquelle les choses se produisent donne des codes courts aux bits courants et des codes plus longs aux bits rares. Étant donné que l'IA crée du texte en devinant bien ces bits, elle convient parfaitement aux méthodes de compression des données. La prédiction basée sur les bits précédents permet d'améliorer ces suppositions, améliorant ainsi la taille des données. La prédiction intelligente s'appuie sur cela pour améliorer encore la compression.

Bonne compression et devinettes intelligentes

Réduire la taille des données et les deviner correctement vont de pair : plus un modèle connaît les données de manière intelligente, mieux il peut les réduire. LMCompress en est un bon exemple, une méthode créée en mai 2025 par de grands cerveaux de sites tels que l'Institut d'intelligence artificielle de Chine centrale et le Université de Waterloo. LMCompress a rendu les choses beaucoup plus petites, doublant la taille du texte, des images, des vidéos et des sons par rapport aux anciennes méthodes.

Par exemple, LMCompress a créé des textes environ un tiers de ce que zpaq pouvait faire. Il a également fait en sorte que les extraits d'images d'ImageNet soient de 43,4 % de leur taille initiale et que les sons issus de LibriSpeech ne soient que de 16,4 %, soit de meilleurs résultats que d'autres méthodes telles que PNG (58,5 %) et FLAC (30,3 %). Ce niveau élevé de minimisation provient d'un codage arithmétique intelligent, qui utilise ce que les LLM apprennent pendant leur formation.

Ming Li, qui joue un rôle important dans l'étude LMCompress, a expliqué comment l'apprentissage et la compression d'objets sont liés :

« Dans cet article, nous avons prouvé que la compression implique le meilleur apprentissage et la meilleure compréhension. »

D'autres outils comme DeepSeekZip et Lamazip font également du bien, dépassant zlib de plus de 10 % de meilleurs taux d'écrasement. Sur les grands sites tels que prompts.ai, qui gère de nombreux éléments créés par LLM, ces nouvelles mesures réduisent l'espace utilisé et accélèrent le transfert de données. La principale chose à savoir ? Les modèles de devinette et le squish sans perte font partie d'une même chose, et leur utilisation modifie la façon dont nous conservons et utilisons les informations.

Ces étapes importantes permettent non seulement de gagner de la place, mais se marient également bien avec les configurations d'IA, ce qui facilite le travail et réduit les coûts.

Principaux moyens de réduire les sorties LLM

Il est difficile de réduire les sorties LLM (big language models), mais les nouvelles méthodes technologiques y contribuent beaucoup. Ces méthodes ne se contentent pas de réduire les choses à l'ancienne ; elles utilisent l'IA pour deviner les données, modifiant ainsi la façon dont nous conservons et contrôlons les données dans les configurations d'IA actuelles.

Compresse LM

LMCompress

LMCompress est une méthode de réduction sans perte de premier ordre conçue uniquement pour les applications créées par l'IA. Il utilise une méthode en trois étapes : hacher, devine, et codage mathématique. Il permet très bien de réduire la taille de différents types de données tels que les mots, les images, le son et la vidéo. En transformant ces types de données en bits que les LLM peuvent gérer, LMCompress permet d'économiser beaucoup d'espace. Sa construction est basée sur des idées telles que les devinettes de Solomonoff, ce qui le rend plus apte à deviner et à changer.

Par exemple, LMCompress a obtenu une taille de rétrécissement de 6,32 sur le set d'images CLIC2019, qui était bien meilleur que celui du JPEG-XL 2,93. En réduisant la taille des fichiers audio, il a réduit la taille des données de 25 % et 94 %, en tête de FLAC dans des domaines tels que LibriSpeech et LJSpeech. Avec Words, LMCompress a presque rendu les tailles de rétrécissement trois fois meilleures que les anciens outils tels que zlib, bzip2 et brotli, soit une augmentation de 8,5 % sur MedAld et 38,4 % sur Pile of Law par rapport aux sorties brutes du Llama3-8B. Même en réduisant la taille des vidéos, il montrait plus de 20 % mieux résultats pour les scènes fixes et au moins 50 % mieux pour des scènes animées par rapport à d'anciennes méthodes telles que FFV1, H.264 et H.265.

« LMCompress inaugure une nouvelle ère de compression de données grâce à une compréhension approfondie. Son architecture, inspirée de l'induction de Solomonoff, dépasse non seulement les normes précédentes, mais redéfinit la compression comme un processus intelligent ancré dans la prédiction et l'adaptation. » - Aniruddha Shrikhande

LMCompress est d'une grande aide pour des sites tels que prompts.ai, qui traitent de nombreux contenus créés par l'IA.

Compression de prédiction du prochain jeton

Une nouvelle méthode intéressante utilise la façon dont les modèles linguistiques devinent le mot ou le jeton suivant. Appelé compression de prédiction du prochain jeton, cette astuce utilise cette supposition pour placer les données dans un petit puits d'espace. Il utilise réellement l'idée du Big Language Model (LLM) des données pour les regrouper autant que possible selon la théorie de Shannon.

L'efficacité de cela dépend en grande partie de la qualité du modèle linguistique. Un modèle haut de gamme vous permet de mieux regrouper les données. De plus, cette méthode s'intègre parfaitement aux systèmes LLM actuels, ce qui la rend facile à utiliser pour de meilleurs travaux de données textuelles dans les grandes entreprises.

Techniques de double compression

Pour des petits formats encore meilleurs, double compression associe deux méthodes pour mieux conserver et envoyer les données. Cela commence par réduire la taille des modèles grâce à des éléments tels que la quantification, puis utilise une compression sans perte sur les résultats.

Dans un cas, ils ont créé un outil de texte à partir de 109 millions de pièces (438 Mo) pour 52,8 millions de pièces (211 Mo). Ensuite, en utilisant une quantification sur 4 bits, ils l'ont réduit à 62,7 MO. L'étape suivante regroupe les sorties du modèle et d'autres données, ce qui permet de créer un système qui regroupe les données mieux qu'une seule méthode.

Cette méthode en deux étapes est idéale pour les gros travaux, car elle permet d'économiser de l'espace, d'envoyer des données à moindre coût et de réduire les coûts d'exécution. Mais pour que la double compression fonctionne correctement, il faut un travail minutieux, en particulier en ce qui concerne la façon dont la quantification modifie l'apparence des chiffres des sorties des modèles. Lorsque c'est bien fait, cela permet de choisir entre économiser de l'espace, accélérer les processus ou utiliser moins de données en fonction des besoins de l'entreprise.

sbb-itb-f3c4398

Comparaison du fonctionnement des algorithmes

Lorsque vous choisissez la meilleure méthode de compression pour vos sorties LLM, réfléchissez à la façon dont chacune fonctionne en utilisation réelle. Chaque méthode a ses avantages et ses inconvénients, d'autant plus lorsqu'elle est utilisée dans des affaires de grande envergure.

Comment nous mesurons les performances

Pour tester les méthodes de compression, nous examinons quelques points clés :

Taux de compression: Cela montre à quel point la taille du modèle diminue. Un ratio élevé permet de réaliser d'importantes économies de stockage et de mémoire.
Temps d'inférence: Cela permet de suivre la rapidité avec laquelle le LLM transforme les données d'entrée en données de sortie, ce qui est essentiel pour une utilisation en temps réel.
Opérations en virgule flottante (FLOP): Cela compte le travail nécessaire pour chaque tâche. Le Utilisation moyenne du FLOPS (MFU) indique dans quelle mesure les FLOP sont utilisés en fonction de ce que l'appareil peut faire.

Le type d'algorithme choisi peut réellement modifier le fonctionnement des applications dans les grandes entreprises. Par exemple, des méthodes telles que LZ4 et Snappy sont toutes axées sur la rapidité, ce qui les rend idéales pour les tâches sur place, même si elles réduisent la quantité que vous pouvez compresser. D'un autre côté, pour conserver les données lorsque la vitesse n'est pas un problème, des options telles que Zstd ou GZIP avec des tables de Huffman dynamiques offrent une meilleure compression. Le Dr Calliope-Louisa Sotiropoulou du CAST dit :

« La sélection du bon algorithme nécessite des études et de l'expérience, car il doit être basé sur l'ensemble de données, le type de données, la taille moyenne et maximale des fichiers et la configuration correcte de l'algorithme. »

Cela permet de voir facilement comment les meilleurs algorithmes s'alignent.

Regardez les données

Nous présentons ici les principaux algorithmes et leur fonctionnement :

Méthode Niveau de compression Sauvegarde rapide à ouvrir Grandissez bien Œuvre à ajouter Idéal pour Compresse LM Très élevé (bien mieux que d'habitude) Une technologie intelligente et efficace aide Élevé, il s'améliore dans les champs définis Difficile, nécessite une technologie intelligente Utilisation de nombreux types de données Jeton suivant : Guess Squeeze Très élevé (plus de 20 fois en texte intelligent) Des aides à la supposition efficaces et intelligentes Évolue avec d'autres technologies intelligentes Difficile, nécessite une technologie intelligente Améliorer le fonctionnement du texte intelligent Norme Z (Zstd) Bon (comme les autres types de base) Très rapide (2 fois plus rapide que les autres) Élevé, vous pouvez choisir entre 22 méthodes Facile à utiliser, conçu pour tous Tâches de bureau habituelles

Ce regard sur les choses montre les compromis entre son efficacité, sa facilité d'ajout et son utilisation, afin d'aider les entreprises à faire des choix intelligents.

LMCompress s'en sort bien si l'on considère à quel point il peut compresser les données, obtenant un score de 6,32 sur CLIC2019 alors que JPEG-XL n'obtient que 2,93. Il peut doubler, voire quadrupler, le travail des anciennes méthodes de conditionnement des données pour toutes sortes de données, mais il doit fonctionner avec les LLM.

La compression de prédiction Next-Token est conçue pour les données des LLM, avec des taux d'emballage plus de 20 fois supérieurs à ceux de Gzip 3 fois. Cela en fait un excellent choix pour des sites tels que prompts.ai, où la réduction des coûts des jetons est très importante.

Zstandard trouve un juste milieu en étant 3 à 5 fois plus rapide que zlib tout en contenant des données aussi serrées. Il double presque la vitesse de déballage et n'est pas difficile à ajouter, ce qui en fait un bon choix pour les entreprises qui souhaitent une solution facile.

Choisir la bonne façon de regrouper les données peut réellement changer la façon dont une entreprise fonctionne. Par exemple, CAST affirme que le stockage intelligent peut réduire la consommation d'énergie jusqu'à 40 %. Google constate également que l'emballage Brotli utilise 20 % de données en moins, ce qui permet d'économiser de l'énergie lors du transfert de données. Cela montre le rôle important de l'emballage étanche dans l'amélioration du fonctionnement du LLM.

Intégrer la compression aux outils d'IA

Intégrer la technologie de compression aux outils d'IA représente bien plus qu'une simple mise à niveau : cela permet d'améliorer le flux de travail et de réduire les coûts. En ajoutant de la compression à ces outils, vous pouvez améliorer leur fonctionnement sans nuire à leur fonctionnement ou à leur utilisation.

Les meilleurs moyens d'intégrer la compression aux flux de travail

Le timing est très important lorsque vous ajoutez une compression sans perte aux tâches d'IA. Pour accélérer les choses et conserver les avantages du stockage, compressez les données lorsque rien d'autre ne se passe, et non lorsque le système est occupé à régler les problèmes. Pour les tâches qui doivent être effectuées en même temps, compressez silencieusement les données enregistrées à l'arrière afin que personne ne soit bloqué. Différents types de données peuvent avoir besoin de leurs propres méthodes. Par exemple, le texte fonctionne bien avec la compression par estimation du mot suivant, mais d'autres types peuvent avoir besoin de leurs propres méthodes. Des outils tels que ZipNN sont efficaces pour gérer les sorties de modèles de texte volumineux en utilisant le codage entropique pour supprimer les extras.

Suivi des jetons et des coûts clairs

Il est essentiel de garder un œil sur le nombre de jetons utilisés. Les modèles d'IA peuvent coûter entre 10 et 20 dollars pour chaque million de jetons, donc même un peu plus d'efficacité peut permettre de réaliser de grosses économies. Pour bien gérer les coûts, vous devez connaître la différence entre les jetons d'entrée et les jetons créés, car cette clarté vous permet de déterminer où vous réalisez des économies grâce à la compression. Par exemple, réduire le nombre de jetons stockés de 22,42 % peut permettre de réaliser de grosses économies chaque mois. Les systèmes traitant des milliards de jetons chaque mois, les outils qui permettent de deviner le nombre de jetons utilisés donnent une image claire de l'utilisation et de l'impact sur les coûts. Des outils tels que prompts.ai, que vous payez au fur et à mesure de votre utilisation, tirent parti de l'observation des jetons en temps réel et des statistiques de compression, ce qui vous permet de suivre et de tirer le meilleur parti de ces modifications. Ces moyens permettent non seulement de réduire les coûts, mais aussi de contribuer à des changements plus importants et plus efficaces dans les opérations.

Les bénéfices commerciaux liés à l'ajout de la compression

Les avantages de l'ajout de la compression vont au-delà du simple fait d'améliorer le fonctionnement des choses : ils ont une incidence sur le résultat net. Des outils tels que LMCompress et ZipNN montrent comment la compression intelligente peut améliorer le stockage et aider les entreprises à se développer. IBM le chercheur Moshik Hershcovitch souligne la valeur de ces méthodes :

« Notre méthode peut réduire les coûts de stockage et de transfert de l'IA sans pratiquement aucun inconvénient. Lorsque vous décompressez le fichier, il revient à son état d'origine. Tu ne perds rien. »

Voici un cas simple : en février 2025, Visage étreignant ont commencé à utiliser une nouvelle méthode pour regrouper les données à partir d'une méthode appelée ZipNN dans leur système, et ils ont réduit leurs coûts de stockage de 20 %. ZipNN a également réduit les gros fichiers de modèles courants d'environ un tiers et a pu emballer et décompresser les données 1,5 fois plus rapidement. Par exemple, les modèles Llama 3.1 fonctionnaient 62 % plus vite qu'avec l'ancienne méthode, zstd. Lorsqu'il est utilisé sur de grands systèmes fonctionnant avec plus d'un million de modèles par jour, ZipNN peut économiser d'énormes quantités de stockage et de données, tout en réduisant les coûts. En plus d'économiser de l'argent, cette méthode d'emballage intelligente peut également permettre de consommer jusqu'à 40 % d'énergie en moins, tout en préservant l'argent et la planète. Pour des sites tels que prompts.ai, ces modifications permettent de gérer des tâches plus importantes et des tâches plus complexes sans se soucier de l'espace ou des coûts.

Résumé et points principaux

De nouvelles méthodes permettant de regrouper les résultats de grands modèles d'IA sans perte sont essentielles à la gestion des mégadonnées produites par l'IA. Les nouvelles méthodes basées sur l'IA fonctionnent non seulement mieux, mais protègent également les véritables informations.

Voici les principaux gains et leurs effets :

De meilleurs algorithmes: LMCompress se distingue en réduisant la taille des données de 50 % par rapport aux anciens modèles tels que JPEG-XL pour les photos, FLAC pour les sons et H.264 pour les vidéos. En d'autres termes, cela représente près du tiers de ce que zpaq peut faire. De plus, les méthodes de supposition basées sur LLM permettent d'atteindre des tailles de données plus de 20 fois inférieures, dépassant ainsi la taille 3 fois supérieure à celle des anciens outils tels que Gzip.

« Nos résultats démontrent que mieux un modèle comprend les données, plus il peut les compresser efficacement, ce qui suggère un lien profond entre la compréhension et la compression. » — Auteurs de LMCompress

Gains de travail: L'IACC (Smart AI Context Compression) apporte des avantages évidents. Il réduit les coûts liés au contexte de 50 %, réduit l'utilisation de la mémoire de 5 % et accélère le traitement 2,2 fois. Ces gains sont très importants pour les systèmes qui traitent de nombreux jetons chaque jour.
Utilisation dans la vie réelle: Les nouvelles méthodes de conditionnement des données permettent de gagner clairement en termes d'utilisations réelles. Ils réduisent la quantité de données utilisées et augmentent la rapidité avec laquelle les données circulent. Par exemple, leur utilisation complète pourrait permettre d'économiser d'énormes quantités de stockage et de données envoyées sur les réseaux.

Ces mesures contribuent à rendre l'IA plus efficace et à moindre coût. En regroupant correctement les données, les entreprises peuvent traiter davantage de données sans atteindre des limites symboliques, faciliter la recherche de données et utiliser ce qu'elles ont de mieux. Le mode de fonctionnement de la compression sans perte protège les données et permet de les charger et de les déplacer plus facilement et plus rapidement.

À mesure que l'IA prend de l'ampleur et se mélange de plus en plus, il est indispensable d'utiliser ces méthodes de regroupement de données de pointe. Il est essentiel de suivre le rythme. Les entreprises qui utilisent ces astuces peuvent améliorer leur travail en matière d'IA, dépenser moins pour ce dont elles ont besoin et offrir aux utilisateurs un travail plus rapide et plus sûr. Des plateformes comme prompts.ai utilisent déjà ces méthodes pour mieux suivre les jetons et dépenser moins grâce à la compression intelligente.

FAQs

Comment les entreprises peuvent-elles tirer le meilleur parti des méthodes de compression sans perte dans les tâches d'IA pour faire mieux et dépenser moins ?

Les entreprises peuvent intensifier leurs tâches d'IA en utilisant méthodes de compression sans perte qui réduisent la taille des données tout en préservant leur qualité optimale. Des outils tels que ZipNN et LMCompress sont très utiles pour cela, car ils offrent des avantages tels que moins d'argent dépensé en stockage et un transfert plus rapide des données. Ces solutions aident à bien gérer les grands ensembles de données tout en conservant tous les détails.

Pour commencer, les entreprises peuvent ajouter ces méthodes de compression à leurs configurations de données en cours ou à leurs conceptions d'IA. Cela permet d'accélérer et de réduire les coûts en économisant de l'espace de stockage et de l'énergie utilisée dans les processus. Associées à des mesures telles que la réduction des coûts liés au cloud, ces méthodes peuvent permettre de réaliser de nettes économies et d'améliorer le bon fonctionnement général des installations.

Articles de blog connexes

{» @context « : » https://schema.org","@type":"FAQPage","mainEntity":[{"@type":"Question","name":"How Les entreprises peuvent-elles tirer le meilleur parti des méthodes de compression sans perte dans les tâches d'IA pour faire mieux et dépenser moins ? » , « AcceptedAnswer » : {» @type « :"Answer », "text » : » Les entreprises peuvent accélérer leurs tâches d'IA en utilisant des méthodes de compression sans perte qui réduisent la taille des données tout en préservant leur qualité optimale. Des outils tels que ZipNN et LMCompress sont très utiles pour cela, car ils offrent des avantages tels que moins d'argent dépensé en stockage et un transfert plus rapide des données. Ces solutions aident à bien gérer les grands ensembles de données tout en conservant tous les détails. Pour commencer, les entreprises peuvent ajouter ces méthodes de compression à leurs configurations de données en cours ou à leurs conceptions d'IA. Cela permet d'accélérer et de réduire les coûts en économisant de l'espace de stockage et de l'énergie utilisée dans les processus. Associées à des mesures telles que la réduction des coûts liés au cloud, ces méthodes peuvent permettre de réaliser de nettes économies et d'améliorer le bon fonctionnement général des installations. «}}]}