Pago por Uso - AI Model Orchestration and Workflows Platform
BUILT FOR AI FIRST COMPANIES

Compresión sin pérdidas para algoritmos clave de salidas Llm

Chief Executive Officer

Prompts.ai Team
12 de julio de 2025

Todos los días, los LLM generan grandes cantidades de datos, por lo que es clave almacenarlos y enviarlos bien. La compresión sin pérdidas es la mejor opción para reducir el tamaño de los archivos sin perder ningún dato. He aquí por qué es clave y cómo funciona:

  • Why it’s key: LLM outputs can't be guessed and seem human, making old ways of compression weak. Lossless compression keeps all bits of data, keeping its meaning and how we can use it.
  • Principales beneficios: reduce los costos de almacenamiento, reduce el uso de energía hasta en un 40% y hace que la IA funcione mejor.
  • Mejores formas: las nuevas tecnologías como LMCompress y los métodos de adivinación del siguiente token funcionan mucho mejor que las herramientas antiguas como Gzip, alcanzando tasas de compresión hasta 20 veces mejores.
  • Efectos en la vida real: sitios como Prompts.ai utilizan estas formas para ahorrar en almacenamiento, reducir costos y satisfacer las necesidades de datos en crecimiento.

La compresión sin pérdidas no sólo ahorra espacio: es una forma inteligente de manejar cada vez más datos creados por IA.

70 % de tamaño, 100 % de precisión: compresión LLM sin pérdidas para inferencia de GPU mediante flotación de longitud dinámica

Cómo funciona la compresión sin pérdidas

La compresión sin pérdidas es una forma genial de almacenar bien textos creados por IA sin perder ningún dato. Detecta patrones en los datos y los utiliza para reducir el tamaño de los archivos. Para el texto creado por IA, este método funciona un poco diferente de otras formas de reducir el tamaño de los archivos. Veamos cómo mantiene los datos correctos y lo hace bien.

Mantener los datos completos y reversibles

La gran parte de la compresión sin pérdidas es cómo puede reducir el tamaño de los datos pero conservar toda la información. Ve cosas repetidas, como patrones, que aparecen con frecuencia y luego las escribe de forma breve. Por ejemplo, si "el" aparece mucho en un texto, se puede colocar en un código pequeño que ocupe menos espacio. Cuando volvemos a hacerlo grande, el texto vuelve igual.

Maneras como la codificación Huffman y la codificación aritmética hacen que esto funcione. La codificación de Huffman proporciona códigos cortos para cosas que se muestran con frecuencia, mientras que la codificación aritmética funciona aún mejor al acercarse al mejor tamaño pequeño para los datos. Las nuevas formas van aún más lejos al aprender y cambiar a medida que ven cómo los LLM generan datos, haciéndolos mejores a la hora de comprimirlos.

Hacer que los datos sean menos aleatorios y desglosarlos

La aleatoriedad, o cuán inseguros pueden ser los datos, es muy importante en cuánto se pueden comprimir. Los datos menos aleatorios tienen patrones más claros, por lo que es más fácil hacerlos más pequeños. La IA tiende a generar datos que son fáciles de adivinar, lo que ayuda a que sean buenos para la compresión.

La forma en que dividimos el texto en bits (como letras, grupos de bytes o palabras completas) afecta qué tan pequeño podemos hacerlo. La codificación que depende de la frecuencia con la que suceden las cosas proporciona códigos cortos para bits comunes y códigos más largos para bits raros. Dado que la IA crea texto adivinando bien estos bits, encaja muy bien con las formas de comprimir datos. La predicción basada en bits anteriores mejora estas conjeturas, mejorando así el tamaño de los datos. La predicción inteligente se basa en esto, lo que mejora aún más la compresión.

Buena compresión y conjeturas inteligentes

Hacer que los datos sean pequeños y acertar van de la mano: cuanto más inteligente sea un modelo que conozca los datos, mejor podrá reducirlos. Un gran ejemplo es LMCompress, un método creado en mayo de 2025 por grandes cerebros de lugares como el Instituto de Inteligencia Artificial de China Central y la Universidad de Waterloo. LMCompress hizo las cosas mucho más pequeñas, duplicando lo pequeños que podemos hacer texto, imágenes, videos y sonidos en comparación con las formas antiguas.

Por ejemplo, LMCompress produjo textos aproximadamente un tercio de lo que podía hacer zpaq. También hizo que los bits de imágenes de ImageNet (43,4%) tuvieran su primer tamaño y los sonidos de LibriSpeech solo el 16,4%, lo que lo hace mejor que otras formas como PNG (58,5%) y FLAC (30,3%). Este alto nivel de hacer las cosas pequeñas proviene de la codificación aritmética inteligente, que utiliza lo que los LLM aprenden durante la capacitación.

Ming Li, una gran parte del estudio LMCompress, habló sobre cómo están conectados el aprendizaje y la compresión de cosas:

__XLATE_10__

"En este artículo: demostramos que la compresión implica el mejor aprendizaje/comprensión".

Otras herramientas como DeepSeekZip y LlamaZip también funcionan bien, superando a zlib con tasas de squish superiores en más de un 10%. En sitios grandes como Prompts.ai, que se encargan de una gran cantidad de material creado por LLM, estos nuevos movimientos reducen la cantidad de espacio que se utiliza y aceleran el movimiento de datos. ¿Lo principal que debes saber? Adivinar modelos y squish sin pérdidas son dos partes de una misma cosa, y usarlos ambos cambia la forma en que guardamos y usamos la información.

Estos grandes pasos no solo ahorran espacio, sino que también se combinan bien con las configuraciones de IA, lo que hace que el trabajo se realice sin problemas y cueste menos.

Formas clave de reducir los resultados de LLM

Reducir los resultados de los LLM (grandes modelos de lenguaje) es difícil, pero los nuevos métodos tecnológicos están ayudando mucho. Estas formas no sólo reducen las cosas a la antigua usanza; Usan IA para adivinar los datos, cambiando la forma en que guardamos y controlamos los datos en las configuraciones de IA actuales.

LMComprimir

LMCompress es un método de reducción sin pérdidas de primer nivel creado exclusivamente para elementos creados por IA. Utiliza una forma de tres pasos: dividir, adivinar y codificación matemática. Funciona muy bien al reducir el tamaño de diferentes tipos de datos, como palabras, imágenes, sonidos y videos. Al convertir este tipo de datos en bits que los LLM pueden manejar, LMCompress hace que las cosas ahorren mucho más espacio. Su construcción se basa en ideas como las adivinanzas de Solomonoff, lo que lo hace mejor para adivinar y cambiar.

For example, LMCompress got a shrink size of 6.32 on the CLIC2019 picture set, which was way better than JPEG-XL's 2.93. In making sound files smaller, it cut data size by 25%–94%, topping FLAC in stuff like LibriSpeech and LJSpeech. With words, LMCompress nearly made the shrink sizes three times better than older tools like zlib, bzip2, and brotli, giving a bump of 8.5% on MeDAL and 38.4% on Pile of Law compared to the raw Llama3-8B outputs. Even in making videos smaller, it showed more than 20% better results for still scenes and at least 50% better for moving scenes against old ways like FFV1, H.264, and H.265.

__XLATE_16__

"LMCompress marca el comienzo de una nueva era de compresión de datos impulsada por un conocimiento profundo. Su arquitectura, inspirada en la inducción de Solomonoff, no sólo supera los puntos de referencia anteriores sino que redefine la compresión como un proceso inteligente arraigado en la predicción y la adaptación". -Aniruddha Shrikhande

LMCompress es de gran ayuda para lugares como Prompts.ai, que manejan una gran cantidad de contenido creado por IA.

Compresión de predicción del siguiente token

Una forma nueva y genial utiliza cómo los modelos de lenguaje adivinan la siguiente palabra o ficha. Este truco, llamado compresión de predicción del siguiente token, utiliza esta suposición para colocar los datos en un espacio pequeño. Realmente utiliza la idea de datos del modelo de lenguaje grande (LLM) para empaquetarlos tanto como la teoría de Shannon dice que es posible.

Qué tan bien funcione esto depende en gran medida de qué tan bueno sea el modelo de lenguaje. Un modelo superior significa que puedes empaquetar mejor los datos. Además, esta forma encaja perfectamente con los sistemas LLM actuales, lo que facilita su uso para mejores trabajos de datos de texto en grandes empresas.

Técnicas de doble compresión

Para tamaños pequeños aún mejores, la doble compresión combina dos métodos para conservar y enviar mejor los datos. Esto comienza haciendo los modelos más pequeños a través de cosas como la cuantización, luego usa compresión sin pérdidas en lo que sale.

En un caso, hicieron que una herramienta de texto pasara de 109 millones de partes (438 MB) a 52,8 millones de partes (211 MB). Luego, utilizando una cuantificación de 4 bits, lo redujeron a 62,7 MB. El siguiente paso empaqueta los resultados del modelo y otros datos, lo que hace que un sistema que empaqueta datos sea mejor que un solo método.

Este método de dos pasos es excelente para usos laborales importantes, ya que ahorra espacio, envía datos más baratos y su ejecución cuesta menos. Pero hacer que la doble compresión funcione bien requiere un trabajo cuidadoso, especialmente en cómo la cuantificación cambia la apariencia de los números de salida del modelo. Cuando se hace bien, esto permite elegir entre ahorrar espacio, acelerar los procesos o utilizar menos datos en función de lo que necesita la empresa.

Comparando cómo funcionan los algoritmos

Al elegir el mejor método de compresión para los resultados de su LLM, piense en cómo funciona cada uno en el uso real. Cada método tiene sus ventajas y desventajas, más aún cuando se utiliza en casos de grandes empresas.

Cómo medimos el desempeño

Para probar los métodos de compresión, analizamos algunos puntos clave:

  • Relación de compresión: muestra cuánto cae el tamaño del modelo. Una proporción alta significa grandes ahorros en almacenamiento y memoria.
  • Tiempo de inferencia: rastrea la rapidez con la que el LLM convierte los datos de entrada en resultados, lo cual es clave para el uso en tiempo real.
  • Operaciones de punto flotante (FLOP): cuenta el trabajo necesario para cada trabajo. La utilización media de FLOPS (MFU) indica qué tan bien se utilizan los FLOP en función de lo que puede hacer el dispositivo.

El tipo de algoritmo elegido realmente puede cambiar el funcionamiento de las aplicaciones en las grandes empresas. Por ejemplo, métodos como LZ4 y Snappy tienen que ver con la velocidad, lo que los hace ideales para trabajos en el acto, incluso si reducen la cantidad que se puede comprimir. Por otro lado, para conservar datos donde la velocidad no es un gran problema, opciones como Zstd o GZIP con tablas dinámicas de Huffman ofrecen una mejor compresión. La Dra. Calliope-Louisa Sotiropoulou de CAST dice:

__XLATE_27__

"Seleccionar el algoritmo correcto requiere estudio y experiencia porque debe basarse en el conjunto de datos, el tipo de datos, el tamaño de archivo promedio y máximo y la configuración correcta del algoritmo".

Esto facilita ver cómo se alinean los mejores algoritmos.

Mirar datos

A continuación, presentamos los algoritmos clave y cómo funcionan:

Esta mirada a las cosas muestra las compensaciones entre qué tan bien funciona, qué tan fácil es agregar y para qué se utiliza, ayudando a las empresas a tomar decisiones inteligentes.

A LMCompress le va bien cuando se observa lo ajustado que puede empaquetar datos, obteniendo una puntuación de 6,32 en CLIC2019, mientras que JPEG-XL obtiene solo 2,93. Puede duplicar o incluso cuadruplicar el trabajo de las antiguas formas de empaquetar datos para todo tipo de datos, pero necesita funcionar con LLM.

La compresión de predicción de Next-Token está hecha para datos de LLM, con tasas de empaquetado más de 20 veces mejores que las 3 veces de Gzip. Esto lo convierte en la mejor opción para lugares como Prompts.ai, donde reducir los costos de los tokens es muy importante.

Zstandard encuentra un camino intermedio al ser de 3 a 5 veces más rápido que zlib y aun así empaquetar datos igual de ajustados. Casi duplica la velocidad de desempaquetado y no es difícil de agregar, lo que lo convierte en una buena opción para las empresas que desean una solución fácil.

Elegir la forma correcta de empaquetar los datos realmente puede cambiar el desempeño de una empresa. Por ejemplo, CAST dice que el embalaje inteligente en el almacenamiento puede reducir el uso de energía hasta en un 40%. Además, Google descubre que el embalaje Brotli utiliza hasta un 20 % menos de datos, lo que ahorra energía al mover datos. Esto muestra el importante papel que desempeña el embalaje ajustado para que el LLM funcione mejor.

Llevando la compresión a las herramientas de IA

Incorporar tecnología de compresión a las herramientas de IA es más que una simple actualización: mejora el flujo de trabajo y reduce los costos. Al agregar compresión a estas herramientas, puede hacer que funcionen mejor sin afectar su funcionamiento o uso.

Las mejores formas de combinar la compresión en los flujos de trabajo

El tiempo es muy importante cuando se agrega compresión sin pérdidas a los trabajos de IA. Para mantener las cosas rápidas y conservar las ventajas del almacenamiento, comprima los datos cuando no esté sucediendo nada más, no cuando el sistema esté ocupado resolviendo cosas. Para el trabajo que debe realizarse al mismo tiempo, comprima los datos guardados silenciosamente en la parte posterior para que nadie se retrase. Es posible que diferentes tipos de datos necesiten sus propios métodos; por ejemplo, el texto funciona bien con la compresión de la siguiente palabra, pero otros tipos pueden necesitar sus propios métodos. Herramientas como ZipNN son buenas para manejar resultados de modelos de texto grandes mediante el uso de codificación de entropía para eliminar extras.

Seguimiento de tokens y costos claros

It's key to keep an eye on how many tokens are used. AI models can cost between $10 and $20 for every million tokens, so even a little more efficiency can mean big savings. To manage costs well, you need to know the difference between input tokens and made tokens as this clarity helps find where you’re saving with compression. For example, cutting the number of stored tokens by 22.42% can mean big savings each month. With systems processing billions of tokens every month, tools that guess how many tokens are used give a clear picture of use and cost impacts. Tools like prompts.ai, which you pay for as you use, get a lot from real-time token watching along with compression stats, giving a clear way to watch and make the most of these tweaks. These ways not only keep costs down but also help with bigger and better changes in operations.

Beneficios comerciales al agregar compresión

Las ventajas de agregar compresión van más allá de simplemente hacer que las cosas funcionen mejor: llegan al resultado final. Herramientas como LMCompress y ZipNN muestran cómo la compresión inteligente puede mejorar el almacenamiento y ayudar a las empresas a crecer. Moshik Hershcovitch, investigador de IBM, señala el valor de estos métodos:

__XLATE_39__

"Nuestro método puede reducir los costos de almacenamiento y transferencia de IA prácticamente sin inconvenientes. Cuando descomprimes el archivo, vuelve a su estado original. No pierdes nada".

Aquí hay un caso simple: en febrero de 2025, Hugging Face comenzó a utilizar una nueva forma de empaquetar datos de un método llamado ZipNN en su sistema y redujo sus costos de almacenamiento en un 20 %. ZipNN también hizo que los grandes archivos de modelos comunes fueran un tercio más pequeños y podía empaquetar y descomprimir datos 1,5 veces más rápido. Por ejemplo, los modelos Llama 3.1 funcionaron un 62% más rápido que con el método anterior, zstd. Cuando se utiliza en grandes sistemas que trabajan con más de un millón de modelos cada día, ZipNN podría ahorrar enormes cantidades de almacenamiento y datos, además de ahorrar costos. No sólo ahorrar dinero, utilizar esta forma de embalaje inteligente también puede significar utilizar hasta un 40% menos de energía, ayudando con el dinero y con el planeta. Para sitios como Prompts.ai, estos cambios permiten manejar trabajos más grandes y cosas más complejas sin preocuparse por el espacio o el costo.

Resumen y puntos principales

Las nuevas formas de empaquetar resultados de grandes modelos de IA sin pérdidas son clave en el manejo de big data generados por la IA. Los nuevos métodos basados ​​en IA no solo funcionan mejor sino que también mantienen segura la información verdadera.

A continuación se detallan las principales ganancias y sus efectos:

  • Better Algorithms: LMCompress shines by cutting down data size by 50% versus old kinds like JPEG-XL for photos, FLAC for sounds, and H.264 for videos. For words, it pushes down to nearly a third of what zpaq can do. Even more, LLM-based guess methods reach more than 20× lower data sizes, beating the 3× cut by old tools like Gzip.

"Our results demonstrate that the better a model understands the data, the more effectively it can compress it, suggesting a deep connection between understanding and compression." – Authors of LMCompress

"Our results demonstrate that the better a model understands the data, the more effectively it can compress it, suggesting a deep connection between understanding and compression." – Authors of LMCompress

  • Beneficios laborales: IACC (Compresión de contexto de IA inteligente) brinda ventajas claras. Reduce los costos relacionados con el contexto en un 50%, reduce el uso de memoria en un 5% y hace que el procesamiento sea 2,2 veces más rápido. Estas ganancias son muy importantes para los sistemas que manejan muchos tokens cada día.
  • Uso en la vida real: las nuevas formas de empaquetar datos muestran claras ganancias en usos reales. Reducen la cantidad de datos de la sala y aumentan la velocidad de movimiento de los datos. Por ejemplo, utilizarlos por completo podría ahorrar enormes cantidades de almacenamiento y datos enviados a través de redes.

Estos movimientos ayudan a que la IA funcione más y cueste menos. Al empaquetar bien los datos, las empresas pueden manejar más datos y no alcanzar los límites simbólicos, facilitar la búsqueda de datos y utilizar mejor los que tienen. La forma en que funciona la compresión sin pérdidas mantiene los datos seguros y hace que la carga y el movimiento de datos sean más fluidos y rápidos.

A medida que la IA se hace más grande y más confusa, es imprescindible utilizar estas principales formas de empaquetar datos: es clave mantenerse al día. Las empresas que utilizan estos trucos pueden hacer crecer mejor su trabajo de IA, gastar menos en lo que necesitan y ofrecer a los usuarios un trabajo más rápido y seguro. Plataformas como Prompts.ai ya están utilizando estas formas de rastrear mejor los tokens y gastar menos con la compresión inteligente.

Preguntas frecuentes

¿Cómo pueden las empresas aprovechar al máximo los métodos de compresión sin pérdidas en las tareas de IA para hacerlo mejor y gastar menos?

Las empresas pueden intensificar sus tareas de IA utilizando métodos de compresión sin pérdidas que reducen el tamaño de los datos pero mantienen su calidad total. Herramientas como ZipNN y LMCompress son bastante buenas para esto, ya que brindan ventajas como menos dinero gastado en almacenamiento y un movimiento de datos más rápido. Estas soluciones ayudan a gestionar bien conjuntos de grandes datos manteniendo todos los detalles.

Para empezar, las empresas pueden agregar estas formas de compresión a sus configuraciones de datos en curso o diseños de IA. Esto aumenta la velocidad y reduce los costos al ahorrar espacio de almacenamiento y energía utilizada en los procesos. Cuando se combinan con medidas como reducir los costos de la nube, estos métodos pueden generar claros ahorros de efectivo y mejorar el funcionamiento general de las cosas.

Publicaciones de blog relacionadas

  • Canales de decisión de LLM: cómo funcionan
  • Extracción de relaciones contextuales con LLM
  • Automatización de gráficos de conocimiento con resultados de LLM
  • Mejores prácticas para el preprocesamiento de datos de texto para LLM
SaaSSaaS
Cita

Streamline your workflow, achieve more

Richard Thomas