Compressão sem perdas para algoritmos principais de saídas Llm

Todos os dias, os LLMs produzem enormes quantidades de dados, tornando-os essenciais para armazená-los e enviá-los bem. A compactação sem perdas é a melhor escolha para reduzir o tamanho dos arquivos sem perder nenhum dado. Veja por que é fundamental e como funciona:

Why it’s key: LLM outputs can't be guessed and seem human, making old ways of compression weak. Lossless compression keeps all bits of data, keeping its meaning and how we can use it.
Principais ganhos: Reduz custos de armazenamento, reduz o uso de energia em até 40% e faz com que a IA funcione melhor.
Melhores maneiras: Novas tecnologias como LMCompress e métodos de adivinhação do próximo token funcionam muito melhor do que ferramentas antigas como Gzip, alcançando taxas de compactação até 20 vezes melhores.
Efeitos na vida real: sites como o prompts.ai usam essas formas para economizar armazenamento, cortar custos e atender às necessidades de dados crescentes.

A compactação sem perdas não apenas economiza espaço – é uma maneira inteligente de lidar com cada vez mais dados produzidos por IA.

70% de tamanho, 100% de precisão: compactação LLM sem perdas para inferência de GPU via flutuação de comprimento dinâmico

Como funciona a compactação sem perdas

A compactação sem perdas é uma maneira interessante de armazenar bem textos feitos por IA sem perder nenhum dado. Ele identifica padrões nos dados e os utiliza para reduzir o tamanho dos arquivos. Para texto feito por IA, esse método funciona um pouco diferente de outras maneiras de diminuir arquivos. Vejamos como ele mantém os dados corretos e faz isso bem.

Mantendo os dados inteiros e reversíveis

A grande parte da compactação sem perdas é como ela pode diminuir os dados, mas manter todas as informações. Ele vê coisas repetidas - como padrões - que aparecem muito e depois as escreve de forma resumida. Por exemplo, se “o” estiver muito presente em um texto, ele poderá ser colocado em um código minúsculo que preencha menos espaço. Quando aumentamos novamente, o texto volta exatamente o mesmo.

Maneiras como a codificação Huffman e a codificação aritmética fazem isso funcionar. A codificação Huffman fornece códigos curtos para coisas que aparecem com frequência, enquanto a codificação aritmética se sai ainda melhor ao chegar perto do melhor tamanho pequeno para os dados. Novas formas vão ainda mais longe, aprendendo e mudando à medida que veem como os LLMs produzem dados, tornando-os melhores em compactá-los.

Tornando os dados menos aleatórios e dividindo-os

A aleatoriedade, ou o quão inseguros os dados podem ser, é muito importante na medida em que você pode compactá-los. Dados menos aleatórios têm padrões mais claros, por isso é mais fácil reduzi-los. A IA tende a produzir dados fáceis de adivinhar, o que ajuda a torná-los bons para compactação.

A forma como dividimos o texto em pedaços - como letras, grupos de bytes ou palavras completas - afeta o quão pequeno podemos torná-lo pequeno. A codificação que depende da frequência com que as coisas acontecem fornece códigos curtos para bits comuns e códigos mais longos para bits raros. Como a IA cria texto adivinhando bem esses bits, ela se adapta perfeitamente às formas de compactar dados. A previsão com base em bits anteriores melhora essas suposições, melhorando assim o tamanho dos dados. A previsão inteligente se baseia nisso, tornando a compactação ainda melhor.

Boa compressão e adivinhação inteligente

Reduzir os dados e adivinhá-los corretamente anda de mãos dadas: quanto mais inteligente um modelo conhece os dados, melhor ele pode reduzi-los. Um ótimo exemplo é o LMCompress, um método criado em maio de 2025 por grandes cérebros de lugares como o Instituto Central de Inteligência Artificial da China e a Universidade de Waterloo. O LMCompress tornou as coisas muito menores, dobrando o tamanho que podemos criar de textos, imagens, vídeos e sons em comparação com os métodos antigos.

Por exemplo, o LMCompress produziu textos cerca de um terço do que o zpaq poderia fazer. Ele também transformou os bits de imagem do ImageNet em 43,4% em seu primeiro tamanho e os sons do LibriSpeech em apenas 16,4% - com desempenho melhor do que outras formas, como PNG (58,5%) e FLAC (30,3%). Esse alto nível de tornar as coisas pequenas vem da codificação aritmética inteligente, que usa o que os LLMs aprendem durante o treinamento.

Ming Li, uma grande parte do estudo LMCompress, falou sobre como o aprendizado e a compactação estão conectados:

__XLATE_10__

"Neste artigo: provamos que a compressão implica o melhor aprendizado/compreensão."

Outras ferramentas como DeepSeekZip e LlamaZip também funcionam bem, ultrapassando o zlib em taxas de compressão mais de 10% melhores. Em grandes sites como o prompts.ai, que cuida de muitas coisas feitas pelo LLM, essas novas mudanças reduzem a quantidade de espaço usado e aceleram a movimentação de dados. A principal coisa a saber? Modelos de adivinhação e esmagamento sem perdas são duas partes de uma coisa, e usá-los muda a forma como mantemos e usamos as informações.

Essas grandes etapas não apenas economizam espaço, mas também combinam bem com as configurações de IA, tornando o trabalho mais tranquilo e com menor custo.

Principais maneiras de reduzir os resultados do LLM

Reduzir os resultados do LLM (grandes modelos de linguagem) é difícil, mas os novos métodos tecnológicos estão ajudando muito. Essas formas não apenas encolhem as coisas da maneira antiga; eles usam IA para adivinhar os dados, mudando a forma como mantemos e controlamos os dados nas configurações de IA atuais.

LMCompress

LMCompress é um método de redução sem perdas de alto nível, feito apenas para itens feitos por IA. Ele usa um método de três etapas: cortar, adivinhar e codificação matemática. Ele se sai muito bem ao diminuir diferentes tipos de dados, como palavras, imagens, som e vídeo. Ao transformar esses tipos de dados em bits que os LLMs podem manipular, o LMCompress economiza muito mais espaço. Sua construção é baseada em ideias como a adivinhação de Solomonoff, tornando-o melhor em adivinhar e mudar.

For example, LMCompress got a shrink size of 6.32 on the CLIC2019 picture set, which was way better than JPEG-XL's 2.93. In making sound files smaller, it cut data size by 25%–94%, topping FLAC in stuff like LibriSpeech and LJSpeech. With words, LMCompress nearly made the shrink sizes three times better than older tools like zlib, bzip2, and brotli, giving a bump of 8.5% on MeDAL and 38.4% on Pile of Law compared to the raw Llama3-8B outputs. Even in making videos smaller, it showed more than 20% better results for still scenes and at least 50% better for moving scenes against old ways like FFV1, H.264, and H.265.

__XLATE_16__

"O LMCompress inaugura uma nova era de compactação de dados alimentada por um profundo entendimento. Sua arquitetura, inspirada na indução de Solomonoff, não apenas supera os benchmarks anteriores, mas redefine a compactação como um processo inteligente enraizado na previsão e adaptação." - Aniruddha Shrikhande

LMCompress é uma grande ajuda para lugares como prompts.ai, que lidam com muito conteúdo feito por IA.

Compressão de previsão do próximo token

Uma maneira nova e interessante usa como os modelos de linguagem adivinham a próxima palavra ou token. Chamado de compactação de previsão do próximo token, esse truque usa essa suposição para colocar os dados em um espaço pequeno. Ele realmente usa a ideia de dados do modelo de grande linguagem (LLM) para compactá-los tanto quanto a teoria de Shannon diz que é possível.

O quão bem isso funciona depende de quão bom é o modelo de linguagem. Um modelo top significa que você pode empacotar melhor os dados. Além disso, essa forma se adapta perfeitamente aos sistemas LLM atuais, facilitando o uso para melhores trabalhos de dados de texto em grandes empresas.

Técnicas de Dupla Compressão

Para tamanhos pequenos ainda melhores, a compactação dupla reúne dois métodos para manter e enviar dados melhor. Isso começa diminuindo os modelos por meio de coisas como quantização e, em seguida, usa compactação sem perdas no que sai.

Em um caso, eles fizeram uma ferramenta de texto passar de 109 milhões de partes (438 MB) para 52,8 milhões de partes (211 MB). Então, usando a quantização de 4 bits, eles reduziram para 62,7 MB. A próxima etapa empacota as saídas do modelo e outros dados, criando um sistema que empacota os dados melhor do que apenas um método.

Esse método de duas etapas é ótimo para grandes usos de trabalho, pois economiza espaço, envia dados mais barato e custa menos para ser executado. Porém, fazer com que a compactação dupla funcione bem requer um trabalho cuidadoso, especialmente em como a quantização altera a aparência dos números das saídas do modelo. Quando bem feito, permite escolher entre economizar espaço, acelerar processos ou usar menos dados com base nas necessidades da empresa.

Comparando como funcionam os algoritmos

Ao escolher o melhor método de compactação para suas saídas LLM, pense em como cada um funciona em uso real. Cada método tem seus pontos positivos e vantagens, ainda mais quando usado em grandes casos de negócios.

Como medimos o desempenho

Para testar métodos de compactação, analisamos alguns pontos principais:

Taxa de compressão: mostra quanto o tamanho do modelo diminui. Uma proporção alta significa grande economia em armazenamento e memória.
Tempo de inferência: rastreia a rapidez com que o LLM transforma dados de entrada em saída, o que é fundamental para uso em tempo real.
Operações de ponto flutuante (FLOPs): conta o trabalho necessário para cada trabalho. A utilização média de FLOPS (MFU) informa quão bem os FLOPs são usados com base no que o dispositivo pode fazer.

O tipo de algoritmo escolhido pode realmente mudar o desempenho dos aplicativos nas grandes empresas. Por exemplo, métodos como LZ4 e Snappy têm tudo a ver com velocidade, o que os torna ótimos para trabalhos no local, mesmo que reduzam o quanto você pode compactar. Por outro lado, para manter dados onde a velocidade não é um grande problema, opções como Zstd ou GZIP com tabelas Dynamic Huffman oferecem melhor compactação. Calliope-Louisa Sotiropoulou do CAST diz:

__XLATE_27__

“Selecionar o algoritmo correto requer estudo e experiência porque deve ser baseado no conjunto de dados, no tipo de dados, no tamanho médio e máximo do arquivo e na configuração correta do algoritmo.”

Isso torna mais fácil ver como os principais algoritmos se alinham.

Veja os dados

Aqui, apresentamos os principais algoritmos e como eles funcionam:

Esta análise mostra os compromissos entre o quão bem funciona, quão fácil é adicionar e para que é utilizado, ajudando as empresas a fazerem escolhas inteligentes.

O LMCompress se sai bem quando você observa o quão compacto ele pode compactar os dados, obtendo uma pontuação de 6,32 no CLIC2019, enquanto o JPEG-XL obtém apenas 2,93. Ele pode duplicar ou até quatro vezes melhor o trabalho das antigas formas de empacotar dados para todos os tipos de dados, mas precisa funcionar com LLMs.

A compressão de previsão do Next-Token é feita para dados de LLMs, com taxas de empacotamento 20 vezes melhores que as 3 vezes do Gzip. Isso o torna uma escolha importante para lugares como prompts.ai, onde cortar custos de tokens é muito importante.

O Zstandard encontra um meio-termo sendo 3 a 5 vezes mais rápido que o zlib e ainda compacta os dados de forma compacta. Quase dobra a velocidade de descompactação e não é difícil de adicionar, o que o torna uma boa escolha para empresas que desejam uma solução fácil.

Escolher a maneira certa de empacotar os dados pode realmente mudar o desempenho de uma empresa. Por exemplo, a CAST afirma que a embalagem inteligente no armazenamento pode reduzir o consumo de energia em até 40%. Além disso, o Google descobriu que a embalagem Brotli usa 20% menos dados, economizando energia ao mover dados. Isso mostra o grande papel da embalagem compacta para fazer o LLM funcionar melhor.

Trazendo compactação para ferramentas de IA

Colocar tecnologia de compressão em ferramentas de IA é mais do que apenas uma atualização: melhora o fluxo de trabalho e reduz custos. Ao adicionar compactação a essas ferramentas, você pode fazê-las funcionar melhor sem prejudicar o modo como funcionam ou são usadas.

Melhores maneiras de misturar compactação em fluxos de trabalho

O tempo é muito importante quando você adiciona compactação sem perdas a trabalhos de IA. Para manter as coisas rápidas e manter as vantagens de armazenamento, compacte os dados quando nada mais estiver acontecendo, não quando o sistema estiver ocupado resolvendo as coisas. Para trabalhos que precisam acontecer ao mesmo tempo, comprima os dados salvos silenciosamente na parte de trás para que ninguém fique preso. Diferentes tipos de dados podem precisar de métodos próprios - por exemplo, o texto funciona bem com a compactação de adivinhação da palavra seguinte, mas outros tipos podem precisar de métodos próprios. Ferramentas como ZipNN são boas para lidar com grandes saídas de modelos de texto usando codificação de entropia para eliminar extras.

Acompanhando tokens e custos claros

It's key to keep an eye on how many tokens are used. AI models can cost between $10 and $20 for every million tokens, so even a little more efficiency can mean big savings. To manage costs well, you need to know the difference between input tokens and made tokens as this clarity helps find where you’re saving with compression. For example, cutting the number of stored tokens by 22.42% can mean big savings each month. With systems processing billions of tokens every month, tools that guess how many tokens are used give a clear picture of use and cost impacts. Tools like prompts.ai, which you pay for as you use, get a lot from real-time token watching along with compression stats, giving a clear way to watch and make the most of these tweaks. These ways not only keep costs down but also help with bigger and better changes in operations.

Ganhos comerciais com a adição de compactação

As vantagens de adicionar compactação vão além de apenas fazer as coisas funcionarem melhor - elas atingem os resultados financeiros. Ferramentas como LMCompress e ZipNN mostram como a compactação inteligente pode melhorar o armazenamento e ajudar as empresas a crescer. O pesquisador da IBM, Moshik Hershcovitch, aponta o valor destes métodos:

__XLATE_39__

"Nosso método pode reduzir os custos de armazenamento e transferência de IA praticamente sem nenhuma desvantagem. Quando você descompacta o arquivo, ele retorna ao seu estado original. Você não perde nada."

Aqui está um caso simples: em fevereiro de 2025, a Hugging Face começou a usar uma nova maneira de empacotar dados de um método chamado ZipNN em seu sistema e reduziu seus custos de armazenamento em 20%. ZipNN também tornou grandes arquivos de modelos comuns cerca de um terço menores e pôde compactar e descompactar dados 1,5 vezes mais rápido. Por exemplo, os modelos Llama 3.1 funcionaram 62% mais rápido do que o método antigo, zstd. Quando usado em grandes sistemas que trabalham com mais de um milhão de modelos todos os dias, o ZipNN pode economizar enormes quantidades de armazenamento e dados, além de economizar custos. Não apenas economizando dinheiro, usar esse método de embalagem inteligente também pode significar usar até 40% menos energia, ajudando com dinheiro e com o planeta. Para sites como o prompts.ai, essas mudanças tornam possível lidar com trabalhos maiores e coisas mais complexas sem se preocupar com espaço ou custo.

Resumo e pontos principais

Novas maneiras de empacotar grandes resultados de modelos de IA sem perdas são fundamentais no tratamento de big data produzido pela IA. Novos métodos liderados por IA não apenas funcionam melhor, mas também mantêm as informações verdadeiras seguras.

Aqui estão os principais ganhos e seus efeitos:

Better Algorithms: LMCompress shines by cutting down data size by 50% versus old kinds like JPEG-XL for photos, FLAC for sounds, and H.264 for videos. For words, it pushes down to nearly a third of what zpaq can do. Even more, LLM-based guess methods reach more than 20× lower data sizes, beating the 3× cut by old tools like Gzip.

"Our results demonstrate that the better a model understands the data, the more effectively it can compress it, suggesting a deep connection between understanding and compression." – Authors of LMCompress

"Our results demonstrate that the better a model understands the data, the more effectively it can compress it, suggesting a deep connection between understanding and compression." – Authors of LMCompress

Ganhos de trabalho: IACC (Smart AI Context Compression) traz vantagens claras. Ele reduz em 50% os custos vinculados ao contexto, reduz o uso de memória em 5% e torna o processamento 2,2 vezes mais rápido. Esses ganhos são muito importantes para sistemas que lidam com muitos tokens todos os dias.
Uso na vida real: Novas formas de empacotar dados mostram ganhos claros em usos reais. Eles reduzem a quantidade de dados que ocupam o espaço e aumentam a velocidade com que os dados se movem. Por exemplo, utilizá-los integralmente poderia economizar enormes quantidades de armazenamento e dados enviados pelas redes.

Essas mudanças ajudam a fazer com que a IA funcione melhor e custe menos. Ao empacotar bem os dados, as empresas podem lidar com mais dados e não atingir os limites de tokens, tornar a localização de dados mais fácil e usar melhor o que têm. A forma como a compactação sem perdas funciona mantém os dados seguros e torna o carregamento e a movimentação de dados mais suave e rápido.

À medida que a IA se torna maior e mais confusa, usar essas principais formas de empacotamento de dados é uma obrigação – é a chave para acompanhar. As empresas que usam esses truques podem melhorar seu trabalho de IA, gastar menos no que precisam e oferecer aos usuários um trabalho mais rápido e seguro. Plataformas como prompts.ai já estão usando essas formas para rastrear melhor os tokens e gastar menos com compactação inteligente.

Perguntas frequentes

Como as empresas podem aproveitar ao máximo os métodos de compressão sem perdas em tarefas de IA para fazer melhor e gastar menos?

As empresas podem intensificar suas tarefas de IA usando métodos de compactação sem perdas que tornam os dados menores, mas mantêm sua qualidade total. Ferramentas como ZipNN e LMCompress são muito boas para isso, oferecendo vantagens como menos dinheiro gasto em armazenamento e movimentação mais rápida de dados. Essas soluções ajudam a gerenciar bem conjuntos de big data, mantendo todos os detalhes.

Para começar, as empresas podem adicionar essas formas de compactação em suas configurações de dados contínuas ou projetos de IA. Isso aumenta a velocidade e reduz custos, economizando espaço de armazenamento e energia utilizada nos processos. Quando combinados com etapas como redução de custos de nuvem, esses métodos podem trazer economias claras de dinheiro e melhorar o funcionamento geral das coisas.