Llm 출력의 무손실 압축 주요 알고리즘

LLM은 매일 엄청난 양의 데이터를 생성하므로 이를 잘 저장하고 전송하는 것이 중요합니다. 무손실 압축은 데이터 손실 없이 파일 크기를 줄이는 가장 좋은 방법입니다. 이것이 중요한 이유와 작동 방식은 다음과 같습니다.

Why it’s key: LLM outputs can't be guessed and seem human, making old ways of compression weak. Lossless compression keeps all bits of data, keeping its meaning and how we can use it.
주요 이점: 스토리지 비용을 절감하고, 에너지 사용량을 최대 40% 줄이며, AI 작동을 개선합니다.
최선의 방법: LMCompress 및 다음 토큰 추측 방법과 같은 새로운 기술은 Gzip과 같은 기존 도구보다 훨씬 더 나은 성능을 발휘하여 최대 20배 더 나은 압축률에 도달합니다.
실제 생활에 미치는 영향: Prompts.ai와 같은 사이트는 이러한 방법을 사용하여 스토리지를 절약하고 비용을 절감하며 증가하는 데이터 요구 사항을 충족합니다.

무손실 압축은 단지 공간을 절약하는 것이 아니라 점점 더 많은 AI가 만든 데이터를 처리하는 현명한 방법입니다.

70% 크기, 100% 정확도: 동적 길이 플로트를 통한 GPU 추론을 위한 무손실 LLM 압축

무손실 압축 작동 방식

무손실 압축은 AI가 만든 텍스트를 데이터 손실 없이 잘 저장할 수 있는 멋진 방법입니다. 데이터에서 패턴을 찾아내고 이를 사용하여 파일 크기를 줄입니다. AI가 만든 텍스트의 경우 이 방법은 파일을 더 작게 만드는 다른 방법과 약간 다르게 작동합니다. 데이터를 올바르게 유지하고 이를 효과적으로 수행하는 방법을 살펴보겠습니다.

데이터를 전체적이고 되돌릴 수 있게 유지

무손실 압축의 가장 큰 장점은 데이터를 더 작게 만들면서도 모든 정보를 유지할 수 있다는 것입니다. 패턴과 같이 많이 나타나는 반복되는 항목을 보고 짧은 방식으로 작성합니다. 예를 들어, "the"가 텍스트에 많이 포함된 경우 공간을 덜 채우는 작은 코드에 넣을 수 있습니다. 다시 크게 만들면 텍스트가 똑같이 나타납니다.

허프만 코딩 및 산술 코딩과 같은 방법이 이 작업을 수행합니다. 허프만 코딩은 많이 나타나는 것에 대해 짧은 코드를 제공하는 반면, 산술 코딩은 데이터에 가장 적합한 작은 크기에 가까워지므로 더 나은 성능을 발휘합니다. LLM이 데이터를 만드는 방법을 보고 학습하고 변경하여 데이터 압축 능력을 향상함으로써 새로운 방법은 더욱 발전합니다.

데이터의 무작위성을 줄이고 분석하기

무작위성 또는 데이터가 얼마나 불확실한지는 압축할 수 있는 정도에 따라 매우 중요합니다. 무작위 데이터가 적을수록 패턴이 더 명확해지기 때문에 더 작게 만들기가 더 쉽습니다. AI는 데이터를 추측하기 쉽게 만드는 경향이 있으므로 압축에 적합합니다.

텍스트를 문자, 바이트 그룹 또는 전체 단어와 같은 비트로 나누는 방법은 텍스트를 얼마나 작게 만들 수 있는지에 영향을 미칩니다. 일이 얼마나 자주 발생하는지에 따라 달라지는 코딩은 일반적인 비트에 짧은 코드를 제공하고 희귀한 비트에 긴 코드를 제공합니다. AI는 이러한 비트를 잘 추측하여 텍스트를 만들기 때문에 데이터를 압축하는 방법과 잘 맞습니다. 이전 비트를 기반으로 예측하면 이러한 추측이 더 좋아지므로 데이터를 얼마나 작게 만들 수 있는지가 향상됩니다. 스마트 예측은 이를 기반으로 하여 압축을 더욱 향상시킵니다.

좋은 압축과 스마트한 추측

데이터를 작게 만들고 올바르게 추측하는 것은 함께 진행됩니다. 모델이 데이터를 더 똑똑하게 알수록 데이터를 더 잘 축소할 수 있습니다. 좋은 예는 중국 중부 인공 지능 연구소(Central China Institute of Artificial Intelligence) 및 워털루 대학교(University of Waterloo)와 같은 곳의 큰 두뇌가 2025년 5월에 만든 방식인 LMCompress입니다. LMCompress는 기존 방식에 비해 텍스트, 사진, 비디오 및 사운드를 만들 수 있는 크기를 두 배로 줄여 작업을 훨씬 더 작게 만들었습니다.

예를 들어, LMCompress는 zpaq이 할 수 있는 작업의 1/3 정도를 텍스트로 만들었습니다. 또한 ImageNet의 그림 비트를 첫 번째 크기의 43.4%로 만들고 LibriSpeech의 사운드를 16.4%로 만들었습니다. 이는 PNG(58.5%) 및 FLAC(30.3%)와 같은 다른 방법보다 더 나은 성능을 발휘합니다. 이러한 높은 수준의 작은 작업은 LLM이 교육하는 동안 배운 내용을 사용하는 스마트 산술 코딩에서 비롯됩니다.

LMCompress 연구의 큰 부분을 차지한 Ming Li는 학습과 압축이 어떻게 연결되는지에 대해 이야기했습니다.

__XLATE_10__

"이 논문에서 우리는 압축이 최고의 학습/이해를 의미한다는 것을 증명했습니다."

DeepSeekZip 및 LlamaZip과 같은 다른 도구도 잘 작동하여 zlib를 10% 이상 더 나은 스퀴시 속도로 밀어냅니다. LLM에서 만든 많은 자료를 관리하는 Prompts.ai와 같은 대규모 사이트에서 이러한 새로운 움직임은 사용되는 공간의 양을 줄이고 데이터 이동 속도를 높입니다. 알아야 할 가장 중요한 것은? 추측 모델과 무손실 스퀴시(no-loss squish)는 한 가지의 두 부분이며, 둘 다 사용하면 정보를 보관하고 사용하는 방식이 달라집니다.

이러한 큰 단계는 공간을 절약할 뿐만 아니라 AI 설정과 잘 혼합되어 작업이 원활하게 진행되고 비용이 절감됩니다.

LLM 출력을 축소하는 주요 방법

LLM(큰 언어 모델) 출력을 줄이는 것은 어렵지만 새로운 기술 방법이 많은 도움이 됩니다. 이러한 방법은 예전 방식으로 크기를 줄이는 것이 아닙니다. 그들은 AI를 사용하여 데이터를 추측하고 오늘날의 AI 설정에서 데이터를 유지하고 제어하는 방법을 변경합니다.

LM압축

LMCompress는 AI 제작을 위해 만들어진 최고의 무손실 축소 방법입니다. 자르기, 추측, 수학 코딩의 3단계 방식을 사용합니다. 단어, 그림, 소리, 비디오와 같은 다양한 데이터 유형을 더 작게 만드는 데 정말 효과적입니다. 이러한 종류의 데이터를 LLM이 처리할 수 있는 비트로 변환함으로써 LMCompress는 훨씬 더 공간을 절약해 줍니다. 그 빌드는 솔로몬노프 추측과 같은 아이디어를 기반으로 하여 추측 및 이동이 더 잘됩니다.

For example, LMCompress got a shrink size of 6.32 on the CLIC2019 picture set, which was way better than JPEG-XL's 2.93. In making sound files smaller, it cut data size by 25%–94%, topping FLAC in stuff like LibriSpeech and LJSpeech. With words, LMCompress nearly made the shrink sizes three times better than older tools like zlib, bzip2, and brotli, giving a bump of 8.5% on MeDAL and 38.4% on Pile of Law compared to the raw Llama3-8B outputs. Even in making videos smaller, it showed more than 20% better results for still scenes and at least 50% better for moving scenes against old ways like FFV1, H.264, and H.265.

__XLATE_16__

"LMCompress는 깊은 이해를 바탕으로 데이터 압축의 새로운 시대를 열었습니다. Solomonoff 유도에서 영감을 얻은 아키텍처는 이전 벤치마크를 능가할 뿐만 아니라 예측 및 적응에 기반을 둔 지능형 프로세스로 압축을 재정의합니다." - 아니루다 슈리칸데

LMCompress는 AI로 만든 콘텐츠를 많이 다루는 Prompts.ai와 같은 곳에서 큰 도움이 됩니다.

다음 토큰 예측 압축

새롭고 멋진 방법은 언어 모델이 다음 단어나 토큰을 추측하는 방법을 사용합니다. 다음 토큰 예측 압축이라고 하는 이 트릭은 이 추측을 사용하여 데이터를 작은 공간에 잘 넣습니다. 실제로 데이터의 빅 언어 모델(LLM) 아이디어를 사용하여 Shannon 이론에서 말하는 만큼 데이터를 압축합니다.

이것이 얼마나 잘 작동하는지는 언어 모델이 얼마나 좋은지에 달려 있습니다. 상위 모델은 데이터를 더 잘 압축할 수 있음을 의미합니다. 또한 이 방법은 현재 LLM 시스템에 적합하므로 대기업에서 더 나은 텍스트 데이터 작업에 쉽게 사용할 수 있습니다.

이중 압축 기술

더 나은 작은 크기를 위해 이중 압축은 두 가지 방법을 결합하여 데이터를 더 잘 보관하고 전송합니다. 이는 양자화 등을 통해 모델을 더 작게 만드는 것부터 시작한 다음, 나오는 내용에 무손실 압축을 사용합니다.

한 경우에는 텍스트 도구를 1억 9백만 개 부품(438MB)에서 5,280만 개 부품(211MB)으로 늘렸습니다. 그런 다음 4비트 양자화를 사용하여 62.7MB로 줄였습니다. 다음 단계에서는 모델의 출력과 기타 데이터를 압축하여 한 가지 방법만 사용하는 것보다 더 나은 데이터를 압축하는 시스템을 만듭니다.

이 2단계 방법은 공간을 절약하고 데이터를 더 저렴하게 전송하며 실행 비용이 적게 들기 때문에 대규모 작업 용도에 적합합니다. 그러나 이중 압축이 제대로 작동하도록 하려면 특히 양자화가 모델 출력 숫자의 모양을 어떻게 변경하는지에 대한 세심한 작업이 필요합니다. 잘 수행되면 회사에 필요한 사항에 따라 공간 절약, 프로세스 속도 향상 또는 더 적은 데이터 사용 중에서 선택할 수 있는 방법이 제공됩니다.

알고리즘 작동 방식 비교

LLM 출력에 대한 최고의 압축 방법을 선택할 때 각 방법이 실제 사용에서 어떻게 작동하는지 생각해 보십시오. 각 방법에는 장점과 장단점이 있으며, 대규모 비즈니스 사례에 사용할 경우 더욱 그렇습니다.

성과를 측정하는 방법

압축 방법을 테스트하기 위해 몇 가지 핵심 사항을 살펴보겠습니다.

압축 비율: 모델 크기가 얼마나 줄어드는지를 보여줍니다. 비율이 높다는 것은 스토리지와 메모리가 크게 절약된다는 의미입니다.
추론 시간: LLM이 입력 데이터를 출력으로 전환하는 속도를 추적하며, 이는 실시간 사용의 핵심입니다.
부동 소수점 연산(FLOP): 각 작업에 필요한 작업 수를 계산합니다. MFU(평균 FLOPS 활용도)는 장치가 수행할 수 있는 작업을 기반으로 FLOP가 얼마나 잘 사용되는지를 나타냅니다.

선택한 알고리즘 유형에 따라 앱이 대기업에서 얼마나 잘 작동하는지 실제로 바뀔 수 있습니다. 예를 들어 LZ4 및 Snappy와 같은 방법은 모두 속도가 중요하므로 압축할 수 있는 양을 줄이더라도 현장 작업에 적합합니다. 반면에 속도가 크게 중요하지 않은 데이터를 보관하려면 Dynamic Huffman 테이블을 사용하는 Zstd 또는 GZIP과 같은 선택이 더 나은 압축을 제공합니다. CAST의 Calliope-Louisa Sotiropoulou 박사는 다음과 같이 말합니다.

__XLATE_27__

"올바른 알고리즘을 선택하려면 데이터 세트, 데이터 유형, 평균 및 최대 파일 크기, 올바른 알고리즘 구성을 기반으로 해야 하기 때문에 연구와 경험이 필요합니다."

이를 통해 상위 알고리즘이 어떻게 정렬되어 있는지 쉽게 확인할 수 있습니다.

데이터 살펴보기

여기서는 주요 알고리즘과 그 수행 방법을 설명합니다.

사물을 살펴보면 얼마나 잘 작동하는지, 얼마나 쉽게 추가할 수 있는지, 어떤 용도로 사용되는지 사이의 균형을 보여 기업이 현명한 선택을 하는 데 도움이 됩니다.

LMCompress는 데이터를 얼마나 빡빡하게 압축할 수 있는지 살펴보면 CLIC2019에서 6.32점을 얻은 반면 JPEG-XL은 2.93점에 불과합니다. 모든 종류의 데이터에 대한 데이터를 압축하는 기존 방식의 작업을 두 배, 심지어 네 배 더 좋게 만들 수 있지만 LLM과 함께 작동해야 합니다.

LLM의 데이터에 대해 다음 토큰 예측 압축이 이루어지며, 패킹 속도는 Gzip의 3배보다 20배 이상 빠릅니다. 따라서 토큰 비용 절감이 매우 중요한 Prompts.ai와 같은 장소에서 최고의 선택이 됩니다.

Zstandard는 zlib보다 3~5배 빠른 중간 방법을 찾으면서도 여전히 데이터를 촘촘하게 압축합니다. 포장 풀기 속도를 거의 두 배로 높이고 추가하기가 어렵지 않으므로 쉽게 수정하려는 회사에 적합합니다.

데이터를 압축하는 올바른 방법을 선택하면 비즈니스 방식이 실제로 바뀔 수 있습니다. 예를 들어, CAST는 창고에 스마트하게 포장하면 전력 사용을 최대 40%까지 줄일 수 있다고 말합니다. 또한 Google은 Brotli 패킹이 데이터를 20% 적게 사용하여 데이터 이동 시 전력을 절약한다는 사실을 발견했습니다. 이는 LLM이 더 잘 작동하도록 하는 데 있어 긴밀한 패킹의 큰 역할을 보여줍니다.

AI 도구에 압축 적용

AI 도구에 압축 기술을 적용하는 것은 단순한 업그레이드 그 이상입니다. 워크플로를 개선하고 비용을 절감합니다. 이러한 도구에 압축을 추가하면 작동 방식이나 사용 방식을 손상시키지 않고 더 효과적으로 실행할 수 있습니다.

작업 흐름에 압축을 혼합하는 가장 좋은 방법

AI 작업에 무손실 압축을 추가할 때는 타이밍이 매우 중요합니다. 작업을 빠르게 유지하고 스토리지 혜택을 유지하려면 시스템이 작업을 진행 중일 때가 아니라 다른 작업이 없을 때 데이터를 압축하세요. 동시에 이루어져야 하는 작업의 경우 저장된 데이터를 뒤에서 조용히 압축하여 누구도 방해하지 않도록 하세요. 다양한 종류의 데이터에는 고유한 방식이 필요할 수 있습니다. 예를 들어 텍스트는 다음 단어 추측 압축에서 잘 작동하지만 다른 유형에는 고유한 방식이 필요할 수 있습니다. ZipNN과 같은 도구는 엔트로피 인코딩을 사용하여 추가 항목을 잘라내어 큰 텍스트 모델 출력을 처리하는 데 능숙합니다.

토큰 추적 및 비용 지우기

It's key to keep an eye on how many tokens are used. AI models can cost between $10 and $20 for every million tokens, so even a little more efficiency can mean big savings. To manage costs well, you need to know the difference between input tokens and made tokens as this clarity helps find where you’re saving with compression. For example, cutting the number of stored tokens by 22.42% can mean big savings each month. With systems processing billions of tokens every month, tools that guess how many tokens are used give a clear picture of use and cost impacts. Tools like prompts.ai, which you pay for as you use, get a lot from real-time token watching along with compression stats, giving a clear way to watch and make the most of these tweaks. These ways not only keep costs down but also help with bigger and better changes in operations.

압축 추가로 인한 비즈니스 이점

압축을 추가함으로써 얻을 수 있는 이점은 단지 작업을 더 좋게 만드는 것 이상으로, 최종 결과에 도달합니다. LMCompress 및 ZipNN과 같은 도구는 스마트 압축이 어떻게 스토리지를 개선하고 비즈니스 성장에 도움이 되는지 보여줍니다. IBM 연구원 Moshik Hershcovitch는 이러한 방법의 가치를 다음과 같이 지적합니다.

__XLATE_39__

"우리의 방법은 사실상 단점 없이 AI 저장 및 전송 비용을 낮출 수 있습니다. 파일의 압축을 풀면 파일이 원래 상태로 돌아갑니다. 아무것도 잃지 않습니다."

간단한 사례는 다음과 같습니다. 2025년 2월 Hugging Face는 시스템에서 ZipNN이라는 방법으로 데이터를 압축하는 새로운 방식을 사용하기 시작했으며 스토리지 비용을 20% 절감했습니다. ZipNN은 또한 큰 공통 모델 파일을 약 1/3 더 작게 만들고 데이터를 1.5배 빠르게 압축하고 압축을 풀 수 있었습니다. 예를 들어 Llama 3.1 모델은 이전 방법인 zstd보다 62% 더 빠르게 작동했습니다. 매일 백만 개 이상의 모델을 사용하는 대형 시스템에서 ZipNN을 사용하면 엄청난 양의 저장 공간과 데이터를 절약할 수 있으며 비용도 절감할 수 있습니다. 이 스마트한 포장 방법을 사용하면 비용을 절약할 수 있을 뿐만 아니라 에너지를 최대 40%까지 절약할 수 있어 돈과 지구에도 도움이 됩니다. Prompts.ai와 같은 사이트의 경우 이러한 변경을 통해 공간이나 비용에 대한 걱정 없이 더 큰 작업과 더 복잡한 작업을 처리할 수 있습니다.

요약 및 요점

대규모 AI 모델 결과를 손실 없이 압축하는 새로운 방법은 AI가 만든 빅데이터를 처리하는 데 핵심입니다. 새로운 AI 기반 방법은 더 효과적으로 작동할 뿐만 아니라 실제 정보를 안전하게 유지합니다.

주요 이득과 효과는 다음과 같습니다.

Better Algorithms: LMCompress shines by cutting down data size by 50% versus old kinds like JPEG-XL for photos, FLAC for sounds, and H.264 for videos. For words, it pushes down to nearly a third of what zpaq can do. Even more, LLM-based guess methods reach more than 20× lower data sizes, beating the 3× cut by old tools like Gzip.

"Our results demonstrate that the better a model understands the data, the more effectively it can compress it, suggesting a deep connection between understanding and compression." – Authors of LMCompress

"Our results demonstrate that the better a model understands the data, the more effectively it can compress it, suggesting a deep connection between understanding and compression." – Authors of LMCompress

작업 이득: IACC(Smart AI Context Compression)는 명확한 이점을 제공합니다. 컨텍스트와 관련된 비용을 50% 절감하고, 메모리 사용량을 5% 낮추며, 처리 속도를 2.2배 빠르게 만듭니다. 이러한 이득은 매일 많은 토큰을 처리하는 시스템에 매우 중요합니다.
실생활에서의 사용: 데이터를 묶는 새로운 방법은 실제 사용에서 확실한 승리를 보여줍니다. 공간 데이터가 차지하는 양을 줄이고 데이터 이동 속도를 높입니다. 예를 들어, 이를 완전히 사용하면 네트워크를 통해 전송되는 엄청난 양의 저장 공간과 데이터를 절약할 수 있습니다.

이러한 움직임은 AI 작업을 더 크게 만들고 비용을 낮추는 데 도움이 됩니다. 데이터를 잘 포장함으로써 기업은 더 많은 데이터를 처리하고 토큰 한도에 도달하지 않고 데이터를 더 쉽게 찾을 수 있으며 보유한 것을 더 잘 사용할 수 있습니다. 무손실 압축이 작동하는 방식은 데이터를 안전하게 유지하고 데이터 로드 및 이동을 더욱 부드럽고 빠르게 만듭니다.

AI가 점점 더 커지고 복잡해짐에 따라 이러한 최고의 데이터 패킹 방법을 사용하는 것이 필수입니다. 이를 따라잡는 것이 핵심입니다. 이러한 트릭을 사용하는 기업은 AI 작업을 더욱 효과적으로 성장시키고 필요한 비용을 줄이며 사용자에게 더 빠르고 확실한 작업을 제공할 수 있습니다. Prompts.ai와 같은 플랫폼은 이미 이러한 방법을 사용하여 토큰을 더 효과적으로 추적하고 스마트 압축을 통해 비용을 절감하고 있습니다.

자주 묻는 질문

기업은 어떻게 AI 작업에서 무손실 압축 방법을 최대한 활용하여 더 나은 작업을 수행하고 비용을 줄일 수 있습니까?

기업은 데이터를 더 작게 만들면서도 전체 품질을 유지하는 무손실 압축 방법을 사용하여 AI 작업을 강화할 수 있습니다. ZipNN 및 LMCompress와 같은 도구는 이에 매우 적합하여 스토리지에 소요되는 비용을 줄이고 데이터 이동 속도를 높이는 등의 이점을 제공합니다. 이러한 솔루션은 모든 세부 사항을 유지하면서 빅 데이터 세트를 잘 관리하는 데 도움이 됩니다.

우선 기업은 이러한 압축 방법을 지속적인 데이터 설정이나 AI 설계에 추가할 수 있습니다. 이는 저장 공간과 공정에 사용되는 전력을 절약하여 속도를 높이고 비용을 절감합니다. 클라우드 비용 절감과 같은 단계를 함께 적용하면 이러한 방법을 통해 현금을 확실히 절감하고 전반적인 업무 효율성을 높일 수 있습니다.