Kompresi Lossless Untuk Algoritma Kunci Output Llm

Setiap hari, LLM menghasilkan banyak sekali data, menjadikannya kunci untuk menyimpan dan mengirimkannya dengan baik. Kompresi lossless adalah pilihan terbaik untuk memotong ukuran file tanpa kehilangan data apa pun. Inilah alasan pentingnya dan cara kerjanya:

Why it’s key: LLM outputs can't be guessed and seem human, making old ways of compression weak. Lossless compression keeps all bits of data, keeping its meaning and how we can use it.
Keuntungan utama: Mengurangi biaya penyimpanan, mengurangi penggunaan energi hingga 40%, dan membuat AI bekerja lebih baik.
Cara terbaik: Teknologi baru seperti LMCompress dan metode tebakan token berikutnya bekerja jauh lebih baik dibandingkan alat lama seperti Gzip, dan mencapai tingkat kompresi hingga 20x lebih baik.
Efek dalam kehidupan nyata: Situs seperti prompts.ai menggunakan cara ini untuk menghemat penyimpanan, memangkas biaya, dan memenuhi kebutuhan data yang terus bertambah.

Kompresi lossless tidak hanya menghemat ruang - ini adalah cara cerdas untuk menangani lebih banyak data buatan AI.

Ukuran 70%, Akurasi 100%: Kompresi LLM Lossless untuk Inferensi GPU melalui Dynamic-Length Float

Cara Kerja Kompresi Lossless

Kompresi lossless adalah cara keren untuk menyimpan teks buatan AI dengan baik tanpa kehilangan data apa pun. Ini menemukan pola dalam data dan menggunakannya untuk memotong ukuran file. Untuk teks buatan AI, cara kerjanya sedikit berbeda dengan cara lain untuk memperkecil file. Mari kita lihat bagaimana ia menjaga data tetap benar dan melakukannya dengan baik.

Menjaga Data Tetap Utuh dan Dapat Dibalik

Bagian terbaik dari kompresi lossless adalah bagaimana ia dapat memperkecil data namun tetap menyimpan semua informasinya. Ia melihat hal-hal berulang - seperti pola - yang sering muncul dan kemudian menuliskannya dalam waktu singkat. Misalnya, jika "the" ada banyak dalam teks, maka dapat dimasukkan ke dalam kode kecil yang mengisi lebih sedikit ruang. Ketika kita menjadikannya besar lagi, teksnya kembali sama.

Cara-cara seperti pengkodean Huffman dan pengkodean aritmatika membuat ini berhasil. Pengkodean Huffman memberikan kode pendek untuk hal-hal yang sering muncul, sedangkan pengkodean aritmatika memberikan hasil yang lebih baik lagi dengan mendekati ukuran kecil terbaik untuk data. Cara-cara baru melangkah lebih jauh dengan mempelajari dan mengubah ketika mereka melihat bagaimana LLM membuat data, menjadikannya lebih baik dalam mengompresinya.

Membuat Data Kurang Acak dan Menguraikannya

Keacakan, atau seberapa tidak pastinya suatu data, sangat menentukan seberapa besar Anda dapat mengompresnya. Data yang lebih sedikit acak memiliki pola yang lebih jelas, sehingga lebih mudah untuk memperkecilnya. AI cenderung membuat data mudah ditebak, sehingga membantu kompresi yang baik.

Cara kita memecah teks menjadi beberapa bit - seperti menjadi huruf, kelompok byte, atau kata lengkap - memengaruhi seberapa kecil kita dapat membuatnya. Pengkodean yang bergantung pada seberapa sering sesuatu terjadi memberikan kode pendek ke bit umum dan kode panjang ke bit langka. Karena AI membuat teks dengan menebak bit-bit ini dengan baik, AI cocok dengan cara mengompresi data. Memprediksi berdasarkan bit sebelumnya membuat tebakan ini lebih baik, sehingga meningkatkan seberapa kecil kita dapat membuat data. Prediksi cerdas didasarkan pada hal ini, membuat kompresi menjadi lebih baik.

Kompresi yang Baik dan Tebakan yang Cerdas

Memperkecil data dan menebaknya dengan benar adalah hal yang harus dilakukan: semakin pintar suatu model mengetahui data, semakin baik model tersebut dapat mengecilkannya. Contoh yang bagus adalah LMCompress, sebuah cara yang dibuat pada Mei 2025 oleh para ahli dari berbagai tempat seperti Central China Institute of Artificial Intelligence dan University of Waterloo. LMCompress membuat segalanya jauh lebih kecil, menggandakan ukuran teks, gambar, video, dan suara dibandingkan dengan cara lama.

Misalnya, LMCompress membuat teks sekitar sepertiga dari apa yang bisa dilakukan zpaq. Ini juga menjadikan bit gambar dari ImageNet 43,4% dari ukuran aslinya dan suara dari LibriSpeech hanya 16,4% - bekerja lebih baik dibandingkan cara lain seperti PNG (58,5%) dan FLAC (30,3%). Tingkat tinggi dalam menjadikan segala sesuatunya kecil berasal dari pengkodean aritmatika cerdas, yang menggunakan apa yang dipelajari LLM saat pelatihan.

Ming Li, bagian penting dari studi LMCompress, berbicara tentang bagaimana pembelajaran dan kompresi saling terhubung:

__XLATE_10__

"Dalam makalah ini: kami membuktikan bahwa kompresi menyiratkan pembelajaran/pemahaman terbaik."

Alat lain seperti DeepSeekZip dan LlamaZip juga bekerja dengan baik, melampaui zlib dengan tingkat squish lebih dari 10% lebih baik. Di situs besar seperti prompts.ai, yang menangani banyak hal buatan LLM, langkah baru ini mengurangi jumlah ruang yang digunakan dan mempercepat pemindahan data. Hal utama yang perlu diketahui? Menebak model dan no-loss squish adalah dua bagian dari satu hal, dan menggunakan keduanya akan mengubah cara kita menyimpan dan menggunakan informasi.

Langkah-langkah besar ini tidak hanya menghemat ruang tetapi juga dipadukan dengan baik dengan pengaturan AI, membuat pekerjaan berjalan lancar dan lebih hemat biaya.

Cara Utama untuk Menyusut Output LLM

Memperkecil keluaran LLM (model bahasa besar) memang sulit, tetapi metode teknologi baru sangat membantu. Cara-cara ini tidak hanya memperkecil ukuran dengan cara lama; mereka menggunakan AI untuk menebak data, mengubah cara kita menyimpan dan mengontrol data dalam pengaturan AI saat ini.

LMKompres

LMCompress adalah metode penyusutan tanpa kerugian terbaik yang dibuat hanya untuk barang-barang buatan AI. Ini menggunakan cara tiga langkah: memotong, menebak, dan mengkode matematika. Ini sangat baik dalam memperkecil tipe data yang berbeda seperti kata, gambar, suara, dan video. Dengan mengubah jenis data ini menjadi bit yang dapat ditangani oleh LLM, LMCompress membuat segalanya lebih menghemat ruang. Pembuatannya didasarkan pada ide-ide seperti tebakan Solomonoff, membuatnya lebih baik dalam menebak dan menggeser.

For example, LMCompress got a shrink size of 6.32 on the CLIC2019 picture set, which was way better than JPEG-XL's 2.93. In making sound files smaller, it cut data size by 25%–94%, topping FLAC in stuff like LibriSpeech and LJSpeech. With words, LMCompress nearly made the shrink sizes three times better than older tools like zlib, bzip2, and brotli, giving a bump of 8.5% on MeDAL and 38.4% on Pile of Law compared to the raw Llama3-8B outputs. Even in making videos smaller, it showed more than 20% better results for still scenes and at least 50% better for moving scenes against old ways like FFV1, H.264, and H.265.

__XLATE_16__

"LMCompress mengantarkan era baru kompresi data yang didukung oleh pemahaman mendalam. Arsitekturnya, yang terinspirasi oleh induksi Solomonoff, tidak hanya mengalahkan tolok ukur sebelumnya namun juga mendefinisikan ulang kompresi sebagai proses cerdas yang berakar pada prediksi dan adaptasi." - Aniruddha Shrikhande

LMCompress sangat membantu untuk tempat-tempat seperti prompts.ai, yang menangani banyak konten buatan AI.

Kompresi Prediksi Token Berikutnya

Cara baru dan keren menggunakan cara model bahasa menebak kata atau token berikutnya. Disebut kompresi prediksi token berikutnya, trik ini menggunakan tebakan ini untuk memasukkan data ke dalam sumur ruang kecil. Ini benar-benar menggunakan gagasan data model bahasa besar (LLM) untuk mengemasnya sebanyak yang menurut teori Shannon.

Seberapa baik hal ini bekerja sangat bergantung pada seberapa bagus model bahasanya. Model teratas berarti Anda dapat mengemas data dengan lebih baik. Selain itu, cara ini cocok dengan sistem LLM saat ini, sehingga mudah digunakan untuk pekerjaan data teks yang lebih baik di perusahaan besar.

Teknik Kompresi Ganda

Untuk ukuran kecil yang lebih baik lagi, kompresi ganda menggabungkan dua metode untuk menyimpan dan mengirim data dengan lebih baik. Ini dimulai dengan membuat model lebih kecil melalui hal-hal seperti kuantisasi, kemudian menggunakan kompresi lossless pada hasilnya.

Dalam satu kasus, mereka membuat alat teks berubah dari 109 juta bagian (438 MB) menjadi 52,8 juta bagian (211 MB). Kemudian, dengan menggunakan kuantisasi 4-bit, mereka menguranginya menjadi 62,7 MB. Langkah selanjutnya mengemas keluaran model dan data lainnya, sehingga membuat sistem yang mengemas data lebih baik daripada hanya satu metode saja.

Metode dua langkah ini sangat bagus untuk penggunaan pekerjaan besar, karena menghemat ruang, mengirim data lebih murah, dan biaya pengoperasian lebih murah. Namun, membuat kompresi ganda berfungsi dengan baik memerlukan kerja yang cermat, terutama tentang bagaimana kuantisasi mengubah tampilan angka keluaran model. Jika dilakukan dengan baik, hal ini memberikan pilihan antara menghemat ruang, mempercepat proses, atau menggunakan lebih sedikit data berdasarkan kebutuhan perusahaan.

Membandingkan Cara Kerja Algoritma

Saat memilih metode kompresi teratas untuk keluaran LLM Anda, pikirkan bagaimana masing-masing metode bekerja dalam penggunaan nyata. Setiap metode mempunyai kelebihan dan kekurangannya masing-masing, terlebih lagi bila digunakan dalam kasus bisnis besar.

Bagaimana Kami Mengukur Kinerja

Untuk menguji metode kompresi, kami melihat beberapa poin penting:

Rasio kompresi: Ini menunjukkan seberapa besar penurunan ukuran model. Rasio yang tinggi berarti penghematan besar dalam penyimpanan dan memori.
Waktu inferensi: Ini melacak seberapa cepat LLM mengubah data masukan menjadi keluaran, yang merupakan kunci untuk penggunaan waktu nyata.
Operasi Floating Point (FLOPs): Ini menghitung pekerjaan yang dibutuhkan untuk setiap pekerjaan. Mean FLOPS Utilization (MFU) menunjukkan seberapa baik FLOP digunakan berdasarkan kemampuan perangkat.

Jenis algoritma yang dipilih benar-benar dapat mengubah seberapa baik aplikasi bekerja dalam bisnis besar. Misalnya, metode seperti LZ4 dan Snappy mengutamakan kecepatan, sehingga cocok untuk pekerjaan di tempat, meskipun metode tersebut mengurangi jumlah kompresi yang dapat Anda lakukan. Di sisi lain, untuk menyimpan data yang kecepatannya bukan masalah besar, pilihan seperti Zstd atau GZIP dengan tabel Dynamic Huffman menawarkan kompresi yang lebih baik. Calliope-Louisa Sotiropoulou dari CAST mengatakan:

__XLATE_27__

“Memilih algoritma yang benar memerlukan studi dan pengalaman karena harus didasarkan pada kumpulan data, tipe data, ukuran file rata-rata dan maksimum, serta konfigurasi algoritma yang benar.”

Hal ini memudahkan untuk melihat bagaimana algoritma teratas disusun.

Lihat Datanya

Di sini, kami memaparkan algoritme utama dan cara kerjanya:

Pandangan ini menunjukkan trade-off antara seberapa baik cara kerjanya, betapa mudahnya menambahkannya, dan kegunaannya, sehingga membantu perusahaan dalam membuat pilihan yang cerdas.

LMCompress bekerja dengan baik jika Anda melihat seberapa ketatnya ia mengemas data, mendapatkan skor 6,32 pada CLIC2019 sementara JPEG-XL hanya mendapat 2,93. Ini dapat menggandakan atau bahkan membuat empat kali lebih baik pekerjaan cara lama mengemas data untuk semua jenis data, tetapi ini perlu bekerja dengan LLM.

Kompresi Prediksi Token Berikutnya dibuat untuk data dari LLM, dengan tingkat pengemasan 20 kali lebih baik daripada Gzip yang 3 kali lipat. Hal ini menjadikannya pilihan utama untuk tempat-tempat seperti prompts.ai, di mana pemotongan biaya token sangat berarti.

Zstandard menemukan jalan tengah dengan menjadi 3 hingga 5 kali lebih cepat dari zlib dan masih mengemas data dengan ketat. Kecepatan membongkarnya hampir dua kali lipat dan tidak sulit untuk ditambahkan, menjadikannya pilihan yang baik bagi perusahaan yang menginginkan perbaikan yang mudah.

Memilih cara yang tepat untuk mengemas data benar-benar dapat mengubah cara kerja bisnis. Misalnya, CAST mengatakan pengemasan cerdas dalam penyimpanan dapat menghemat penggunaan listrik hingga 40%. Selain itu, Google menemukan bahwa pengepakan Brotli menggunakan data 20% lebih sedikit, sehingga menghemat daya saat memindahkan data. Hal ini menunjukkan besarnya peran pengepakan yang ketat dalam membuat LLM bekerja lebih baik.

Menghadirkan Kompresi ke Alat AI

Memasukkan teknologi kompresi ke dalam alat AI lebih dari sekadar peningkatan - teknologi ini membuat alur kerja lebih baik dan menghemat biaya. Dengan menambahkan kompresi ke alat-alat ini, Anda dapat membuatnya berjalan lebih baik tanpa mengganggu cara kerja atau penggunaannya.

Cara Terbaik untuk Menggabungkan Kompresi ke dalam Alur Kerja

Pengaturan waktu sangat penting ketika Anda menambahkan kompresi lossless ke pekerjaan AI. Untuk menjaga kecepatan dan menjaga manfaat penyimpanan, kompres data saat tidak ada hal lain yang terjadi, bukan saat sistem sedang sibuk mengerjakan sesuatu. Untuk pekerjaan yang perlu dilakukan pada waktu yang sama, kompres data yang disimpan secara diam-diam di belakang sehingga tidak ada yang tertahan. Jenis data yang berbeda mungkin memerlukan caranya sendiri - misalnya, teks berfungsi baik dengan kompresi tebakan kata berikutnya, namun jenis lainnya mungkin memerlukan caranya sendiri. Alat seperti ZipNN pandai menangani keluaran model teks besar dengan menggunakan pengkodean entropi untuk menghilangkan tambahan.

Melacak Token dan Menghapus Biaya

It's key to keep an eye on how many tokens are used. AI models can cost between $10 and $20 for every million tokens, so even a little more efficiency can mean big savings. To manage costs well, you need to know the difference between input tokens and made tokens as this clarity helps find where you’re saving with compression. For example, cutting the number of stored tokens by 22.42% can mean big savings each month. With systems processing billions of tokens every month, tools that guess how many tokens are used give a clear picture of use and cost impacts. Tools like prompts.ai, which you pay for as you use, get a lot from real-time token watching along with compression stats, giving a clear way to watch and make the most of these tweaks. These ways not only keep costs down but also help with bigger and better changes in operations.

Keuntungan Bisnis dari Menambahkan Kompresi

Keuntungan menambahkan kompresi tidak hanya membuat segalanya bekerja lebih baik - namun juga mencapai keuntungan. Alat seperti LMCompress dan ZipNN menunjukkan bagaimana kompresi cerdas dapat menjadikan penyimpanan lebih baik dan membantu bisnis berkembang. Peneliti IBM Moshik Hershcovitch menunjukkan manfaat dari metode ini:

__XLATE_39__

"Metode kami dapat menurunkan biaya penyimpanan dan transfer AI tanpa kerugian apa pun. Saat Anda mengekstrak file, file akan kembali ke keadaan semula. Anda tidak akan kehilangan apa pun."

Berikut kasus sederhananya: Pada bulan Februari 2025, Hugging Face mulai menggunakan cara baru dalam mengemas data dari metode yang disebut ZipNN di sistem mereka, dan mereka mengurangi biaya penyimpanan sebesar 20%. ZipNN juga membuat file model umum berukuran sepertiga lebih kecil dan dapat mengemas dan membongkar data 1,5 kali lebih cepat. Misalnya, model Llama 3.1 bekerja 62% lebih cepat dibandingkan dengan metode lama, zstd. Ketika digunakan pada sistem besar yang bekerja dengan lebih dari satu juta model setiap hari, ZipNN dapat menghemat penyimpanan dan data dalam jumlah besar, serta menghemat biaya. Tidak hanya menghemat uang, menggunakan cara pengepakan cerdas ini juga berarti menggunakan energi hingga 40% lebih sedikit, sehingga membantu uang dan bumi. Untuk situs seperti prompts.ai, perubahan ini memungkinkan penanganan pekerjaan yang lebih besar dan hal-hal yang lebih kompleks tanpa mengkhawatirkan ruang atau biaya.

Ringkasan dan Poin Utama

Cara baru untuk mengemas hasil model AI yang besar tanpa kehilangan adalah kunci dalam penanganan data besar yang dibuat oleh AI. Metode baru yang dipimpin AI tidak hanya berfungsi lebih baik tetapi juga menjaga keamanan informasi sebenarnya.

Berikut adalah keuntungan utama dan dampaknya:

Better Algorithms: LMCompress shines by cutting down data size by 50% versus old kinds like JPEG-XL for photos, FLAC for sounds, and H.264 for videos. For words, it pushes down to nearly a third of what zpaq can do. Even more, LLM-based guess methods reach more than 20× lower data sizes, beating the 3× cut by old tools like Gzip.

"Our results demonstrate that the better a model understands the data, the more effectively it can compress it, suggesting a deep connection between understanding and compression." – Authors of LMCompress

"Our results demonstrate that the better a model understands the data, the more effectively it can compress it, suggesting a deep connection between understanding and compression." – Authors of LMCompress

Keuntungan Pekerjaan: IACC (Smart AI Context Compression) memberikan manfaat yang jelas. Ini memotong biaya terkait konteks sebesar 50%, menurunkan penggunaan memori sebesar 5%, dan membuat pemrosesan 2,2 kali lebih cepat. Keuntungan ini sangat berarti bagi sistem yang menangani banyak token setiap hari.
Penggunaan dalam Kehidupan Nyata: Cara-cara baru untuk mengemas data menunjukkan manfaat nyata dalam penggunaan nyata. Mereka mengurangi jumlah data ruangan yang dibutuhkan dan meningkatkan kecepatan pergerakan data. Misalnya, menggunakan teknologi ini sepenuhnya dapat menghemat sejumlah besar penyimpanan dan data yang dikirim melalui jaringan.

Langkah-langkah ini membantu membuat AI bekerja lebih besar dan lebih hemat biaya. Dengan mengemas data dengan baik, perusahaan dapat menangani lebih banyak data dan tidak mencapai batas tertentu, mempermudah pencarian data, dan menggunakan apa yang mereka miliki dengan lebih baik. Cara kerja kompresi lossless menjaga data tetap aman dan membuat pemuatan dan pemindahan data menjadi lebih lancar dan cepat.

Ketika AI semakin besar dan campur aduk, menggunakan cara pengemasan data terbaik ini adalah suatu keharusan - ini adalah kunci untuk mengimbanginya. Perusahaan yang menggunakan trik ini dapat mengembangkan pekerjaan AI mereka dengan lebih baik, membelanjakan lebih sedikit untuk kebutuhan mereka, dan memberi pengguna pekerjaan yang lebih cepat dan lebih pasti. Platform seperti prompts.ai sudah menggunakan cara ini untuk melacak token dengan lebih baik dan menghemat biaya dengan kompresi cerdas.

FAQ

Bagaimana perusahaan dapat memanfaatkan metode kompresi lossless dalam tugas AI agar dapat bekerja lebih baik dan mengeluarkan biaya lebih sedikit?

Perusahaan dapat meningkatkan tugas AI mereka dengan menggunakan metode kompresi lossless yang membuat data lebih kecil namun tetap menjaga kualitas penuhnya. Alat seperti ZipNN dan LMCompress cukup bagus untuk ini, memberikan keuntungan seperti lebih sedikit uang yang dihabiskan untuk penyimpanan dan pemindahan data lebih cepat. Solusi ini membantu mengelola kumpulan data besar dengan baik sambil tetap menjaga semua detailnya.

Untuk memulai, perusahaan dapat menambahkan cara kompresi ini ke dalam pengaturan data atau desain AI mereka yang sedang berlangsung. Hal ini meningkatkan kecepatan dan menghemat biaya dengan menghemat ruang penyimpanan dan daya yang digunakan dalam proses. Jika digabungkan dengan langkah-langkah seperti memotong biaya cloud, metode ini dapat menghasilkan penghematan tunai dan meningkatkan kinerja secara keseluruhan.