Berdasarkan apa algoritma kompresi sinyal audio? Metode kompresi audio digital. Kompresi Audio

Format kompresi audio MP3

MPEG-1 Audio Layer 3 Ekstensi file: .mp3 Jenis MIME: audio/mpeg Jenis format: Audio

MP3 (lebih tepatnya, Bahasa Inggris MPEG-1/2/2.5 Layer 3 (tetapi bukan MPEG-3) - format pengkodean trek audio MPEG ketiga) adalah format file berlisensi untuk menyimpan informasi audio.

Pada saat ini MP3 adalah format pengkodean audio digital lossy yang paling terkenal dan populer. Ini banyak digunakan dalam jaringan berbagi file untuk evaluasi musik. Formatnya dapat dimainkan di hampir semua perangkat populer sistem operasi, di hampir semua pemutar audio portabel, dan juga didukung oleh semua model modern pusat musik dan pemutar DVD.

Format MP3 menggunakan algoritma kompresi lossy yang dirancang untuk secara signifikan mengurangi ukuran data yang diperlukan untuk memutar rekaman dan memberikan kualitas pemutaran yang sangat mendekati aslinya (menurut sebagian besar pendengar), meskipun audiophiles melaporkan perbedaan yang mencolok. Saat membuat MP3 dengan bitrate rata-rata 128 kbps, ukuran file yang dihasilkan kira-kira 1/10 dari berkas asli dari CD audio. File MP3 dapat dibuat dengan bitrate tinggi atau rendah, yang mempengaruhi kualitas file yang dihasilkan. Prinsip kompresi adalah mengurangi presisi bagian tertentu dari aliran audio, sehingga hampir tidak terdengar oleh telinga kebanyakan orang. Metode ini disebut pengkodean persepsi. Dalam hal ini, pada tahap pertama, diagram suara dibuat dalam bentuk rangkaian periode waktu yang singkat, kemudian informasi yang tidak dapat dilihat oleh telinga manusia dikeluarkan darinya, dan informasi yang tersisa disimpan dalam wadah yang kompak. membentuk. Pendekatan ini mirip dengan metode kompresi yang digunakan saat mengompresi gambar ke format JPEG.

MP3 dikembangkan oleh kelompok kerja Fraunhofer Institute (Jerman: Fraunhofer-Institut f?r Integrierte Schaltungen) yang dipimpin oleh Karlheinz Brandenburg dan Universitas Erlangen-Nuremberg bekerja sama dengan AT&T Bell Labs dan Thomson (Johnson, Stoll, Deery, dll .).

Dasar pengembangan MP3 adalah codec eksperimental ASPEC (Adaptive Spectral Perceptual Entropy Coding). Encoder MP3 pertama adalah program L3Enc, dirilis pada musim panas 1994. Satu tahun kemudian, perangkat lunak pemutar MP3 pertama muncul - Winplay3.

Saat mengembangkan algoritme, pengujian dilakukan pada komposisi populer yang sangat spesifik. Lagu utamanya adalah "Tom's Diner" karya Suzanne Vega, sehingga muncul lelucon bahwa "MP3 diciptakan semata-mata demi kenyamanan mendengarkan lagu favorit Brandenburg", dan Vega mulai disebut "ibu MP3".


Deskripsi Format

Dalam format ini, suara dikodekan secara frekuensi (tanpa bagian yang terpisah); Ada dukungan untuk stereo, dan dalam dua format (detail di bawah). MP3 adalah format kompresi lossy, yaitu bagian dari informasi audio yang (menurut model psikoakustik) tidak dapat dilihat atau dirasakan oleh telinga manusia oleh semua orang secara permanen dihapus dari rekaman. Tingkat kompresinya bisa bermacam-macam, termasuk dalam satu file. Kisaran nilai bitrate yang mungkin adalah 8 - 320 kbit/s. Sebagai perbandingan, aliran data dari CD format Audio-CD biasa adalah 1411,2 kbps pada frekuensi sampling 44100 Hz.

MP3 dan "Kualitas Audio-CD"

Di masa lalu, rekaman 128 kbps diyakini secara luas cocok untuk musik yang ingin didengarkan oleh kebanyakan orang, memberikan suara berkualitas Audio-CD. Kenyataannya, semuanya jauh lebih rumit. Pertama, kualitas MP3 yang dihasilkan tidak hanya bergantung pada bitrate, tetapi juga pada program pengkodean (codec) (standar tidak menetapkan algoritma pengkodean, hanya menjelaskan metode presentasi). Kedua, selain mode CBR (Constant Bitrate) yang berlaku (di mana, sederhananya, setiap detik audio dikodekan dengan jumlah bit yang sama), ada mode ABR (Average Bitrate) dan VBR (Variable Bitrate). Ketiga, batas 128 kbit/s adalah sewenang-wenang, karena “diciptakan” pada era pembentukan format, ketika kualitas pemutaran kartu suara dan speaker komputer biasanya lebih rendah daripada sekarang.

Saat ini, file MP3 yang paling umum memiliki bitrate 192 kbit/s, yang secara tidak langsung menunjukkan bahwa mayoritas menganggap bitrate ini cukup. "Kualitas" yang dirasakan sebenarnya bergantung pada file audio sumber, pendengar, dan sistem audionya. Beberapa pecinta musik lebih suka mengompresi musik dengan “kualitas maksimum” - 320 kbps, atau bahkan beralih ke format lain, seperti FLAC, yang bitrate rata-ratanya ~1000 kbps. Ada juga pendapat di kalangan pecinta musik bahwa beberapa sampel (fragmen rekaman audio) tidak dapat dikompresi dengan baik karena ada kerugian: dengan kecepatan bit apa pun, tidak sulit untuk membedakan audio terkompresi dari aslinya.

Mode dan opsi pengkodean

Ada tiga versi format MP3 untuk kebutuhan berbeda: MPEG-1, MPEG-2 dan MPEG-2.5. Mereka berbeda dalam kemungkinan rentang bitrate dan frekuensi pengambilan sampel:

* 32-320 kbps pada kecepatan pengambilan sampel 32000 Hz, 44100 Hz, dan 48000 Hz untuk MPEG-1 Layer 3;

* 16-160 kbit/s pada kecepatan pengambilan sampel 16000 Hz, 22050 Hz, dan 24000 Hz untuk MPEG-2 Layer 3;

* 8-160 kbps pada sampling rate 8000 Hz dan 11025 Hz untuk MPEG-2.5 Layer 3.

Mode kontrol pengkodean saluran audio

Karena format MP3 mendukung pengkodean dua saluran (stereo), ada 4 mode:

* Stereo adalah pengkodean dua saluran di mana saluran sinyal stereo asli dikodekan secara independen satu sama lain, namun distribusi bit antar saluran dalam total bitrate dapat bervariasi tergantung pada kompleksitas sinyal di setiap saluran.

* Mono - pengkodean saluran tunggal. Jika Anda mengkodekan materi dua saluran dengan cara ini, perbedaan antara saluran akan terhapus sepenuhnya, karena kedua saluran dicampur menjadi satu, dikodekan dan diputar ulang pada kedua saluran sistem stereo. Satu-satunya keuntungan dari mode ini mungkin adalah kualitas output dibandingkan dengan mode Stereo pada bitrate yang sama, karena satu saluran memiliki bit dua kali lebih banyak daripada mode Stereo.

* Saluran ganda - dua saluran independen, misalnya soundtrack pada bahasa yang berbeda. Bitrate dibagi menjadi dua saluran. Misalnya, jika bitrate yang ditentukan adalah 192 kbit/s, maka untuk setiap saluran hanya 96 kbit/s.

* Joint Stereo adalah metode pengkodean dua saluran yang optimal. Misalnya, dalam salah satu mode Stereo Terintegrasi, saluran kiri dan kanan diubah menjadi jumlah (Kiri+R) dan selisihnya (Kiri-Kanan). Untuk sebagian besar file audio, saturasi saluran selisih (Kiri-Kanan) jauh lebih kecil dibandingkan saluran jumlah (Kiri+R). Di sini juga, persepsi suara oleh seseorang berperan, yang perbedaan arah suara kurang terlihat. Oleh karena itu, Unified Stereo memungkinkan Anda menghemat bitrate saluran (Kiri-Kanan) atau meningkatkan kualitas pada bitrate yang sama, karena jumlah saluran (L+R) mengalokasikan sebagian besar bitrate. Ada pendapat bahwa modus ini tidak cocok untuk materi audio stereo, yang secara subyektif mutlak berbagai bahan, karena mengaburkan perbedaan antar saluran. Tapi codec modern digunakan berbagai skema dalam bingkai berbeda (termasuk stereo murni) tergantung pada sinyal sumber.

CBR adalah singkatan Konstanta Kecepatan Bit, yaitu bitrate konstan yang ditetapkan oleh pengguna dan tidak berubah saat menyandikan karya. Jadi, setiap detik pekerjaan berhubungan dengan jumlah bit data yang dikodekan (bahkan saat pengkodean diam). CBR dapat berguna untuk aliran media saluran terbatas; dalam hal ini, pengkodean menggunakan semua kemampuan saluran data. Untuk penyimpanan, mode pengkodean ini tidak optimal, karena tidak dapat mengalokasikan cukup ruang untuk bagian kompleks dari karya asli, sekaligus membuang ruang pada bagian sederhana. Peningkatan bitrate (di atas 256 kbps) dapat menyelesaikannya masalah ini, menyoroti lebih banyak ruang untuk data, tetapi juga meningkatkan ukuran file secara proporsional.

VBR adalah singkatan dari Variable Bit Rate, yaitu Variable Bitrate atau Variable Bitrate, yang diubah secara dinamis oleh program encoder selama pengkodean, tergantung pada saturasi materi audio yang dikodekan dan diinstal pengguna kualitas pengkodean (misalnya, keheningan dikodekan dengan bitrate minimum). Metode pengkodean MP3 ini adalah yang paling canggih dan masih terus dikembangkan dan ditingkatkan, karena materi audio dengan saturasi yang bervariasi dapat dikodekan dengan kualitas tertentu, yang biasanya lebih tinggi dari nilai rata-rata yang ditetapkan dalam metode CBR. Ditambah lagi, ukuran file berkurang karena adanya fragmen yang tidak memerlukan bitrate tinggi. dikurangi metode ini pengkodean adalah kesulitan dalam memprediksi ukuran file keluaran. Namun kelemahan pengkodean VBR ini tidak signifikan dibandingkan kelebihannya. Kerugian lainnya adalah VBR menganggap fragmen yang lebih senyap sebagai informasi audio yang “tidak penting”, sehingga ternyata jika Anda mendengarkan dengan sangat keras, kualitas fragmen tersebut akan buruk, sementara CBR merender fragmen yang senyap dan keras dengan bitrate yang sama. Format VBR terus meningkat, berkat peningkatan terus-menerus dari model matematika codec, khususnya setelah rilis versi terbaru dari codec mp3 gratis lumpuh (versi 3.98), pengkodean bitrate variabel, menurut pengembangnya sendiri, adalah secara kualitatif lebih baik dari CBR dan terutama ABR.

ABR adalah singkatan dari Average Bit Rate, yaitu Rata-rata Bitrate, yang merupakan gabungan dari VBR dan CBR: bitrate dalam kbit/s diatur oleh pengguna, dan program memvariasikannya, terus-menerus menyesuaikannya dengan bitrate yang diberikan. Oleh karena itu, encoder akan berhati-hati dalam menggunakan nilai bitrate maksimum dan minimum, karena ada risiko tidak sesuai dengan bitrate yang ditentukan pengguna. Ini jelas merupakan kelemahan metode ini, karena mempengaruhi kualitas file keluaran, yang akan sedikit lebih baik dibandingkan saat menggunakan CBR, namun jauh lebih buruk dibandingkan saat menggunakan VBR. Di sisi lain, metode ini memberikan fleksibilitas paling tinggi dalam mengatur bitrate (dapat berupa angka antara 8 dan 320, dibandingkan kelipatan 16 dalam metode CBR) dan menghitung ukuran file keluaran.

Menandai dalam batas file mp3 (di awal dan/atau di akhir). Mereka dapat berisi informasi tentang penulis, album, tahun rilis, dan informasi lain tentang lagu tersebut. Tag versi selanjutnya dapat menyimpan sampul album dan lirik lagu. Ada berbagai versi tag.

Kekurangan

Kerugian teknis. MP3 adalah pemimpin dalam hal popularitas, tetapi bukan yang terbaik dalam hal parameter teknis. Ada format yang memungkinkan Anda mencapainya kualitas yang lebih baik dengan ukuran file yang sama, seperti Vorbis, AAC. MP3 juga tidak memiliki mode pengkodean lossless, yang diinginkan penggunaan profesional. Pada saat yang sama, MP3 cukup cocok (dari sudut pandang profesional) untuk mendistribusikan komposisi demo atau cara lain untuk "mendistribusikan" musik Anda karena pemainnya ada di mana-mana.

Pembatasan hukum. Untuk penggunaan gratis format ada batasan paten. Alcatel-Lucent memiliki hak atas MP3 dan menerima royalti dari mereka yang menggunakan format tersebut - produsen pemutar dan telepon seluler. Oleh karena itu, kemurnian lisensi format tersebut dipertanyakan. Secara khusus, Alcatel-Lucent mengajukan klaim terhadap Microsoft karena memiliki dukungan MP3 yang terpasang di Windows. Namun, paten atas teknologi tersebut akan habis masa berlakunya pada tahun 2010, setelah itu perusahaan mana pun dapat menggunakannya secara bebas.

Format - Format kompresi audio

FLAC (Free Lossless Audio Codec) adalah codec gratis yang populer untuk kompresi audio. Tidak seperti codec lossy Ogg Vorbis, MP3, FLAC tidak menghapus informasi apa pun dari aliran audio dan cocok untuk mendengarkan musik pada peralatan reproduksi suara berkualitas tinggi dan untuk mengarsipkan koleksi audio. Saat ini, format FLAC didukung oleh banyak aplikasi audio.

Aliran audio

Bagian utama dari aliran adalah:

* String empat byte "fLaC"

* Blok metadata STREAMINFO

* Blok metadata opsional lainnya

* Bingkai audio

Empat byte pertama mengidentifikasi aliran FLAC. Metadata berikut berisi informasi tentang streaming, diikuti dengan data audio terkompresi.

Metadata

FLAC mendefinisikan beberapa jenis blok metadata (semuanya tercantum pada halaman format). Blok metadata dapat berukuran berapa pun, dan blok baru dapat ditambahkan dengan mudah. Dekoder memiliki kemampuan untuk melewati blok metadata yang tidak diketahuinya. Hanya blok STREAMINFO yang diperlukan. Ini berisi laju pengambilan sampel, jumlah saluran, dll., serta data yang memungkinkan dekoder mengonfigurasi buffer. Tanda tangan MD5 dari data audio yang tidak terkompresi juga direkam di sini. Ini berguna untuk memeriksa keseluruhan aliran setelah dikirimkan.

Blok lain dirancang untuk memesan ruang, menyimpan tabel pencarian, tag, daftar markup disk audio, dan data khusus aplikasi. Opsi untuk menambahkan blok PADDING atau titik pencarian diberikan di bawah ini. FLAC tidak memerlukan titik pencarian, tetapi dapat meningkatkan kecepatan akses secara signifikan dan juga dapat digunakan untuk memberi tanda pada editor audio.

data audio

Metadata diikuti oleh data audio terkompresi. Metadata dan data audio tidak disisipkan. Seperti kebanyakan codec, FLAC membagi aliran input menjadi blok-blok dan mengkodekannya secara independen satu sama lain. Blok tersebut dikemas ke dalam bingkai dan ditambahkan ke aliran. Encoder dasar menggunakan blok berukuran konstan untuk keseluruhan aliran, tetapi formatnya memungkinkan blok dengan panjang yang bervariasi di seluruh aliran.

Pemblokiran

Ukuran blok adalah parameter yang sangat penting untuk pengkodean. Jika sangat kecil, akan ada terlalu banyak frame header di aliran, yang akan mengurangi tingkat kompresi. Jika ukurannya besar, maka encoder tidak akan dapat memilih model kompresi yang efektif. Memahami proses pemodelan akan membantu Anda meningkatkan tingkat kompresi untuk jenis data masukan tertentu. Biasanya saat menggunakan prediksi linier pada data audio 44,1 kHz ukuran optimal bloknya terletak pada kisaran 2-6 ribu sampel.

Dekorelasi antar saluran

Jika data audio stereo dimasukkan, mungkin melalui tahap dekorelasi antar saluran. Saluran kanan dan kiri diubah menjadi rata-rata dan selisihnya sesuai dengan rumus: rata-rata = (kiri + kanan)/2, selisih = kiri - kanan. Berbeda dengan joint stereo, proses ini tidak menimbulkan kerugian. Untuk data CD audio, hal ini biasanya menghasilkan tingkat kompresi yang jauh lebih tinggi.

Pemodelan

Pada tahap selanjutnya, encoder mencoba memperkirakan sinyal dengan fungsi sedemikian rupa sehingga hasil yang diperoleh setelah mengurangkannya dari aslinya (disebut selisih, sisa, kesalahan) dapat dikodekan dengan jumlah bit minimum. Parameter fungsi juga harus ditulis agar tidak memakan banyak ruang. FLAC menggunakan dua metode untuk menghasilkan perkiraan:

* memasang polinomial sederhana ke sinyal

* pengkodean umum dengan prediktor linier (LPC).

Pertama, prediksi polinomial konstan (-l 0) secara signifikan lebih cepat tetapi kurang akurat dibandingkan LPC. Semakin tinggi urutan LPC, modelnya akan semakin lambat namun semakin baik. Namun, seiring bertambahnya pesanan, keuntungan yang didapat akan semakin berkurang signifikan. Pada titik tertentu (biasanya sekitar jam 9), prosedur encoder yang menentukan pesanan terbaik, mulai membuat kesalahan dan ukuran frame yang dihasilkan bertambah. Untuk mengatasinya, Anda dapat menggunakan brute force, yang akan menyebabkan peningkatan waktu pengkodean yang signifikan.

Kedua, parameter prediktor konstan dapat digambarkan dengan tiga bit, sedangkan parameter model LPC bergantung pada jumlah bit per sampel dan urutan LPC. Artinya, ukuran frame header bergantung pada metode dan urutan yang dipilih dan dapat mempengaruhi ukuran blok optimal.

Pengkodean sisa

Setelah model dipasang, encoder mengurangi perkiraan dari aslinya untuk menghasilkan sinyal sisa (salah), yang kemudian dikodekan secara lossless. Hal ini memanfaatkan fakta bahwa sinyal perbedaan biasanya memiliki distribusi Laplace dan terdapat sekumpulan kode Huffman khusus yang disebut kode Rice yang memungkinkan sinyal-sinyal ini dikodekan secara efisien dan cepat tanpa menggunakan kamus.

Pengkodean beras terdiri dari menemukan satu parameter yang cocok dengan distribusi sinyal dan kemudian menggunakannya untuk membuat kode. Ketika distribusinya berubah, hal yang sama juga terjadi parameter optimal, jadi ada metode yang memungkinkan Anda menghitung ulang sesuai kebutuhan. Sisanya dapat dibagi menjadi beberapa konteks atau bagian, yang masing-masing memiliki parameter Rice yang berbeda. FLAC memungkinkan Anda menentukan bagaimana partisi harus dilakukan. Sisanya dapat dibagi menjadi 2n bagian.

Pembingkaian

Bingkai audio diawali dengan header, yang dimulai dengan kode sinkronisasi dan berisi informasi minimum yang diperlukan dekoder untuk memutar streaming. Blok atau nomor sampel dan delapan bit checksum judul itu sendiri. Kode sinkronisasi, CRC header bingkai, dan nomor blok/sampel memungkinkan sinkronisasi ulang dan pencarian bahkan tanpa adanya titik pencarian. Di akhir frame, checksum enam belas bitnya ditulis. Jika dekoder yang mendasarinya mendeteksi kesalahan, blok keheningan akan dihasilkan.

Untuk mendukung tipe metadata dasar, dekoder dasar dapat melewati tag ID3v1 dan ID3v2 sehingga dapat ditambahkan secara bebas. Tag ID3v2 harus muncul sebelum penanda "fLaC", dan tag ID3v1 harus muncul di akhir file.

Ada modifikasi pada encoder FLAC: Encoder FLAC yang ditingkatkan dan Flake.

Pada tanggal 29 Januari 2003, Xiphophorus (sekarang disebut Xiph.Org Foundation) mengumumkan penyertaannya format FLAC ke dalam lini produknya, seperti Ogg Vorbis

Siapapun yang pernah menggunakan komputer setidaknya pasti familiar dengan kata “archiver”. Bagi yang belum terbiasa, izinkan kami menjelaskan bahwa pengarsip adalah program yang dirancang untuk mengompres/mendekompresi file. Di antara yang paling terkenal adalah WinZip dan WinRar. Mereka memampatkan file dalam satu kasus sebesar beberapa persen, di kasus lain - beberapa kali. Itu semua tergantung pada jenis file. File yang dapat dieksekusi berkurang dalam jumlah yang tidak signifikan, tetapi file teks kehilangan “bobotnya” beberapa kali sekaligus. Namun, metode kompresi seperti itu tidak cocok untuk file audio karena beberapa alasan. Anda dapat mendengarkan file seperti itu hanya setelah membongkarnya. Tapi kemudian inti dari kompresi hilang. Dan masuk pemain rumah tangga ini menjadi mustahil sama sekali. Benar, masih ada kemungkinan untuk digunakan RAM, tapi harganya sangat mahal sehingga “permainan ini tidak sebanding dengan harganya.” Alasan kedua terletak pada kenyataan bahwa bahkan setelah mengompresi file audio, tidak akan ada banyak ruang kosong yang diperoleh. Jika anda mengambil file WAV yang berukuran 44 MB, maka setelah di Packing menggunakan Pengarsip WinZip file yang dihasilkan akan berukuran 34 MB. Seperti yang Anda perhatikan, “bonus” 10 MB tidak mengesankan. Apalagi dengan permasalahan bongkar muat yang belum kunjung usai.
Oleh karena itu, metode kompresi yang sedikit berbeda digunakan untuk file audio, salah satunya (mungkin yang paling umum) adalah kompresi Loss. Prinsipnya didasarkan pada kekhasan persepsi manusia terhadap lingkungan tertentu (suara, gambar). Hal ini dijelaskan dengan sangat jelas pada contoh fotografi digital. Semua orang tahu bahwa itu terdiri dari banyak poin. Setiap titik memiliki warna spesifiknya masing-masing. ^0 secara fisiologis mata manusia tidak mampu melihat semua warna ini, menunjukkan setiap titik satu per satu (bahkan ketika diperbesar beberapa kali), Anda tidak akan melihat banyak warna sama sekali. Buta warna tidak ada hubungannya dengan itu. Penglihatan normal diambil orang yang sehat. Jadi, jika Anda menghapus semua titik tak kasat mata ini dari foto, jumlahnya akan berkurang secara signifikan. Oleh karena itu, seperti yang Anda pahami, ukuran foto juga akan berkurang. File video juga dikodekan berdasarkan prinsip ini.
Sama halnya dengan pendengaran kita. Kami tidak dapat mendengar semua suara, namun direkam dalam sebuah file. Ternyata mereka membuang-buang ruang disk. Setelah menghapus titik-titik "buta" ini, file akan "menurunkan berat badan" secara signifikan. Misalnya, jika suatu suara secara bersamaan mengandung sinyal yang sangat kuat (raungan senjata) dan segera menemukan sinyal yang lebih pelan (tembakan pistol dengan peredam), maka suara tersebut tetap tidak terdengar, dan dapat dengan aman. dihapus tanpa mengubah gambaran keseluruhan.
Juga segera setelahnya suara keras Telinga manusia secara tajam mengurangi kepekaannya terhadap suara pelan. Misalnya, setiap orang pernah mengalami telinga berdenging setelah petasan atau sejenisnya meledak di bawah telinga. Lagipula, kamu bahkan tidak mendengar apa yang mereka katakan padamu? Kekebalan kebanyakan orang terhadap suara dalam rentang frekuensi tertentu juga diperhitungkan.
Biasanya seseorang mendengar pada rentang 20 hingga 2000 Hz. Semua ini berlaku untuk pengkodean adaptif. Berkat itu, pengurangan ukuran file hingga sepuluh kali lipat dapat dicapai.

3.2. Mp3 - teknologi kompresi audio

Nama MP3 sendiri muncul dari singkatan MPEG-1 Layer3.

MPEG (Motion Pictures Expert Group) adalah kelompok di bawah Organisasi Internasional untuk Standardisasi dan Komite Listrik Internasional yang mengembangkan standar untuk kompresi digital informasi video dan audio. Mengapa mengompresi informasi ini? Pertama, untuk menghemat sumber daya ekonomi dan material saat mengirimkan informasi jarak jauh melalui saluran komunikasi (termasuk satelit), dan kedua, untuk menyimpannya.

Standar MPEG-1 mendapat persetujuan resmi pada tahun 1992, namun hingga saat ini penemuan tersebut belum diminati sepenuhnya. Hanya dengan penampilan saja sudah cukup prosesor yang kuat Pentium (dengan frekuensi jam dari 300 MHz ke atas, yang secara drastis dapat mengurangi waktu untuk pengkodean/dekode sinyal) dan modem berkecepatan tinggi, standar ini telah mendapat pengakuan luas.

Standar MPEG-1 adalah format streaming dan terdiri dari audio, video, dan bagian sistem. Bagian terakhir berisi informasi tentang menggabungkan dan menyinkronkan dua yang pertama.

Transmisi data terjadi dalam aliran blok data terpisah yang independen - bingkai, diperoleh dengan "memotong" menjadi beberapa bagian dengan durasi yang sama, yang dikodekan secara independen satu sama lain.

Saat ini ada lima jenis (nomor) standar MPEG:

1) MPEG1 - kompresi audio dan video dengan kecepatan keseluruhan hingga 150 KB/detik (audio 38, 44,1, 48 kilohertz);

2) MPEG2 - kompresi audio dan video dengan kecepatan total hingga 300 Kb/detik (audio 38, 44.1, 48 kilohertz), kompresi audio IDENTIS dengan MPEG1;

3) MPEG2.5 - kompresi audio dengan resolusi yang dikurangi (audio 16.22.05.24 kilohertz). Menarik untuk dicatat bahwa standar MPEG2.5 (juga dikenal sebagai MPEG2 LSF - FREKUENSI SAMPEL RENDAH - frekuensi rendah pemindaian audio) diperkenalkan oleh IIS Fraunhofer (Institut Teknologi Informasi Fraunhofer dari Jerman). Standar ini merupakan perpanjangan dari audio MPEG2 "murni" (yaitu MPEG1!) ke kecepatan pemindaian audio setengah dari kecepatan normal;

4) MPEG3 - MPEG1+MPEG2 multisaluran. Standar ini praktis tidak digunakan;

5) MPEG4 adalah standar bermodel di luar negeri. Fiturnya: dapat menampung hingga 8 saluran audio (yaitu, AC-3 - perpanjangan digital dari sistem surround.

Semakin tinggi tingkat indeks, semakin tinggi kompleksitas dan kinerja algoritma pengkodean; sumber daya sistem.

Di sini, istilah "pengkodean" mengacu pada proses yang memungkinkan Anda memperoleh file dalam format bentuk terkompresi, yang memakan lebih sedikit ruang disk dan, karenanya, ditransmisikan lebih cepat melalui saluran komunikasi. File tersebut tidak dapat digunakan dalam bentuk terkompresi; oleh karena itu, file tersebut harus didekodekan sebelum digunakan. Kompresi file tidak selalu memberikan hasil positif. Hasilnya secara langsung bergantung pada metode kompresi dan isi file itu sendiri.

Prinsip pengkodean sinyal pada MPEG Audio didasarkan pada penggunaan model psikoakustik, yang intinya adalah sebagai berikut.

Ada sejumlah frekuensi audio, yang tidak dapat ditangkap oleh telinga manusia. Beberapa suara ditutupi oleh suara lain, baik dengan amplitudo lebih besar maupun frekuensi yang sama. Jadi misalnya bunyi yang kuat dengan frekuensi 1000 Hz (masking) dikeluarkan, maka bunyi yang lebih lemah dengan frekuensi 1100 Hz (masking) tidak akan terdeteksi oleh telinga manusia karena karakteristik ambang pendengaran. dari telinga manusia. Ambang pendengaran di tepi rentang frekuensi (16-20 Hz dan 16-20 kHz) meningkat secara signifikan karena Pada frekuensi ini, pendengaran memiliki sensitivitas yang jauh lebih rendah dibandingkan dengan wilayah dengan sensitivitas pendengaran terbesar (kisaran 1-5 kHz). Diketahui juga bahwa waktu pemulihan sensitivitas pendengaran setelah sinyal keras adalah sekitar 100 ms, dan waktu tunda untuk persepsi sinyal yang sama adalah sekitar 5 ms.

Dengan demikian, hanya informasi suara yang ditransmisikan yang dapat diterima secara memadai oleh sebagian besar pendengar, dan sayangnya, sisanya hilang.

Seperti disebutkan, semua lapisan memiliki struktur dasar yang sama, di mana encoder menganalisis sinyal asli, menghitung bank filter (32 band) untuk sinyal tersebut, dan menerapkan model psikoakustik. Dengan frekuensi kuantisasi, laju aliran, dan nilai penyembunyian yang telah dipilih sebelumnya, encoder mengkuantisasi dan mengkodekan sinyal.

Karakteristik komparatif metode pengkodean untuk satu saluran pada frekuensi kuantisasi 32 kHz disajikan pada Tabel 2.

Tabel 2.

Metode pengkodean Tingkat baud (kbps) Rasio Kompresi
Lapisan 1 192 1:4
Lapisan 2 128-96 1:6...8
Lapisan 3 64-56 1:10...12

Sebelum pengkodean, sinyal sumber dibagi menjadi beberapa bingkai, yang masing-masing dikodekan secara terpisah dengan parameter berbeda dan ditempatkan di file akhir secara independen satu sama lain. Urutan pemutaran ditentukan oleh urutan frame. Semua informasi tentang bingkai terdapat di headernya, dan informasi tentang bingkai terdapat di header file. Untuk informasi artis, album, judul lagu, genre, dll disediakan header tag ID3/ID2. Sebagian besar pemain yang ada menggunakan judul ini untuk menelusuri informasi ini saat musik diputar.

Di antara bingkai mungkin terdapat informasi sewenang-wenang, misalnya, hak cipta, yang terletak di lapisan rata di seluruh file. Syarat utama frame berurutan adalah tidak ada kecocokan dengan tanda awal frame.

Frekuensi frame disebut bitrate (BIT RATE - bit rate, semakin tinggi, semakin dekat hasil akhirnya dengan aslinya).

Setiap bitrate memiliki area penerapannya masing-masing. Untuk membuat salinan berkualitas tinggi yang sesuai dengan kualitas aslinya, hanya digunakan kecepatan bit tinggi sekitar 256 kbit/s. Dengan bitrate 128 kbit/s, kualitas produk akhir tampak cukup normal, namun banyak orang sudah dapat melihat perbedaan antara salinan dan aslinya. Internet paling sering berisi file MP3 yang dikodekan dengan bitrate 128 kbit/s. Namun untuk membuat salinan yang benar-benar berkualitas tinggi, Anda perlu menggunakan kecepatan pengkodean 320 kbps, meskipun file akhir hanya 4,3 kali lebih kecil dibandingkan dengan 10,8 kali pada 128 kbps dan 5,4 kali pada 256 kbps. Oleh karena itu, Anda perlu memilih sendiri bitratenya, berdasarkan kebutuhan Anda.

Setelah penandaan bingkai, sinyal asli dibagi menjadi komponen-komponen yang mewakili individu rentang frekuensi, secara total memberikan sinyal yang diproses. Untuk setiap rentang tersebut, model psikoakustiknya sendiri dan bagian bingkai yang “keluar” dari proses pengkodean ditentukan. Untuk sisa data ditentukan maksimumnya frekuensi yang diizinkan kuantisasi, yang harus memastikan kerugian di bawah efek penyembunyian.

Setelah memproses semua frame, aliran akhir dihasilkan, yang juga dikodekan menggunakan metode Huffman. Algoritme ini juga digunakan dalam pengarsipan ARJ, tetapi dengan tabel Huffman yang dinamis dan terus berubah, yang memerlukan dua lintasan data; dengan tabel Layer 3 tetap, kompresi terjadi dalam satu lintasan. Metode ini memungkinkan Anda untuk “mengompresi” hingga 20 persen dari total volume. Hasilnya adalah aliran akhir data audio yang disandikan.


Bersamaku" dengan melodi Glinka yang sederhana dan tanpa seni, terdengar dari Griboedov, dan solusi dramatis yang lebih kompleks dalam romansa - puisi oriental Rachmaninov, penuh dengan melankolis dan kesepian yang indah. Musikal Pushkinian abad ke-20 juga sangat luas dan menarik. Di antara karya yang paling signifikan adalah balet "Penunggang Kuda Perunggu" oleh Gliere, salah satu tema utamanya benar-benar menjadi "sebuah himne untuk...

Lagu, lelucon, pantun untuk memainkan alat musik; untuk noriolisasi sisi prosodik bicara ketika mengimprovisasi nyanyian bersama melodi dan ritmis. Saat bekerja dengan siswa sekolah dasar dalam pendidikan pemasyarakatan dan pengembangan, hanya sebagian besar saja alat sederhana. Ini adalah alat musik kelompok perkusi yang murni berirama, tanpa nada tertentu...

Kualitas moral dari kepribadian seorang anak meletakkan dasar awal bagi budaya umum manusia masa depan. II. Kondisi pedagogis pelaksanaan kegiatan anak di TK 2.1 Metode pendidikan musik di TK Jenis utama kegiatan musik, yang memainkan peran utama dalam implementasi fungsi kognitif dan komunikatif musik - persepsinya...

Mengerjakan sebuah karya musik, tingkat gangguan emosi dan perilaku. 2. Kekhasan karya musik di panti asuhan untuk anak yatim piatu yang mengalami keterbelakangan mental dan anak-anak yang kehilangan pengasuhan orang tua Pemecahan masalah pendidikan musik Penggunaan berbagai bentuk pengorganisasian kegiatan musik membantu, yang masing-masing memiliki kemampuan tertentu (lihat diagram). ...

1. Teknik kompresi yang jelas dapat diterapkan pada ucapan adalah menghilangkan jeda, ᴛ.ᴇ. daripada menggunakan 44.100 sampel dengan nilai nol untuk merekam setiap detik hening (frekuensi pengambilan sampel 44,1 kHz), durasi jeda hanya ditunjukkan - kompresi lossless.

2. Jika amplitudo bunyi tidak mencapai tingkat maksimal yang dapat dibayangkan bila ukuran tertentu sampel, pengkodean Huffman (Hoffman) harus efektif. Dalam hal ini, sinyal diwakili oleh sampel yang lebih kecil. Ini adalah algoritma kompresi lossless - hanya kasus kompresi khusus.

3. Teknik companding (ekspansi) juga berkontribusi pada teknologi kompresi ucapan. Hal ini didasarkan pada persepsi manusia terhadap tingkat kenyaringan yang berbeda dan terdiri dari penggunaan tingkat kuantisasi non-linier. Jika jarak antara tingkat yang lebih tinggi lebih besar daripada jarak antara tingkat yang rendah, maka suara yang pelan disajikan lebih detail daripada suara yang keras.

4. Teknik kompresi lainnya adalah modulasi kode pulsa diferensial. Skema ini terkait dengan kompresi antar-frame dan didasarkan pada pencatatan perbedaan sampel yang berurutan, bukan nilai absolutnya.

5. Kompresi lossy yang efektif terdiri dari mengidentifikasi data yang tidak penting (ᴛ.ᴇ. tidak mempengaruhi persepsi sinyal) dan membuangnya. Jika sinyal audio didigitalkan secara langsung (di PC), data terkait dengan suara yang tidak terdengar dapat disertakan dalam versi digital. Ini karena sinyal merekam semuanya getaran fisik tekanan udara yang menimbulkan suara, tetapi persepsi suara adalah tanggung jawab otak, yang (bersama dengan telinga) tidak mudah bereaksi terhadap gelombang suara.

Suara sering digunakan sebagai bagian dari produksi video atau animasi. Dalam hal ini, sinkronisasi suara dan gambar diperlukan. Untuk mengatasi masalah ini, digunakan timeline untuk mengatur audio dan video di beberapa aplikasi pengeditan video, seperti Final Cut Pro. Dengan mempelajari sinyalnya, editor dapat menentukan titik kontrol trek suara (awal suku kata atau baris yang diberi tekanan dalam musik), yang dengannya gambar-gambar yang sesuai dibuat.

Ada dua cara untuk menghasilkan gambar bergerak dalam bentuk digital untuk produk multimedia.

Pertama-tama, dengan menggunakan kamera video Anda dapat merekam rangkaian frame gerakan nyata di dunia nyata.

Kedua, Anda dapat membuat semua bingkai secara terpisah, baik menggunakan PC atau dengan merekam gambar diam satu per satu.

Dalam kasus pertama kita akan membuat video, dan yang kedua – animasi.

Urutan video terdiri dari sekumpulan bingkai, yang masing-masing merupakan gambar terpisah.

n Dipercaya bahwa 16 juta warna diperlukan untuk menyampaikan gambar asli secara memadai; oleh karena itu, format penyimpanan gambar berwarna 24-bit digunakan. Jika ukuran gambar adalah 640 piksel (lebar) kali 480 piksel (tinggi) dan kedalaman warna 24 bit, maka setiap frame memerlukan 640x480x3=900 KB.

n Merekam urutan frame dalam bentuk digital memerlukan volume besar dari komputer memori eksternal. Satu detik video NTSC yang tidak terkompresi (Amerika Utara, Jepang) berisi 30 frame. Setiap detik video akan membutuhkan lebih dari 26 MB memori. Dan untuk standar video PAL (Eropa Barat dan Australia, 24 frame), diperlukan memori 21 MB untuk merekam satu detik, dan 1,25 GB untuk satu menit.

n Namun tidak cukup hanya mengingat urutan bingkai; hal ini juga perlu ditampilkan di layar dengan kecepatan yang sesuai. Tidak ada perangkat penyimpanan eksternal yang memiliki kecepatan transfer informasi serupa - sekitar 30 MB/s. Dengan angka seperti itu, merekam (memutar) video pada CD, DVD dan transmisi melalui jaringan menjadi masalah. Perekaman video dimungkinkan untuk studio video dan televisi.

n Untuk mengurangi jumlah data, diperlukan skema kompresi video, serta penggunaan metode lain.

Untuk menampilkan video digital di layar komputer, Anda harus mengurangi jumlah data yang dikirimkan, yang dicapai dengan menggunakan:

n menampilkan gambar thumbnail di jendela kecil

n mengurangi kecepatan bingkai menjadi 10-15 bingkai/dtk

n mengurangi jumlah bit/piksel

Hal ini menyebabkan kualitas gambar menjadi buruk.

Ada berbagai format video: WMA, ASF, RM, SWF, DVC, VOB, tetapi format tersebut jarang digunakan karena memiliki kelemahan serius atau kurang kompatibel dengan alat pembuatan konvensional. aplikasi multimedia(tetapi dapat dikonversi ke format lain menggunakan editor video apa pun).

n Format yang paling umum adalah AVI dan MPEG.

N Audio Video Disisipkan (AVI)– format “asli” untuk WindowsMedia dari Microsoft. Sistem Windows menggunakan codec berpemilik. Saat merekam dalam format ini, ada beberapa berbagai algoritma kompresi (kompresi) gambar video. Diantaranya: Cinepak, Video Indeo, Motion-JPEG (M-JPEG), dll.
Diposting di ref.rf
Tapi hanya M-JPEG yang diakui di antara mereka sebagai

standar internasional untuk kompresi video. Awalnya, kemampuan rangkaian perangkat lunak Video digunakan untuk menangkap dan memutar video untuk Windows, dikembangkan oleh Microsoft, tetapi sekarang pengguna memilikinya peluang terbaik. File AVI tidak boleh lebih besar dari 2 GB. Menyadari hal ini, perusahaan Microsoft mengumumkan pengembangan format baru yang dirancang untuk menggantikan format AVI:

N A.S.F.(Format Jeritan Tingkat Lanjut)

N AAF(Format Penulisan Tingkat Lanjut)

Dukungan untuk format ini dimulai pada tahun 1999. Pada saat yang sama, format AVI lama juga digunakan; ada alat untuk mengonversi format ini.

Format AVI tidak hanya berupa video, tetapi juga suara yang disinkronkan dengannya. Biasanya komponen audio disebut dengan soundtrack atau trek audio. Untuk AVI, ini audio dalam format WAV. Di editor video mana pun Anda dapat memilih soundtrack, simpan sebagai file audio, edit editor suara

N Video Windows Media (WMV)format baru video dari Microsoft, yang menggantikan format AVI. Di markasnya Video Windows Codec, dikembangkan berdasarkan standar MPEG-4.

N Film Waktu Cepat (MOV)– format paling umum untuk merekam dan memutar video, dikembangkan oleh Apple untuk komputer Macintosh dalam kerangka teknologi QuickTime . Termasuk dukungan tidak hanya untuk video, tetapi juga untuk audio, teks, aliran MPEG, perintah MIDI yang diperluas, grafik vektor, panorama dan objek (QT VR), dan model 3D. Mendukung beberapa format kompresi video yang berbeda, termasuk. MPEG dan Indeo, serta metode kompresinya sendiri.

N MPEG (MPG, MPEG) adalah format untuk merekam dan memutar video, yang dikembangkan pada tahun 1992. kelompok ahli gambar bergerak (Moving Pictures Expert Group – MPEG). Dirancang untuk mengompresi file audio dan video untuk diunduh atau dikirim, misalnya melalui Internet.

MPEG-4– standar yang menjelaskan aturan untuk pengkodean informasi multimedia digital. Selama pengembangan dari standar ini Fokus utamanya adalah pada kemampuan mengompresi data video lebih dari yang disediakan, misalnya, oleh standar MPEG-2. Ini memungkinkan data untuk ditransfer kecepatan rendah, kurang dari 1 Mbit/dtk. Kecepatan seperti itu biasa terjadi pada sebagian besar pengguna Internet dan relevan untuk pengguna seluler perangkat nirkabel. Rekaman MPEG-4 lebih kecil dan jauh lebih murah dibandingkan file media yang dikodekan dengan MPEG-2. Alat pengkodean dan decoding MPEG-4 juga lebih sederhana

Beberapa metode kompresi data audio (selain Kuliah 2)

    Pengkodean tanpa kerugian adalah metode pengkodean audio yang memungkinkan pemulihan data 100% dari aliran terkompresi. Metode kompresi data ini digunakan ketika menjaga kualitas data asli sangat penting. Misalnya, setelah mencampur suara di studio rekaman, datanya harus disimpan dalam arsip dalam kualitas aslinya untuk dapat digunakan selanjutnya. Algoritme pengkodean lossless yang ada saat ini (misalnya, Monkeys Audio) dapat mengurangi volume yang ditempati oleh data sebesar 20-50%, namun pada saat yang sama memastikan pemulihan 100% data asli dari data yang diperoleh setelah kompresi. Encoder semacam itu adalah sejenis pengarsip data (seperti ZIP, RAR, dan lainnya), yang hanya dirancang untuk kompresi audio.

    Pengkodean yang merugikan. Tujuan dari pengkodean tersebut adalah untuk menggunakan segala cara untuk mencapai kesamaan suara dari sinyal yang dipulihkan dengan aslinya dengan volume data yang dikemas sesedikit mungkin. Hal ini dicapai dengan menggunakan berbagai algoritma yang "menyederhanakan" sinyal asli (membuang detail sulit terdengar yang "tidak perlu" darinya), yang mengarah pada fakta bahwa sinyal yang didekodekan sebenarnya tidak lagi identik dengan aslinya, tetapi hanya terdengar serupa.

Ada banyak metode kompresi, serta program yang mengimplementasikan metode ini. Yang paling terkenal adalah MPEG-1 Layer I,II,III (yang terakhir adalah MP3 yang terkenal), MPEG-2 AAC (advanced audio coding), Ogg Vorbis, Windows Media Audio (WMA), TwinVQ (VQF), MPEGPlus, TAC, dan lain-lain.

Rata-rata, rasio kompresi yang disediakan oleh encoder tersebut berada pada kisaran 10-14 (kali).

Beberapa format file audio :

format AU . Ini adalah format sederhana dan umum pada sistem Sun dan NeXT (namun, dalam kasus terakhir, file tersebut akan memiliki ekstensi SND). File tersebut terdiri dari header layanan pendek (minimal 28 byte), yang segera diikuti oleh data audio. Banyak digunakan dalam sistem mirip Unix dan berfungsi sebagai basis untuk mesin Java.

Format GELOMBANG (WAV). Format file standar untuk menyimpan audio sistem jendela. Ini adalah tipe khusus dari format RIFF (Resource Interchange File Format) lain yang lebih umum; Variasi lain dari RIFF adalah file video AVI. File RIFF terdiri dari blok-blok, beberapa di antaranya mungkin berisi blok-blok bersarang lainnya; Setiap blok data didahului dengan pengidentifikasi empat karakter dan panjangnya. File suara WAV cenderung lebih sederhana dan hanya memiliki satu blok format dan satu blok data. Yang pertama berisi informasi umum tentang suara digital (jumlah saluran, frekuensi pengambilan sampel, sifat ketergantungan volume, dll.), dan yang kedua berisi data numerik itu sendiri. Setiap sampel menempati sejumlah byte bilangan bulat (misalnya, 2 byte dalam kasus angka 12-bit, bit paling signifikan berisi nol). Dalam rekaman stereo, angka-angka dikelompokkan berpasangan untuk saluran kiri dan kanan, masing-masing, dan masing-masing pasangan membentuk satu blok lengkap - untuk contoh kita, panjangnya akan menjadi 4 byte. Penataan yang tampaknya berlebihan ini memungkinkan perangkat lunak untuk mengoptimalkan proses transfer data selama pemutaran, namun, seperti yang selalu terjadi dalam kasus seperti itu, peningkatan waktu menyebabkan peningkatan ukuran file yang signifikan.

Format MP3 (MPEG Layer3) . Ini adalah salah satu format penyimpanan audio yang kemudian diadopsi sebagai bagian dari standar video terkompresi. Sifat memperoleh format ini dalam banyak hal mirip dengan kompresi data grafik menggunakan teknologi JPEG yang telah kita bahas. Karena data suara yang sewenang-wenang tidak dikompresi dengan cukup baik dengan metode yang dapat dibalik, kita harus beralih ke metode yang tidak dapat diubah: dengan kata lain, berdasarkan pengetahuan tentang sifat-sifat pendengaran manusia, informasi suara “dikoreksi” sehingga timbul distorsi pada telinga. tidak terlalu mencolok, namun data yang dihasilkan dikompresi lebih baik menggunakan metode tradisional. Ini disebut pengkodean adaptif dan memungkinkan Anda menghemat detail suara yang paling tidak signifikan dari sudut pandang persepsi manusia. Teknik yang digunakan dalam MP3 tidak mudah untuk dipahami dan mengandalkan matematika yang cukup rumit, namun memberikan efek kompresi yang sangat signifikan terhadap informasi audio. Keberhasilan teknologi MP3 telah menyebabkan fakta bahwa teknologi ini sekarang digunakan di banyak perangkat audio rumah tangga, misalnya pemutar dan telepon seluler.

format MIDI. Nama MIDI merupakan singkatan dari Musical Instrument Digital Interface, yaitu. antarmuka digital untuk alat musik. Ini adalah standar yang cukup lama (1983) yang menggabungkan berbagai peralatan musik (synthesizer, drum, lighting). MIDI didasarkan pada paket data, yang masing-masing berhubungan dengan suatu peristiwa, seperti menekan tombol atau mengatur mode suara. Setiap peristiwa dapat secara bersamaan mengontrol beberapa saluran, yang masing-masing berhubungan dengan peralatan tertentu. Terlepas dari tujuan awalnya, format file telah menjadi standar untuk data musik yang, jika diinginkan, dapat diputar menggunakan kartu suara komputer tanpa peralatan MIDI eksternal apa pun. Keuntungan utama file MIDI adalah ukurannya yang sangat kecil, karena bukan merupakan rekaman suara yang mendetail, tetapi sebenarnya merupakan sejenis notasi musik elektronik canggih yang setara dengan notasi musik tradisional. Namun properti yang sama ini juga memiliki kelemahan: karena suaranya tidak detail, peralatan yang berbeda akan mereproduksinya secara berbeda, yang, pada prinsipnya, bahkan dapat mendistorsi maksud musik pembuatnya.

format MOD. Ini mewakili pengembangan lebih lanjut dari ideologi file MIDI. Dikenal sebagai “modul pemutaran”, modul ini tidak hanya menyimpan “lembaran musik elektronik”, tetapi juga sampel audio digital yang digunakan sebagai templat untuk setiap not. Dengan cara ini, reproduksi suara yang jelas dapat dicapai. Kerugian dari format ini termasuk lamanya waktu yang diperlukan untuk melapiskan pola nada-nada yang dibunyikan secara bersamaan di atas satu sama lain.

  • Sergei Savenkov

    semacam ulasan "pendek"... seolah-olah mereka sedang terburu-buru di suatu tempat