Koja je dubina kodiranja zvuka? Definicija, formula

Kodiranje zvuka odnosi se na načine pohranjivanja i prijenosa audio podataka. U sljedećem članku opisano je kako funkcioniraju ova kodiranja. Imajte na umu da je ovo prilično složena tema - "Dubina zvučnog kodiranja". Definicija ovog koncepta također će biti dana u našem članku. Pojmovi prikazani u članku namijenjeni su samo općem pregledu. Proširimo pojam dubine kodiranja zvuka. Neke od tih referenci mogu biti korisne za razumijevanje funkcioniranja API-ja te kako artikulirati i obraditi zvuk u vašim aplikacijama.


Kako pronaći dubinu kodiranja zvuka

Audio format nije ekvivalentan kodiranju zvuka. Na primjer, popularni format datoteke, kao što je WAV, definira format zaglavlja audio datoteke, ali sam po sebi nije kodiranje zvuka. WAV datoteke često, ali ne uvijek koriste linearno PCM kodiranje. S druge strane, FLAC je format datoteke i kodiranje, što ponekad dovodi do zabune. Unutar FLAC-a za govorni govor, dubina kodiranja zvuka je jedino kodiranje koje zahtijeva audio podatke za uključivanje zaglavlja. Sva druga kodiranja označavaju tihe audio podatke. Kada govorimo o FLAC-u u Speech API-ju, uvijek se pozivamo na kodek. Kada se pozivamo na format FLAC datoteke, koristit ćemo .LAC format.
Nije potrebno navesti brzinu kodiranja i uzorkovanja za WAV ili FLAC datoteke. Ako je ova opcija izostavljena, API temeljen na oblaku automatski određuje brzinu kodiranja i uzorkovanja za WAV ili FLAC datoteke na temelju zaglavlja datoteke.Ako navedete vrijednost za kodiranje ili brzinu uzorkovanja koja se ne podudara s vrijednošću u zaglavlju datoteke API-ja u oblaku, vratit će se pogreška.


Koja je dubina kodiranja zvuka?

Audio se sastoji od oscilograma koje se sastoje od interpolacije valova različitih frekvencija i amplituda. Da bi se predstavili ovi oblici signala u digitalnim okruženjima, signali moraju biti odbačeni brzinom koja može predstavljati zvukove najviše frekvencije koju želite reproducirati. Za njih je također potrebno održavati dovoljnu dubinu bita kako bi se prikazali ispravni oscilogrami amplitude (volumen i mekoća) na temelju uzorka zvuka. Sposobnost reprodukcije reprocesije frekvencije poznata je kao frekventni odziv, a sposobnost stvaranja odgovarajućeg volumena i mekoće poznata je kao dinamički raspon. Zajedno, ovi pojmovi se često nazivaju zvukom uređaja za zvuk. Dubina zvučnog kodiranja je način na koji možete obnoviti zvuk pomoću ova dva osnovna principa, kao i sposobnost učinkovitog pohranjivanja i prijenosa takvih podataka.

Frekvencija uzorkovanja

Zvuk postoji kao analogni valni oblik. Digitalni zvučni segment aproksimira ovaj analogni val i uzorkuje njegovu amplitudu na prilično velikoj brzini kako bi simulirao vlastite frekvencije valova. Frekvencija uzorkovanja digitalnog zvuka određuje broj uzoraka uzetih iz audio izlaza (u sekundi). Visoka brzina uzorkovanja povećava sposobnost digitalnog zvuka da točno predstavlja visoke frekvencije.

Kao posljedica teoremaNyquist-Shannon, obično trebate pokušati barem dvostruko frekvenciju bilo kojeg zvučnog vala koji treba snimiti digitalno. Primjerice, za prikaz zvuka u rasponu ljudskog sluha (20-20000 Hz), digitalni zvuk treba prikazati najmanje 40.000 puta u sekundi (što je razlog zašto zvuk CD-a koristi brzinu uzorkovanja od 44100 Hz).

Dubina udarca

Dubina zvučnog kodiranja je učinak na dinamički raspon određenog uzorka zvuka. Veća dubina bita omogućuje prikaz točnijih amplituda. Ako imate mnogo glasnih i tihih zvukova u istom uzorku zvuka, trebat će vam više bitova za ispravno prenošenje tih zvukova. Veća dubina bita također smanjuje omjer signala i šuma u audio uzorcima. Ako je dubina kodiranja zvuka 16 bita, glazbeni se zvuk CD-a prenosi pomoću tih vrijednosti. Neke metode kompresije mogu kompenzirati niže dubine bita, ali su obično gubitne. DVD Audio koristi 24 bita dubine, dok većina telefona ima 8-bitnu dubinu kodiranja zvuka.

Zvuk bez zvuka

Velik dio digitalne obrade zvuka koristi ove dvije metode (brzina uzorkovanja i dubina bita) za jednostavno pohranjivanje audio podataka. Jedna od najpopularnijih tehnologija digitalnog zvuka (popularizirana pomoću CD-a) poznata je kao pulsno-modulacijska modulacija (PCM). Audio se odabire u zadanim intervalima, a amplituda diskretnog vala na toj točki se pohranjuje kao digitalna vrijednost izpomoću dubine bita uzorka. Linearni PCM (koji označava da je odgovor amplitude linearno uniforman u uzorkovanju) je standard koji se koristi na CD-ovima i kodiranju LINEAR16 Speech API. Oba kodiranja stvaraju nekomprimirani stream bajta koji odgovara izravno audio podacima, a oba standarda sadrže 16 bita dubine. Linearni PCM koristi brzinu prijenosa od 44100 Hz na CD-ovima koji su prikladni za repozicioniranje glazbe. Međutim, frekvencija uzorkovanja od 16000 Hz je prikladnija za preračunavanje govora.
Linearni PCM (LINEAR16) primjer je nekomprimiranog zvuka, budući da su digitalni podaci pohranjeni na sličan način. Kada čitate jednokanalni tok bajta kodiran pomoću Linear PCM-a, možete brojati svakih 16 bita (2 bajta) kako biste dobili drugu vrijednost amplitude signala. Gotovo svi uređaji mogu najprije manipulirati takvim digitalnim podacima - Linear PCM audio datoteke možete urediti uređivačem teksta, ali nekomprimirani zvuk nije najučinkovitiji način prijenosa ili pohranjivanja digitalnog zvuka. Iz tog razloga, većina zvuka koristi metode digitalne kompresije.

Kratki zvuk

Audio podaci, kao i svi podaci, često se komprimiraju kako bi se olakšalo skladištenje i prijevoz. Kompresija kodiranja zvuka može se dogoditi bez gubitka ili gubitka. Kompresija bez gubitaka može se raspakirati da bi se digitalni podaci vratili u izvorni oblik. Kompresija nužno briše neke informacije tijekom dekompresijskog postupka i parametrizirana je za označavanje stupnja tolerancije prema tehnicikompresija za brisanje podataka.

Bez gubitaka

Digitalni tokovi se komprimiraju bez gubitaka, koristeći složene preraspodjele pohranjenih podataka, što ne umanjuje kvalitetu izvornog digitalnog uzorka. U slučaju nekomprimirane kompresije, pri vađenju podataka u izvorni digitalni oblik, informacije se neće izgubiti. Dakle, zašto metode kompresije bez gubitaka ponekad imaju opcije optimizacije? Ove postavke često obrađuju veličinu datoteke za vrijeme dekompresije. Na primjer, FLAC koristi parametar razine kompresije od 0 (najbrži) do 8 (najmanja veličina datoteke). Komprimiranje FLAC-ova na višoj razini neće izgubiti informacije u odnosu na kompresiju na nižoj razini. Umjesto toga, algoritam kompresije će jednostavno morati potrošiti više računalne energije kada konstruira ili dekonstruira izvorni digitalni zvuk. Speech API podržava dva kodiranja bez gubitaka: FLAC i LINEAR16. Tehnički gledano, LINEAR16 nije "kompresija bez gubitaka", budući da kompresija nije primarno uključena. Ako vam je veličina datoteke ili prijenos podataka važna, odaberite FLAC kao opciju kodiranja zvuka.

Gubitak kompresije

Kompresija audio podataka eliminira ili smanjuje neke vrste informacija pri izradi komprimiranih podataka. Speech API podržava više formata gubitaka, iako ih treba izbjegavati jer gubitak podataka može utjecati na točnost prepoznavanja.
Popularni MP3 kodek primjer je metode kodiranja s gubitkom. Sve MP3 metode kompresije uklanjaju zvuk s vanjske strane normalnog ljudskog audio benda i reguliraju razinu kompresije učinkovito regulirajućiMP3 data codec ili broj bita u sekundi za spremanje datuma zvuka. Na primjer, stereo CD koji koristi linearni PCM sa 16 bita ima efektivnu brzinu bita. Format dubine kodiranja zvuka: 441000 * 2 kanala * 16 bita = 1411200 bita u sekundi (bit /s) = 1411 kbit /s Na primjer, MP3 kompresija uklanja takve digitalne podatke koristeći brzinu prijenosa podataka kao što je 320 kbps, 128 kbps /s ili 96 kbit /s, što rezultira lošom kvalitetom zvuka. MP3 također podržava promjenjive brzine bita koje mogu komprimirati zvuk dalje. Obje metode gube informacije i mogu utjecati na kvalitetu. Može se reći da većina ljudi može odrediti razliku između 96kbps ili 128kbps kodirane MP3 glazbe.

Ostali oblici kompresije

MULAW je 8-bitno PCM kodiranje, gdje je amplituda uzorkovanja logaritamski modulirana, a ne linearno. Kao rezultat, uLaw smanjuje efektivni dinamički raspon komprimiranog zvuka. Iako je uLaw uveden posebno za optimiziranje kodiranja govora, za razliku od drugih audio tipova, 16-bitni LINEAR16 (nekomprimirani PCM) je još uvijek daleko superiorniji od 8-bitnog komprimiranog zvuka uLaw. AMR i AMR_WB moduliraju kodiranu audio kazetu unosom promjenjive brzine bita u uzorak izlaznog zvuka.
Iako Speech API podržava višestruke formate gubitaka, trebali biste ih izbjegavati ako imate kontrolu nad izvornim zvukom. Iako uklanjanje takvih podataka kompresijom gubitaka možda nema značajan utjecaj na zvuk koji čuje ljudsko uho, gubitak takvih podataka za mehanizam prepoznavanja govoramože uvelike pogoršati točnost.

Povezane publikacije