Optičko prepoznavanje znakova (OCR). Programi za optičko prepoznavanje znakova ABBYY FineReader, CuneiForm

Tehnologija OCR (Optical Character Recognition) može se koristiti za pretvaranje dokumenta u elektroničku verziju. Na primjer, ako se višestranična instanca skenira u TIFF datoteku, ona se učitava u OCR program koji prepoznaje tekst i zatim ga pretvara u datoteku za uređivanje. Neki programi omogućuju skeniranje stranica i konverziju sadržaja u dokument u jednom koraku. Iako je tehnologija izvorno razvijena za optičko prepoznavanje znakova, može se koristiti i za rukom pisane znakove. Na primjer, poštanske usluge kao što je USPS koriste OCR softver za automatsko obradu pisama i paketa čitanjem adrese.

Područja primjene OCR

OCR se dekodira kao optičko prepoznavanje znakova. To je rasprostranjena tehnologija prepoznavanja teksta unutar slika kao skeniranih dokumenata i fotografija. Tehnologija se koristi za pretvaranje gotovo svake vrste slike koja sadrži pisani, rukopisni ili tiskani tekst u tekstualno čitljive tekstualne podatke.


OCR je postao popularan početkom 1990-ih kada je pokušavao digitalizirati povijesni materijal. Od tada, metoda je doživjela značajna poboljšanja i trenutno pruža gotovo savršenu preciznost za optičko prepoznavanje znakova. Napredne tehnike, kao što je Zonal OCR, koriste se za automatizaciju složenih radnih procesa na temeljupretvaranje upisanih tekstova u digitalne dokumente. Nakon obrade skeniranog materijala, tekst se može uređivati ​​pomoću programa kao što su Microsoft Word ili Google Docs, koji su uređivači teksta. Prije nego što se ova tehnologija pojavila, jedini način za digitalizaciju tiskanih dokumenata bio je ručni unos teksta. Ne samo da je trebalo puno vremena, već je i dovelo do netočnosti i pogrešaka u reprodukciji kopije. OCR se često koristi kao "skrivena" tehnologija u mnogim poznatim sustavima i uslugama koje uključuju automatizaciju unosa podataka i indeksiranje za tražilice, automatsko optičko prepoznavanje znakova registracijskih tablica, kao i pomoć slijepim i slabovidnim osobama.


Proces određivanja točnosti teksta

Svaki korak u procesu OCR važan je za određivanje točnosti konačnog teksta. Počinje pretvorbom tiskanog dokumenta. Ako ima tragove, mrlje i loš kontrast, softver će napraviti pogreške tijekom prepoznavanja, a rezultat će se pokazati netočnim. Kako biste izbjegli ove probleme, možete napraviti poboljšanu fotokopiju za ispis. Prva faza rada je skeniranje tiskanog teksta. OCR softver radi s slikovnim datotekama. Skener ili dobar digitalni fotoaparat stvara jasne fotokopije dokumenata. Bolje je pretvoriti skenirane datoteke u crno-bijelo. Proces je binaran. S crnom bojom na slici prepoznaje se prepoznavanje OCR teksta, a bijelo, zauzvrat, djeluje kao pozadina. Druga faza jedefinicija znakova Brzina ovog procesa ovisi o OCR programu koji koristite. Većina njih analizira svaki element jedan po jedan. Svrha programa je identificirati likove, ali dobri programi ne prepoznaju samo tekst već i tablice i druge elemente rasporeda.
Proces nije savršen, jer postoje mnogi faktori koji utječu na točnost. Koji su programi namijenjeni optičkom prepoznavanju znakova, razmotrit ćemo u nastavku. Korisnik je slobodan odabrati što je najbolje. OCR-ovi imaju ugrađene značajke za provjeru pravopisa i označavaju pogrešne riječi. Neke od njih su toliko složene da označavaju neusklađenost riječi i gramatičkih pogrešaka, korisnik samo treba izvršiti nužno podešavanje. Posljednji korak je spremanje gotovog dokumenta u ispravnom formatu. Ako aplikacija nije potrebna, možete iskoristiti brojne besplatne online konvektore.

Optička tehnologija za Brailleovo pismo

Tehnologija optičkog prepoznavanja znakova (OCR) omogućuje slijepim i slabovidnim osobama da definiraju tekst i izgovaraju ga naglas. On koristi jezik i prikazuje informacije na Brailleovom zaslonu. Postoje tri glavna elementa sustava optičkog prepoznavanja znakova: snimanje, prepoznavanje i čitanje teksta. Izvorno tiskani dokument kamera je zarobljen, a zatim OCR softver pretvara ga u priznatu znakova i riječi, a onda sintisajzer sustav izgovara neki materijal naglas ili prikazuje na zaslonu brajičnom. Informacije mogupohranjuju se elektronički na uređaju s OCR softverom ili u samostalnoj memoriji uređaja.
Proces uzima u obzir logičku strukturu jezika. Sustav će zaključiti da je, na primjer, sindikat "ovo" na početku prijedloga pogreška i da ga treba čitati kao "ovo". Ona koristi vokabular i primjenjuje metode provjere, slične onima koje se koriste u mnogim tekstualnim urednicima. Svi OCR sustavi stvaraju privremene datoteke koje sadrže znakove i izgled stranica. Na nekim sustavima, oni se mogu pretvoriti u formate koji se mogu pronaći pomoću uobičajenih računalnih aplikacija kao što su uređivač teksta, proračunske tablice i baze podataka.

Odabir programa za prepoznavanje teksta

Preporučuje se da namjerno pristupite odabiru softvera za prepoznavanje teksta. Najbolje je da se testirate ili uzmete u obzir mišljenje naprednih korisnika. Testiranje se provodi uzimajući u obzir sljedeće čimbenike:
  • Točnost je ono što razlikuje dobar OCR od lošeg. Međutim, nerealno je očekivati ​​100% točnost programa za prepoznavanje rukopisa. Čimbenici kao što su kvaliteta izvornih dokumenata i razlučivost slike značajno utječu na krajnji rezultat. Dobri OCR-i dosežu 98% kada se koristi moderni skener i izvorni kod u zadovoljavajućem stanju.
  • Višejezičnost - Danas je ova značajka u vlasništvu većine programa. OCR skenira poseban znak kako bi ga identificirao. Ako je dizajniran za prepoznavanje samo engleskih slova, onda neće moćiprecizno interpretirati posebne znakove, na primjer, slova kao što su slova koja naglašavaju "e". To će predstavljati te znakove s najbližim ekvivalentom na engleskom jeziku. Kada se primjenjuje aplikacija koja podržava višejezičnost, navodi se jezik dokumenta kako bi se osigurala točnost prepoznavanja.
  • Podrška rukopisa. Tekst kreiran pomoću tipkovnice lako se prepoznaje po bilo kojem programu. Međutim, rukopis je potpuno drugačiji način skeniranja. Ljudi imaju vrlo različit rukopis. Neki pišu uredno, dok većina rukopisa nije dovoljno čitljiva. Kvalitativni OCR mogu prepoznati bilo koji rukopis. Stoga, za arhiviranje rukopisnog materijala, potrebni su vam programi za rukopis.
  • Razina automatizacije. OCR se može pokrenuti automatski ili interaktivno. Ako trebate skenirati više stranica odjednom, najbolje je razmisliti o automatskim programima. Pomoću ove značajke možete skenirati dokumente u nekoliko klikova tijekom obavljanja drugih zadataka, a lako je pronaći dobivenu PDF datoteku, txt ili doc. Većina programa za slobodno prepoznavanje teksta ima ograničenu automatizaciju.
  • Očuvanje rasporeda. Glavna svrha ovih programa je prevođenje teksta u elektronički oblik. Neki ne zadržavaju izgled izvornog dokumenta. Stoga je potrebno urediti konačnu verziju dugo vremena. Dobar program trebao bi sačuvati izvorni raspored, onda je u konačnoj kopiji potrebna manja kopija. Takvi programi pohranjuju stupce tablica i grafičke slike, kao u izvornoj verziji.
  • Popularni mobilni softver

    OCR je odličan za prijenos teksta iz fizičkih izvora izravno u digitalni dokument. Postoje različite vrste aplikacija i aplikacija za desktop i mobilne uređaje. Oni su različiti u cijeni i imaju svoje ključne izvrsne značajke.

    Najpopularniji Android skeneri:
  • Office Lens - pruža besplatno skeniranje stranica i OCR za Android korisnike. Za pretvorbu morate se povezati s internetom.
  • PDF skeneri (na primjer, ABBYY TextGrabber, CamScanner, MDScan, OCR odmah) - obavljaju skeniranje s naknadnim OCR-om. Nema ograničenja broja skeniranih stranica i nema vodenih žigova.
  • Online OCR. Može se naći na internetu, usluga je vrlo jednostavna i jednostavna za korištenje. Posebna značajka je da podržava 46 jezika, izlazni dokument teži ne više od 5 MB, lako je pretvoriti u Microsoft Word, Excel ili obični tekst. Nakon registracije možete pretvoriti multipage PDF, RTF, Excel i datoteke do 100 MB. Za velike količine priznanja postoji plaćena verzija.
  • Google Docs

    Za one koji su već upoznati s Google dokumentima, možete koristiti OCR ugrađen u Google disk. Da biste postigli najbolje rezultate, font mora biti postavljen na Arial ili Times New Roman. Rezultat možete poboljšati tako da provjerite ima li skenirana slika ravnomjeran i jasan kontrast. Materijali za fotografije mogu se obrađivati ​​pojedinačno u jpg, png, gif ili u višestraničnim PDF dokumentima. Proširenje podržava većinu jezika.
    Google ima mnogo programa obuke i mogućnosti obrađivanja oblaka. Mnogi korisnici vjeruju da usluga nema napredne značajke i mogućnosti. Međutim, ako koristite aplikaciju Google disk za Android, stranice možete skenirati izravno iz aplikacije pomoću fotoaparata na pametnom telefonu. U suprotnom, preuzmite dokumente pomoću skenera spojenog na računalo ili na drugi način za početak prepoznavanja u Google disku. Za pojedince Google disk nudi besplatnu razinu pohrane od oko 19 GB uz mogućnost proširenja do 100 GB putem usluge Google One za 199 USD. SAD.

    Optičko prepoznavanje od Abbyy

    Abbyy FineReader već duže vrijeme radi s dokumentima. To je sveobuhvatno rješenje za poslovne i obične korisnike. To vam omogućuje da dobijete sve potrebne funkcije za izvlačenje sadržaja tekstova iz cjelovitog čitača, uredno organiziranih digitaliziranih materijala. Uz prepoznavanje teksta i konverziju u PDF, Microsoft Office ili druge formate, program ih može usporediti, dodati komentare i komentare. Abbyy FineReader može pretvoriti materijale za skupni način rada i rukovati s mnogim izlaznim formatima na 192 različita jezika. Postoje prateće aplikacije za mobilne uređaje kada trebate brzo skenirati s telefona. Softver nije ažuriran, ali je jednostavan, funkcionalan i dobro funkcionira. Uslužni program ima solidnu reputaciju kao jedna od najboljih opcija u području optičkog prepoznavanja znakova. Možete koristiti besplatnu probnu verziju. ZA trošak od19999 dolara SAD po standardnoj pojedinačnoj trajnoj licenci. Ako netko izgleda skupa opcija, možete uzeti dobru alternativu za ABBYY FineReader - online verziju. Ograničen je na skeniranje samo 10 stranica mjesečno. Ali dolazi sa svim ostalim premium značajkama. Morat ćete se registrirati da biste dobili pristup. Podržava mnogo formata ulaznih datoteka, a možete odabrati izlazne datoteke kao što su PDF, Word, Excel, PowerPoint i e-Pub.

    Usluga Cloud Acrobat

    Adobe Acrobat zadovoljava sve zahtjeve i nudi impresivan popis značajki i opcija, iako je cijena malo strmija od konkurencije. Za sve funkcije optičkog prepoznavanja teksta odaberite Pro verziju programa Adobe Acrobat. DC je skraćenica od "Document Cloud" i vrlo se jasno integrira s Adobeovim rješenjem za oblak ako želite pristupiti datotekama s bilo kojeg računala. Tu je i jednostavna i besprijekorna integracija sa svim ostalim Adobeovim uslugama, kao što je Photoshop. Ako korisnik odluči platiti Pro verziju programa Adobe Acrobat DC, primit će sve alate za prepoznavanje teksta, mogućnost dodavanja komentara i povratnih informacija na sadržaj, specijaliziranu uslugu za skeniranje tablica, mogućnost brzog uspoređivanja dvaju dokumenata zajedno. Materijali se mogu urediti izravno na zaslonu nekoliko sekundi nakon skeniranja. Adobeov logo jamči određenu razinu kvalitete, a korisnici su impresionirani intuicijom i mogućnostima programa Adobe Acrobat DC. Pretplata na uslugu počinje od $ 1299. SAD.

    Najbolji besplatni softver

    Besplatno OCR u Word je najbolji freewareSoftver za optičko prepoznavanje znakova pomoću najnovijih mehanizama. Tesseract je najmoćniji alat za ovu vrstu i smatra se jednom od najpreciznijih metoda. Program podržava više formata slika i TIFF više stranica. Ova usluga se može koristiti potpuno besplatno za izdvajanje teksta iz priloženog foto materijala. Tesseractov motor izvorno je razvio Hewlett Packard Labs 1985-1994. Neke promjene su mu napravljene 1996. godine. Godine 1995. uključen je u prva tri mehanizma priznavanja. Ona radi sa sustavima Windows, Linux i Mac OS X. FreeOCR može obraditi slike s višejezičnim i višejezičnim tekstom. Ona obrađuje PDF formate i podržava TWAIN uređaje kao što su skeneri, ima široko sučelje s dva prozora, što je lako razumljivo.
    Slobodan OCR u Word može uštedjeti mnogo vremena bez ponovnog unošenja već napisanog djela. Program uzima dokument, skenirani objekt ili sliku i pretvara ga u čitljiv, uređiv i precizan materijal. Možete ga besplatno preuzeti u programu Word. OCR u Word optimiziran je za rad sa svim vrstama skenera i ima točnost od 98%, moderno sučelje koje olakšava pristup svim zadacima, postoje funkcije rotacije u slučaju da se fotografija ne uklapa ispravno na zaslon. ZA izvlači tekst iz snimljenih slika pomoću pametnih telefona ili digitalnih fotoaparata s visokom točnošću i kvalitetom.

    Prepoznavanje znakova u Linuxu

    Suite OCRFeeder pruža prikladno grafičko korisničko sučelje za Linux.što je u osnovi vanjsko sučelje za neke slike, OCR i tekstualne alate kao što su ispis ili provjera pravopisa. On sam ne čita znakove, već umjesto toga koristi druge OCR programe putem takozvanih postavki "mehanizama prepoznavanja". Ima određene parametre za Tesseract, CuneiForm, GOCR i Ocrad. Korisnik samo treba instalirati u Ubuntu motore koje odabere - jednu ili više, a zatim ih otkriti u postavkama feedera. Možete dodati druge motore i ručno izmijeniti te postavke. U jednoj aplikaciji može biti više različitih motora. Glavni dovodni prozor omogućuje vam da u pokretu odaberete koji će se koristiti za određenu industriju, a tu je i postavka koju možete odabrati prema zadanim postavkama. Za odabir jezika čitanog teksta, u slučaju Tesseracta i CuneiForma, morate dodati -l prekidač na odgovarajući jezik /skriptu, primjerice, "-l pol" za poljski ili "-l dan-frak" za danski na postavke ovog motora. Tehnologija optičkog prepoznavanja tiskanih znakova "Tesseract" u početku mogla je prepoznati tekst na engleskom jeziku, verzija 2.x ga je učinila višejezičnom. Ako je potrebno, možete instalirati više od jednog rječnika. Nove verzije digitaliziraju tekst na temelju ISO 963-2. Nakon uspješne instalacije, upotrijebite naredbu "tesseract & gt; put staze & gt; bazno ime izlazne datoteke". Tesseract automatski dodaje izvornu datoteku proširenja .txt, možete navesti opciju -l koju slijedi kôd jezika. Za verzije Tesseracta prije trećeg, vrlo je važno da je slika bila malo u formatu oznakeproširenje ".tif", a ne ".tiff". Redak za naredbe trebao bi izgledati ovako: "$ tesseract ~ /input.tif output". Gdje je "input.tif" dokument transformacije smješten u matičnoj mapi, a "output" je materijal koji će Tesseract stvoriti kao "output.txt". Često skenirani tekstovi spremaju se kao rasterska slika u velikom PDF dokumentu. Koristeći ImageMagick, pojedinačne stranice mogu se izdvojiti kao TIFF datoteke za obradu iz Tesseracta. Sljedeća skripta može pomoći automatizirati ovaj proces.
    CuneiForm program je još jedan optički sustav prepoznavanja teksta koji je izvorno razvijen i baziran na open source Cognitive Technologies. Verzija sustava Windows koja ima svoje grafičko sučelje može se pokrenuti s nekim rezultatima u programu Wine. Njegov Linux port se razvija na Launchpadu i iako trenutno nema vlastito grafičko sučelje, CuneiForm se može uspješno pokrenuti s OCRFeeder grafičkog sučelja. U nastavku je primjer kako uspješno pretvoriti neke screenshotove .jpeg oglasnih ploča sa slikama u korisne tekstualne datoteke na mreži.
    Pdfocr je skripta koja izvršava OCR za višestruke PDF datoteke kao i implementira ga kao tekstualni sloj koji se može pretraživati. Može koristiti Tesseract ili klinasto pismo kao mehanizam prepoznavanja. Sama skripta može se dobiti od Github ili PPA. Za pokretanje naredbe upišite u terminal: "pdfocr -i input.pdf -o output.pdf". OCR tehnologija ne stoji na mjestu, dugoročno priznajući intelektualni sustav optičkog prepoznavanja znakova - ICR. Ovaj standard je napredan. velikadio ICR-a ima sustav za samostalno učenje koji se naziva neuronska mreža i automatski ažurira bazu podataka za nove obrasce rukopisa. On proširuje korisnost uređaja za skeniranje u svrhu obrade dokumenata od prepoznavanja tiskanog teksta (OCR funkcija) do rukopisnih materijala i može postići točnost od više od 97% pri čitanju rukopisnog materijala u strukturiranim oblicima.

    Povezane publikacije