Matrica za ABBYY FineReader
Napravio sam matricu za HRT-ove titlove koju možete preuzeti ovde (http://www.mediafire.com/?5tbcd2c94bw9m7f). Probao sam nekoliko puta i mislim da ne može bolje, mada je daleko od savršenog. Naime, program u ovom režimu slabo razlikuje d od đ (pa sam za đ dodelio slovo d), l od malog i velikog i (najproblematičnije; za I sam dodelio l), č od ć, te se desi i da pomeša l i ! (retko). S ostalim slovima nema nikakvih problema. Ispod je slika ekstremnog mešanja l i i:
(https://i.imgur.com/GkkIeD4.png)
Jedina prednost ove matrice nad automatskim režimom jeste što ne pravi „smeće“, odnosno nepostojeće i besmislene znakove prikazane na slikama ispod:
(https://i.imgur.com/HhKqiBc.png) (https://i.imgur.com/lYLbngX.png)
Doduše, često se pojavljuje znak ^, pa je posle OCR-a najbolje da ga zamenite praznim prostorom:
(https://i.imgur.com/Q2yTvLL.png)
Evo poređenja prvih deset titlova obema metodama (desno je OCR s matricom):
(https://i.imgur.com/UcKtqCw.png) (https://i.imgur.com/qbKhNEo.png)
Da biste učitali matricu, idite na Tools → Options… → Read → Load from File…, pa pod Training označite Use only user pattern. Kao što sam napomenuo u prethodnoj poruci, program ne prepoznaje kurziv. Tačnije, prepoznaje ako za format stavite Word dokument, ali rezultati su dosta loši.
Preporuka:
1. Nakon što izvršite optičko prepoznavanje teksta, tražite linije tj. slike sa najvećim procentom omašaka. Najbolje je da postavite prikaz slika nadesno, te kliknete na ikonu grafikonâ da biste poređali slike od onih koje imaju najviše pogrešaka. Nažalost, procenti će se ažurirati čim promenite tekst, te nećete moći da koristite prečicu Alt + donja strelica za listanje. Moraćete da koristite miš.
(https://i.imgur.com/uulgrc5.png)
2. Koristite opciju Verification. Program ima ugrađen rečnik hrvatskog jezika, koji je dosta dobar, te će korektura ići kao podmazana. Na vrhu prozora će se pojaviti slika titla, ispod nje tekstualni okvir, a ispod okvira predlozi pogrešno napisanih reči. Treba samo da dvokliknete na neki od predloga i program će preći na sledeću reč. Postoji i korisnički rečnik u koji možete da ubacujete reči koje su previđene u ugrađenom, a preporučujem da u njega dodate i imena glavnih likova serije, da bi vam kasnije bilo lakše. Evo kako to izgleda:
(https://i.imgur.com/tFMAI3J.png)
3. Gorenavedena opcija verovatno neće pronaći sve greške, te bi bilo pametno da tekst naknadno provučete kroz Word ili Hašček (http://hascheck.tel.fer.hr).
Zaključak:
Automatski režim prepoznaje sva slova kako valja, no pravi nebuloze u vidu nepostojećih znakova. Korisnički režim u drugu ruku ne koještarizuje, ali zato meša određena slova. Nisam probao koja je metoda vremenski učinkovitija, ali ovako okvirno mislim da je s matricom brže. Na vama je da procenite šta vam više godi.
Imam jedno pitanje u vezi sa prelomom linija u ABBYju. Naime, u gotovo 99% slucajeva, ABBY mi
nije prepoznao da je jedna linija prevoda u 2 reda, vec ih sve smesta u 1 red. Za epizodu od oko
500 linija, desi se da prepozna 2-3 linije koje su u dva reda, ostale ne.
Evo jednog primera, u pitanju je snimak sa RTL-a:
(http://i.imgur.com/hVyLcnJ.png)
P.S. Cekirana mi je opcija Keep lines break ili kako se vec zove. ;)
Ako neko ima rešenje nek pomaže, jer ja ne znam šta da radim:
Pri čitanju slika sa Abbyjem, slika izgleda ovako:
(https://i.imgur.com/zOeK4kT.jpg)
Dok posle ocr-a skoro sve linije Abby spoji kao na slici:
(https://i.imgur.com/azkAWCV.jpg)
Znači, postoji li mogućnost da mi napravi razmake u ovom slučaju "jespremno," i "aliimaćete satipo." i kako?
Sa druge strane, ne radi mi Abby sa svim slikama ovo...
Ali od 1000 slika, jedno 30-50, a možda i više uradi.