Izdvojeno > Tutorijali za izradu titlova

Ripovanje hardkodiranih titlova

(1/15) > >>

Rancher:
Potrebni programi:
• VideoSubFinder
• ABBYY FineReader 12
• Word i Subtitle Workshop 2.51 ili Subtitle Edit

Umesto VideoSubFindera možete koristiti AVISubDetector, mada sam lično imao neuporedivo bolje rezultate s ovim prvim. AVISubDetector je umeo da „uslika“ isti titl i do nekoliko puta, što nije bio slučaj s VSF-om.

VideoSubFinder

1. Pokrenite program pa u meniju File pritisnite Open Video All Default.
2. Pritisnite dugme Clear Folders da biste obrisali sve izdvojene slike iz fascikli, ukoliko ste ranije koristili program.
3. Koristite klizač na otvorenom snimku s leve strane, premotajte uvodnu špicu pa kliknite na Set Begin Time (CTRL + Z). Isto to uradite i za završnu špicu pa pritisnite Set End Time (CTRL + X).
4. Pronađite titl sa dva reda i prevucite linije s ivica prozora za video tako da obuhvate samo oblast titla.



5. Kliknite na dugme Run Search. Program će početi da izdvaja kadrove s titlovima i da ih smešta u fasciklu RGBImages.
6. Kada se postupak završi, kliknite na karticu OCR pa na dugme Create Empty Sub. Napraviće se titl s vremenskim odrednicama u osnovnoj fascikli programa.

ABBYY FineReader

1. Pokrenite program pa u meniju File pritisnite Open PDF File/Image… (CTRL + O) ili prosto kliknite na veliko dugme Open u traci s alatkama. Kliknite na Options. U kartici Document izaberite jezik titlova i označite kućicu Full color, pod Scan/Open demarkirajte sve kućice, a pod Read ostavite Thorough reading i Use only built-in patterns netaknutim.



Sada kliknite na Open da biste učitali slike. Napomena: Ako prvi put pokrećete program, nakon što otvorite slike odmah idite na File → Save Document As → Text Document. Izaći će vam prozor u kom vas pita da li želite da „prepoznate“ stranice. Kliknite na Cancel i nastavite dalje s čitanjem.

2. Kada program učita sve slike, pronađite titl sa dva reda i nacrtajte tekstualno polje oko njega. Pritisnite desni taster miša na to polje i izaberite Change Area Type → Text (CTRL + 2). Izaberite Text Function → Header or Footer pa u meniju Areas kliknite na Save Area Tempate… Kada sačuvate šablon, izaberite sve učitane slike (CTRL + A), pritisnite Areas → Load Area Template… i otvorite šablon koji ste malopre sačuvali. Konačno, kliknite na dugme Read. Sledi ručni deo posla.

Savet: Preporučujem vam da u upravljačkom programu (drajveru) za grafičku karticu postavite kontrast, osvetljenost i gamu na najniže vrednosti kako bi se umnogome poboljšao OCR.





3. U ovom koraku proveravate sve titlove i ispravljate greške koje je program napravio. Ako je snimak lošeg kvaliteta, biće više grešaka, svakako. Za početak, pomerite prozor sa stranicama na desnu stranu, da vam bude lakše da ih „šaltate“. To ćete učiniti klikom na View → Pages Window → Details + Right. Prilikom ispravljanja, ako naiđete na više primeraka istog titla, stavite zvezdicu (*) ili bilo koji drugi znak koji nije tipičan za titlove na sve duplikate. Nipošto ih ne brišite! Zašto? Zato što ćete onda poremetiti vremenske odrednice titla koje ste napravili pomoću VideoSubFindera. Ne želite valjda i da ručno tempirate titl?

Pošto program ne prepoznaje kurziv, moraćete ručno da ga stavljate. Možete koristiti dvostruki znak „manje od“ (<<) za početak i „veće od“ (>>) za kraj. Kada završite sve, jednostavno upotrebite Search and Replace i zamenite znakove s pravim oznakama za kurziv (<i>, </i>).

Dobro pregledajte sve stranice, osim ako ne želite ovakve rezultate:



Ne, nije namešteno. ;)

4. Na redu je čuvanje titla. Izaberite Plain Text u padajućem meniju na vrhu ekrana pa kliknite na Save pored. U prozorčetu koje se otvori izaberite .txt kao tip datoteke, pod File options izaberite Create a single file for all pages pa kliknite na Format options… U opcijama označite sve kućice sem Use blank line as paragraph seperator i kliknite na OK.

5. Nakon što ste sačuvali titl, otvorite ga u Wordu. Videćete da je svaki titl na posebnoj stranici. Otvorite opciju Search and Replace (Find → Advanced Find… → Replace) pa u polje Find what unesite ^m, a u polje Replace with — ^p00:00:00,000 --> 00:00:00,000^p. Kliknite na Replace all i program će vam reći koliko je napravljeno izmena. Trebalo bi da bude za jedan manje od ukupnog broja stranica. Ne zaboravite da dodate 00:00:00,000 --> 00:00:00,000 iznad prvog titla, jer kod njega nije bilo preloma. Konačno, idite na File → Save as → Plain text i izaberite ispravno kodiranje.



Alternativa: Umesto izvođenja kerefeka Wordom, možete sačuvati titlove u više datoteka koje ćete nakon toga objediniti u jedan SRT pomoću Subtitle Edita. Potrebne su male modifikacije u četvrtom koraku; pod File options izaberite Create a separate file for each source file, a u Format options… označite samo Keep line breaks i Keep headers and footers. U petom koraku ne koristite Word već Subtitle Edit: idite na File → Import plain text… i markirajte kućicu Multiple files - one file is one subtitle a demarkirajte sve ostale. Kliknite na Open text file… i izaberite sve datoteke. Nakon toga, učitajte vremenske odrednice iz File → Import time codes… i spojte duplirane titlove koje ste označili zvezdicom (Ctrl+Shift+M), ako ih ima. Ukoliko se odlučite za ovu metodu, možete preskočiti sledeći, šesti korak.

6. A sada malo Subtitle Workshopa. Idite na Edit → Timings → Read timings from file... (Shift + Ctrl + T) i učitajte titl koji ste napravili VideoSubFinderom (sub.srt).



Ako je bilo dupliranih titlova (*), spojte ih pomoću opcije Edit → Subtitles → Combine Subtitles. Dakle, izaberete titlove sa zvezdicom, zajedno s prethodnim titlom, i opalite CTRL + K. Postoji i specijalizovani program samo za ovu namenu. Njega možete preuzeti ovde. Veliko hvala korisniku 54 sa Karagarge koji ga je razvio!



To bi bilo to. Sve zasluge idu korisniku tiger takođe sa Karagarge (ovde poznat pod nadimkom ds). Ja sam samo prepričao njegovo uputstvo na engleskom, izmenio prvo poglavlje i dodao neke sitnice. Srećno vam bilo!

Rancher:
Matrica za ABBYY FineReader
Napravio sam matricu za HRT-ove titlove koju možete preuzeti ovde. Probao sam nekoliko puta i mislim da ne može bolje, mada je daleko od savršenog. Naime, program u ovom režimu slabo razlikuje d od đ (pa sam za đ dodelio slovo d), l od malog i velikog i (najproblematičnije; za I sam dodelio l), č od ć, te se desi i da pomeša l i ! (retko). S ostalim slovima nema nikakvih problema. Ispod je slika ekstremnog mešanja l i i:



Jedina prednost ove matrice nad automatskim režimom jeste što ne pravi „smeće“, odnosno nepostojeće i besmislene znakove prikazane na slikama ispod:



Doduše, često se pojavljuje znak ^, pa je posle OCR-a najbolje da ga zamenite praznim prostorom:



Evo poređenja prvih deset titlova obema metodama (desno je OCR s matricom):



Da biste učitali matricu, idite na Tools → Options… → Read → Load from File…, pa pod Training označite Use only user pattern. Kao što sam napomenuo u prethodnoj poruci, program ne prepoznaje kurziv. Tačnije, prepoznaje ako za format stavite Word dokument, ali rezultati su dosta loši.

Preporuka:
1. Nakon što izvršite optičko prepoznavanje teksta, tražite linije tj. slike sa najvećim procentom omašaka. Najbolje je da postavite prikaz slika nadesno, te kliknete na ikonu grafikonâ da biste poređali slike od onih koje imaju najviše pogrešaka. Nažalost, procenti će se ažurirati čim promenite tekst, te nećete moći da koristite prečicu Alt + donja strelica za listanje. Moraćete da koristite miš.



2. Koristite opciju Verification. Program ima ugrađen rečnik hrvatskog jezika, koji je dosta dobar, te će korektura ići kao podmazana. Na vrhu prozora će se pojaviti slika titla, ispod nje tekstualni okvir, a ispod okvira predlozi pogrešno napisanih reči. Treba samo da dvokliknete na neki od predloga i program će preći na sledeću reč. Postoji i korisnički rečnik u koji možete da ubacujete reči koje su previđene u ugrađenom, a preporučujem da u njega dodate i imena glavnih likova serije, da bi vam kasnije bilo lakše. Evo kako to izgleda:



3. Gorenavedena opcija verovatno neće pronaći sve greške, te bi bilo pametno da tekst naknadno provučete kroz Word ili Hašček.

Zaključak:
Automatski režim prepoznaje sva slova kako valja, no pravi nebuloze u vidu nepostojećih znakova. Korisnički režim u drugu ruku ne koještarizuje, ali zato meša određena slova. Nisam probao koja je metoda vremenski učinkovitija, ali ovako okvirno mislim da je s matricom brže. Na vama je da procenite šta vam više godi.

PO team:

--- Citat: ---1. Nakon što izvršite optičko prepoznavanje teksta, tražite linije tj. slike sa najvećim procentom omašaka. Najbolje je da postavite prikaz slika nadesno, te kliknete na ikonu grafikonâ da biste poređali slike od onih koje imaju najviše pogrešaka. Nažalost, procenti će se ažurirati čim promenite tekst, te nećete moći da koristite prečicu Alt + donja strelica za listanje. Moraćete da koristite miš.
--- Kraj citata ---
Ja ne preporuččujem ovu metodu. Mislim da je bitno pregledati svaku sliku. Jer  ovi procenti se odnose samo na ono što program misli da je možda pogriješio. Nekad zna pisati 0%, a da sa slike uopće ne prepozna tekst (bude prazno).


P.S. Ima li opcija da se automatski zamijene ovi hijeroglifi sa praznim znakom? Mislim na ono što ima u wordu i notepadu da, npr., svugdje zamijeni "R" za "Z".

PO team:
Imam verziju ABBYY FineReader v10.0.102.105 Corporate Edition i ovo vidim kad pokušam učitati matricu:





Ima li opcija da uploadam, osim da skinem drugu verziju. Čak i nemam neke korake iz prvog posta, ali uspijem skenirati slike.

Rancher:

--- Citat: LemonzOO - 02.05.2013. 08:51:08 ---Ima li opcija da uploadam, osim da skinem drugu verziju. Čak i nemam neke korake iz prvog posta, ali uspijem skenirati slike.
--- Kraj citata ---
Misliš da učitaš matricu? Izgleda da ne postoji. Trebaće ti jedanaestica.

Navigacija

[0] Lista Poruka

[#] Slijedeća stranica

Idi na punu verziju