Autor Tema: Alternativa za OCR skripte  (Posjeta: 3545 )

0 članova i 1 Gost pregledava ovu temu.

Offline suadnovic

  • Član
  • ***
  • Postova: 755
Alternativa za OCR skripte
« : 09.11.2013. 11:17:47 »
Eh, znao sam da će mi EmEditor završiti posao. Zahvaljujem se gospodinu Yutaki Omuri, koji mi je omogućio ovo:

Nadam se da će sledeće pomoći vrednim momcima i curama na forumu.  Nije nikakav problem ispraviti u titlu ono što želite sa Search and Replace u SW ili nekom tekst editoru, ali je pomalo dosadno i sporo. Ovo je izvrsna alternativa za OCR skripte
Koristićemo dakle EmEditor 13.0.6 (koristite uvek zadnju verziju) koji je stvarno fantastičan. (Od velikog konkurenta Notepad++ razlikuje se time što može da učita jako velike dokumente, i strahovito je brz, no šta ćete koristiti, na kraju krajeva, stvar je ukusa i navika).
U njemu imate mogućnost da napravite Macro koji će vam trenutno izvršiti sve zamene u titlu koje želite. Evo uputstva šta trebate da uradite:

Otvorite EmEditor, i pritisnite Ctrl + H da dobijete dijalog za zamenu, a onda sledite uputstva sa slika:













Nadam se da je ovo dovoljno. Vremenom će Macro prerasti u pravu biblioteku, i imaćete izvanredan alat. Nadam se da će vam koristiti. Naravno, možete ga koristiti i za obrnutu srpski --> hrvatski zamenu. Sve što trebate da uradite je da napravite svoj spisak zamena, i sačuvate ih kao Macro.
Još da se zahvalim gdinu Yutaki Omuri (autoru EmEditor-a), koji mi je pomogao oko ovoga.
« Zadnja izmjena: 09.11.2013. 11:38:13 suadnovic »

Offline suadnovic

  • Član
  • ***
  • Postova: 755
Odg: Alternativa za OCR skripte
« Odgovor #1 : 09.11.2013. 11:50:47 »
Zaboravio sam gore da postavim i ovu sliku, potrebna je i ona


Offline suadnovic

  • Član
  • ***
  • Postova: 755
Odg: Alternativa za OCR skripte
« Odgovor #2 : 09.11.2013. 12:22:14 »
Jedna od linija mog Macro-a je

document.selection.Replace("Uvjek","Uvek",eeReplaceAll | eeFindReplaceEscSeq | eeFindReplaceQuiet | eeFindReplaceCase);

On će tražiti u titlu sve reči Uvjek i zameniti ih sa Uvek.
Dopunu Macro-a vršite tako što ga editujete, pa dodate novu gornju liniju (ili bilo koju drugu), i u njoj par Uvjek, Uvek zamenite drugim željenim parom. Obavezno posle toga kliknite na Save. Dopunili ste Macro, i odmah je spreman za upotrebu.
« Zadnja izmjena: 09.11.2013. 12:27:09 suadnovic »

Offline petko

  • Shpadoinkle!
  • Administrator
  • Izuzetak
  • *****
  • Postova: 5218
  • Spol: Muški
  • Ako kaniš pobijediti, ne smiješ izgubiti.
Odg: Alternativa za OCR skripte
« Odgovor #3 : 09.11.2013. 12:30:09 »
Ne bih da kvarim entuzijazam, ali ne može to tako jednostavno.
Evo samo par primera stvari koje se mogu naći u tekstu obrađenom tako napravljenom skriptom:

Original
Idemo u Boku.
Nitkove, trebalo je glatko brijanje.
retko, kratko, slatko, vitko, ukratko...
Za minut će biti ovde.
Kada otkriješ proneveru, ti je prikriješ.
   Zamena
Bok > Zdravo
tko > ko
tko > ko
ut će >  uće
riješ > reš
   Rezultat
Idemo u Zdravou.
Nikove, trebalo je glako brijanje.
reko, krako, slako, viko, ukrako...
Za minuće biti ovde.
Kada otkreš proneveru, ti je prikreš.

Stanje se donekle može popraviti uključivanjem opcije da se izmena vrši samo u slučaju da je nađena cela reč, ali ni to ne rešava sve.




I refuse to prove that I exist, says God…
…for proof denies faith, and without faith I am nothing.
Douglas Adams
       

Offline suadnovic

  • Član
  • ***
  • Postova: 755
Odg: Alternativa za OCR skripte
« Odgovor #4 : 09.11.2013. 13:24:02 »
Apsolutno si u pravu, probaću da kontaktiram g.Omuru da se stvar popravi. Nadam se da može, verovatno se treba odgovarajuća linija Macro-a modifikovati.
Evo nešto probah, za tko u liniji bi izgleda trebalo da stoji " tko ", " ko " sa razmacima posle reči, tako su valjda izvojene.
No, mislim da nema titla u kome će se pojaviti više od par takvih izuzetaka, ipak su to kuriozne situacije. No dobro da si naveo svoje primere, zato što to otvara drugo pitanje: Kad se Macro primeni, kako najefikasnije pronaći sve tako nastale anomalije?
Ići red po red bi poništilo sve vremenske uštede dobijene primenom Macro-a.
Meni jedino pada na pamet provera titla sa titlYu.
Drugo rešenje je brisati sve linije Macro-a koje prave probleme.
« Zadnja izmjena: 09.11.2013. 14:08:38 suadnovic »

Offline suadnovic

  • Član
  • ***
  • Postova: 755
Odg: Alternativa za OCR skripte
« Odgovor #5 : 10.11.2013. 04:48:18 »
Ok, dobio sam pomoć na EmEditor-ovom forumu za anomaliju sa Bok. Macro treba da je menja samo kada stoji kao samostalna reč, tako da treba zameniti odgovarajuću liniju u Macro-u ovom
document.selection.Replace("Bok","Zdravo",eeReplaceAll | eeFindReplaceEscSeq | eeFindReplaceQuiet | eeFindReplaceCase | eeFindReplaceOnlyWord);

Proverio sam, radi! Ista stvar i sa tko i Tko. Treba u Macro-u zameniti odgovarajuće linije novim

document.selection.Replace("Tko","Ko",eeReplaceAll | eeFindReplaceEscSeq  | eeFindReplaceQuiet | eeFindReplaceCase | eeFindReplaceOnlyWord);
document.selection.Replace("tko","ko",eeReplaceAll | eeFindReplaceEscSeq  | eeFindReplaceQuiet | eeFindReplaceCase | eeFindReplaceOnlyWord);

Primer
pre upotrebe makroa

Boka
Bok
Bokser
Tko
tko
nitkov

nakon upotrebe makroa
Boka
Zdravo
Bokser
Ko
ko
nitkov

Napravite sami svoj primer tekst dokumenta, i uverite se i sami. Radi bez greške.
Bio bih zahvalan da se postuju i druge primećene anomalije kod upotrebe Macro-a, da bi se eventualno otklonile.

P.S.
Za minut će biti ovde.
Ovde, nažalost, nema pomoći. Odličan primer.

Kada otkriješ proneveru, ti je prikriješ.
Kad sam ubacio liniju za riješ, mislio sam na reči koje počinju sa time, tako da se ovo verovatno može otkloniti.

Ako vas ovo zanima, možete pratiti razvoj situacije na
http://www.emeditor.com/forums/topic...ro/#post-17456
   
« Zadnja izmjena: 10.11.2013. 05:30:17 suadnovic »

Offline suadnovic

  • Član
  • ***
  • Postova: 755
Odg: Alternativa za OCR skripte
« Odgovor #6 : 10.11.2013. 06:28:18 »
EmEditor ima imresivan Help, a ove stvari se nalaze među Macro referencama.
Dodavanje eeFindReplaceOpenDoc u linije makroa, (ili samo u pojedine) čini mi se da bi dalo mogućnost da se istovremeno promeni (selektivno kod izbora reči) koliko god hoćete dokumenata, koliko god ste učitali u njega. Dakle više titlova odjednom. Stvarno impresivno.
A čini mi se da sam video i mogućnost da sve izvršene promene, u samo jednoj liniji, budu označene, tako da bi to pomoglo kod anomalija.
Ima mnogo mogućnosti, naprosto mislim da treba probati. Lepota je što vam je Macro uvek tu ko zapeta puška, šta god sa njim uradili.
« Zadnja izmjena: 10.11.2013. 07:12:40 suadnovic »

Offline igniss

  • E=hν
  • Prevoditelj extra
  • Heroj član
  • *****
  • Postova: 2359
  • Spol: Muški
  • This is where we fight! This is where they die!
Odg: Alternativa za OCR skripte
« Odgovor #7 : 10.11.2013. 08:07:22 »
Editor izvršava promene redom. Zato je potrebno uočene probleme rešiti tako što će se izvršene promene poništiti.

t ć --> ć

Onda se u sledećim redovima rešavaju uočeni problemi:

minuće --> minut će

Oni kojima baš mnogo smeta hrvatski, mogu u posebnoj temi da ukazuju na probleme u makroima i predloge kako ih prevazići. Poenta je da se u okviru istog makroa ili skripte komande za rešavanje problema zadaju posle komande koja zadaje problem.
Going to church makes you a Christian as much as going to the garage makes you a car.

Offline MilanRS

  • ...
  • Administrator
  • Izuzetak
  • *****
  • Postova: 10673
  • Spol: Muški
Odg: Alternativa za OCR skripte
« Odgovor #8 : 10.11.2013. 12:56:16 »
Probaj "preobratiti" sljedeće rečenice:
Moja obitelj je velika. U mojoj obitelji ima mnogo članova. Obitelj činimo svi mi. Vidio sam dvije obitelji Petrovića juče.
... -> Better Call Saul s2 -> Billions s3 -> Bosch s2 -> Westworld s2 -> The Mick s2 -> The Crossing s1 -> The Affair s4 -> Sharp Objects -> You're the Worst s4 -> Silicon Valley s4 -> Luther s5 -> trenutno: CSI: CSI s13 / Cuckoo s1 / The Comeback s1 / Northern Exposure s1 / Criminal Minds s11 / Quantico s2 / The Simpsons s29 / Veep s5 / Gomorra s2 / Peaky Blinders s4 -> Fargo s3 -> Billions s4



#sfns

Offline petko

  • Shpadoinkle!
  • Administrator
  • Izuzetak
  • *****
  • Postova: 5218
  • Spol: Muški
  • Ako kaniš pobijediti, ne smiješ izgubiti.
Odg: Alternativa za OCR skripte
« Odgovor #9 : 10.11.2013. 14:16:28 »
Nije samo obitelj nerešiva, isto važi i za reči: planet, razina, tjedan, tlak, što, zrak, računalo, stroj, jezgra, ured, iznimka…






I refuse to prove that I exist, says God…
…for proof denies faith, and without faith I am nothing.
Douglas Adams
       

Offline suadnovic

  • Član
  • ***
  • Postova: 755
Odg: Alternativa za OCR skripte
« Odgovor #10 : 13.11.2013. 06:50:30 »
Ljudi, zajebite više sa tim defetizmom. Milanu su kod OCR-a pomagali mnogi, ne bi bilo loše da i ovde neko uskoči. Stvar je u tome da sa editovanim makroom možete da se igrate do mile volje, i da probate mnoge stvari, trenutno ga menjate i uvek se možete vratiti na staro (poništiti promene), ako nešto krene loše (dakle, puno je manipulativniji za rad no OCR skripta). I naravno, zašto bih u njega unosio problematične linije, kad ne moram? Ne zaboravite na kraju naslov tread-a, "Alternativa za OCR skripte". Ne bije vas niko po ušima da ovo radite, ako nećete.
« Zadnja izmjena: 13.11.2013. 06:58:27 suadnovic »

Offline MilanRS

  • ...
  • Administrator
  • Izuzetak
  • *****
  • Postova: 10673
  • Spol: Muški
Odg: Alternativa za OCR skripte
« Odgovor #11 : 13.11.2013. 07:23:57 »
Nije to defetizam, borio sam se ja s tim prije šest godina (vidi se kad sam otvorio temu OCR skripta za SW).
Onda sam vidio da to ne može automatski da se odradi, mora opet homo sapiens da pregleda titl i dorađuje.
Pošto sam odrastao u srpskom govornom području a uz hrvatske TV programe, nema razlike da li gledam sa srpskim ili hrvatskim prevodom, da li je transkribovano ili ne.
Zato sam se prebacio na pravljenje skripte koja je neutralna po pitanju jezika a pravi poboljšanje titla.

Slobodno ti nastavi sa ovim ali ako se budu pravile obrade provučene kroz taj makro i bez ljudskog dodira titl bude plasiran na internet, biće više štete nego koristi.

... -> Better Call Saul s2 -> Billions s3 -> Bosch s2 -> Westworld s2 -> The Mick s2 -> The Crossing s1 -> The Affair s4 -> Sharp Objects -> You're the Worst s4 -> Silicon Valley s4 -> Luther s5 -> trenutno: CSI: CSI s13 / Cuckoo s1 / The Comeback s1 / Northern Exposure s1 / Criminal Minds s11 / Quantico s2 / The Simpsons s29 / Veep s5 / Gomorra s2 / Peaky Blinders s4 -> Fargo s3 -> Billions s4



#sfns

Offline suadnovic

  • Član
  • ***
  • Postova: 755
Odg: Alternativa za OCR skripte
« Odgovor #12 : 13.11.2013. 15:43:56 »
Kad sam počeo sa ovim, priznajem, radio sam za svoje potrebe. Možda su mi porasli apetiti utoliko, što mislim da je ovo sa makroima vredi istražiti. Praktično za svaki titl koji želim da "prevedem", mogu nakon obaveznog pregleda originala, napraviti novi makro za taj konkretni titl koji želim da obradim: od PR (koji bi sadržao neke standardne stvari) napravim PR1 (koji posle mogu i da obrišem), no pitanje je koliko bi se to isplatilo vremenski (liči malo na ono "što izbegneš na mostu, platiš na ćupriji"). Po meni ima svrhe za titlove sa velikim brojem linija (1500+).

Offline domos

  • Prevoditelj početnik
  • Mlađi član
  • ***
  • Postova: 444
  • Spol: Muški
Odg: Alternativa za OCR skripte
« Odgovor #13 : 14.11.2013. 00:46:56 »
Za prevođenje sa SR->HR ima program B3S SubTranslator.
Ne napadajte jer sam upotrijebio izraz "prevođenje", namjerno sam tako napisao jer je to posao koji se ne može napraviti sistemom "batch replace".
Iako su jezici slični, ima toliko detalja da treba ići od riječi do riječi (rečenice) i imati mogućnost potpune kontrole nad promjenama.
To se posebno odnosi na "Multivalue words" i "Unrecognized words".
Najpoznatija je Maya ->Maja ->Svibnja. Sigurno bi se i u obratnoj situaciji našlo ovakvih bisera.
Mislio sam da ima sličan program i za hr->sr pa mi je ova priča bila malo čudna.
Ako nema, onda bi se od njega mogao napraviti takav program, puno praktičnije i lakše.
Trebalo bi zamijeniti (obrnuti) neke rječnike u programu (ReplaceableWords, MultiValueWords),
rječnici su u txt formatu (riječ;reč;), mogu se dopunjavati i mijenjati radom u programu, razmjenjivati i dopunjavati iz tuđih rječnika...

Sve problematične riječi staviti u Multivalue rječnik, dati više mogućnosti odabira...

Još se ne bi morali mučiti s "Da Replacementom", koliko ja znam u srpskom je dopušteno i "ja ću da prevodim" i "ja ću prevoditi".
To je najteži posao u sr->hr :facepalm

It takes a lot of courage to say nice things anonymously

Offline suadnovic

  • Član
  • ***
  • Postova: 755
Odg: Alternativa za OCR skripte
« Odgovor #14 : 14.11.2013. 14:49:35 »
Kad se odlučim da radim hr-sr prevod, u startu sam spreman na 5-6 časovni mukotrpan rad, jer makro nešto popravi, ali ne sve. (Koliko li bi mi trebalo bez njega). Dva najveća problema u zameni su mi
1) Izgleda da ni hrvatski nije svuda isti:
Primer: naći ćete kupit ću ali i kupiti ću (možda nije najsrećniji primer, ali jasno je na šta mislim)
2) U hrvatskom se u rečenici koristi infinitiv glagola
(Morat ću to učiniti--> Moraću to da uradim) Kad bih za ovo imao nekakvo zadovoljavajuće rešenje, verujem da bi se vreme prevođenja značajno skratilo. Nažalost, mislim da tu nema pomoći
okončati--> da okončam
Ili možda ipak probati nešto sa makroom, pa vršiti dodatne popravke.
« Zadnja izmjena: 14.11.2013. 14:58:39 suadnovic »

Offline ameo

  • Regularni forumaš
  • *
  • Postova: 93
  • Spol: Muški
  • I can't count the reasons I should stay.
Odg: Alternativa za OCR skripte
« Odgovor #15 : 01.06.2016. 11:41:04 »
možeš li ovu skriptu ponovo negdje postaviti?
koliko vidim, nema je nigdje za skinut, a treba mi za nešto.
⋆"Preklinjem te pet kuna, bako!
- Ma tko te rodi pohlepnog tako?"⋆



:volim
Titlovi se nisu postavili

Tags: