CDR.cz - Vybráno z IT

Převádíme naskenované dokumenty a obrázky zpět na text

scan perex
Vytištěný dokument nebo jakýkoli obrázek s textem nemusí nutně znamenat, že na uživatele čeká zdlouhavé přepisování. Existují mnohem elegantnější řešení; jedním z nich je optické rozpoznávání znaků, na které se dnes podíváme v podání hned několika bezplatných online služeb. Chybět nebude ani video ukazující převod a práci v prostředí každé z nich.

Technologie zvaná OCR nám pomáhá spoustu let, ale přesto o ní mnoho uživatelů neví. Tím přichází o jedinečnou možnost ulehčit si život a ušetřit hlavně pak spoustu cenného času. Vše funguje na principu, kdy speciální software provede analýzu rozpoznávaného dokumentu a z jednotlivých obrazových bodů - pixelů - opět získá digitální znaky. Snadno lze tímto způsobem převádět naskenované texty, fotografie, tabulky a další soubory, obsahující znaky v obrazové podobě. Stejnou technologii využívá např. Google při digitalizaci knih, kdy knihy nejprve naskenuje a poté "prožene" nějakým OCR.

Tento software nemusí být pouze v podobě offline aplikace, kde musíme jako zástupce zmínit především povedený ABBYY FineReader, ale najdeme hned několik online - cloudových - alternativ. Ty se vyznačují snadným použitím, a především pak perfektní dostupností odkudkoli, kde je k dispozici internetové připojení. V článku si ukážeme tři zástupce, přičemž všechny testované služby podporují českou diakritiku, přestože se kvalita převodu a možnosti výstupu mnohdy liší.

Na co při převodu myslet

Pokud si pamatujete na nedávný článek o převodu multimedií, zmiňoval jsem v něm důležitý fakt, že z nižšího rozlišení vyšší nedostaneme. Podobné je to u OCR, kdy se výsledek odvíjí od použitého zdroje. Pokud použijeme kvalitní scan dokumentu, nebo máme obrázek v dobré kvalitě, je vše bez problému. S horší kvalitou a čitelností klesají i šance na úspěšné rozpoznání. Ideální je podle tvůrců jedné z aplikací zdrojový soubor s DPI 150 a vyšší.

NewOCR.com - zdarma zvládne i vícestránkové soubory

První z testovaných služeb čeká na návštěvníka na webu s adresou NewOCR.com. Přestože by se mohlo zdát, že toho stránky na první pohled moc nenabízí, není to pravda. V jednoduchosti je síla a zde to platí dvojnásob. Oproti dvojici dalších testovaných nenabízí žádnou možnost registrace, nebo přihlášení pomocí účtů sociálních sítí. Tato absence se ale nedá považovat za handicap, protože nemá žádný vliv na funkčnost.

Převádíme naskenované dokumenty 01

Podpora zahrnuje na 58 různých jazyků a problémem při převodu nejsou ani vícestránkové TIFF dokumenty. Oproti konkurentům není počet nahraných souborů nijak omezen a můžeme převádět jeden za druhým.

Před rozpoznáváním je nejdříve nutné soubor nahrát, což lze provést uploadem z počítače, nebo vložením odkazu a následujícím kliknutím na "Preview". V dalším kroku zvolíme z rolovací nabídky jazyk a na nahraném dokumentu v dolní části stránky vybereme táhnutím myši oblast, o kterou se software bude zajímat. Po stisku tlačítku OCR dojde k zobrazení rozpoznaného, v tu chvíli již editovatelného, textu. Výsledek je možné stáhnout v níže zmíněných formátech, nebo dále editovat pomocí externích online služeb.

Převádíme naskenované dokumenty 02

Podporované formáty:

  • Zdrojové: *.jpeg, *.jfif, *.png, *.gif, *.bmp, *.pbm, *.pgm, *.ppm, *.pcx
  • Archivy: Unix compress, *.bzip2, *.bzip, *.gzip
  • Vícestránkové dokumenty: *.tiff, *.pdf, *.djvu, *.doc, *.docx, *.rtf ,*.odt
  • Více různých souborů v ZIP archivu
  • Výstupní:  *.txt, *.doc, *.odt, *.rtf, *.pdf, *.html

OnlineOCR.net - Jednoduše a rychle zvládá i tabulky

Druhá online OCR aplikace se nachází na adrese OnlineOCR.net. Stránky vedou návštěvníka k rychlému rozpoznání textu bez zbytečného nastavování a nutnosti registrace. Poradí si s několika druhy vstupních obrazových souborů a současně nabízí výstup mezi ty nejvyužívanější z kancelářského balíku Office.

Převádíme naskenované dokumenty 03

Podporovaná je široká škála jazyků, konkrétně 32, mezi nimiž nechybí ani čeština. Jediným a bohužel značně citelným omezením je (u verze zdarma) chybějící podpora vícestránkových dokumentů, což především u PDF nepotěší. Velikost nahraného souboru je poté 4 MB a do hodiny lze převést pouze 15 obrázků - stran.

Podporované formáty:

  • Zdrojové: *.pdf, *.tiff (i vícestránkové), *.jpeg, *.jpg, *.bmp, *.pcx, *.png, *.gif, ZIP archivy obsahující předchozí typy souborů jsou také podporovány.
  • Výstupní: *.pdf, *.doc, *.xls, *.html, *.rtf, Text Plain
Převádíme naskenované dokumenty 04

Stránky mají i možnost registrace, po které dostane uživatel k dispozici 20 kreditů - stran -, které je možné dokupovat. Nutno podotknout, že po přihlášení je prostředí trochu rozdílné a při každém převodu jsou odebírány kredity v závislosti na počtu stran dokumentu. Platí tedy, že po registraci si můžeme bez dalších poplatků rozpoznat 20 stran dokumentu a poté si buďto dokoupit kredity, nebo využívat bezplatné verze.

ABBYY FineReader Online - nejkvalitnější převod, ale pouze 29 stránek zdarma

V úvodu zmiňovaná aplikace ABBYY FineReader má svého sourozence i v online podobě, konkrétně na adrese Finereader.abbyyonline.com. Ta se drží své dobré pověsti a vyniká velmi kvalitním rozpoznáváním. Do služby je nutné se nejprve přihlásit nebo registrovat. Zde lze využít profilů sociálních sítí (Facebook a Twitter), což ušetří čas s vytvářením nového účtu.

Převádíme naskenované dokumenty 05

Po přihlášení se uživatel dostane do přehledného rozhraní, kde dochází k samotné práci s dokumenty. Ve čtyřech snadných krocích se lze dobrat k velmi zdařilému výsledku. První z nich je vybrání dokumentu, druhý jazyku/ů, další volba výstupního formátu a posledním krokem vybrání souborů a převod.

Stejně jako v předchozím případě je za každou rozpoznanou stránku odečten jeden "kredit". Po jejich vyčerpání nezbude nic jiného než zakoupit další, nebo "pozvat" přátele (volba v pravém sloupci) a získat tak další tři strany k dobru. Pokud se vám tedy nechce platit, vyplatí se ABBYY FineReader Online pouze pro kratší dokumenty a občasné - jednorázové - využití.

Podporované formáty:

  • Zdrojové: *.jpg (*.jpeg), *.tif (*.tiff), *.pcx, *.dcx, *.bmp, *.png, *.gif, *.djvu, *.djv, *.pdf (včetně heslem chráněných)
  • Výstupní: *.doc, *.docx, *.xls, *.xlsx, *.odt, *.txt, *.rtf, *.pdf, *.pdf

Slovo závěrem aneb který vybrat?

Rozpoznávání znaků nám může pomoci ve spoustě situací a ušetřit nemalé časové prostředky. Stačí zvolit správnou službu, mít podklady ve slušné kvalitě, po převodu vše pro jistotu zkontrolovat a případně doplnit formátování.

A která ze tří zmiňovaných online OCR je nejlepší? Kvalitou výstupu určitě vede ABBYY FineReader, který ale, pokud se vám nechce platit, nebude vhodným kandidátem pro každodenní provoz. Pokud ale sháníte službu na jednorázový převod několika stran, nemůžete si vybrat lépe. Server Online OCR v tomto ohledu tápe a nedá se říci, že by konkurenty nějak předháněl kvalitou a nabídkou služeb. Pokud tedy sháníte opravdu bezplatné řešení bez jakýchkoli omezení, určitě neváhejte vyzkoušet první zmiňovaný - New OCR.

Víte o další dobré službě pro převod obrázků na editovatelný text? Neváhejte a podělte se s námi v diskuzi pod článkem.

Tagy: 
OCR

Lukáš Voříšek (Google+)

Šéfredaktor nového technologického magazínu inSmart.cz. Autor je fanouškem revolučních technologií a projektů, jako je fotoaparát Lytro a minipočítač Raspberry Pi. Dříve přispíval do magazínů PCTuning a Stahuj. S nadějí čeká na den, kdy nebude muset sedět u klávesnice a vše obstará čip v hlavě...

více článků, blogů a informací o autorovi

Diskuse ke článku Převádíme naskenované dokumenty a obrázky zpět na text

Úterý, 24 Duben 2012 - 16:10 | al sl | edit tady na cdr a diit je jeste dlouha...
Pátek, 20 Duben 2012 - 15:42 | johnthelittle | HndPrint=HandPrint, boze, kdy uz konecne bude...
Pátek, 20 Duben 2012 - 15:41 | johnthelittle | z hlediska OCR nema zadny SW vicemene problem /...

Zobrazit diskusi