Język japoński OCR

Konwersji zeskanowanych dokumentów i obrazów w edytowalne Word, PDF, Excel i TXT (tekst) formatów wyjściowych

Jak rozpoznać tekst?

Icon of «Prześlij plik»
Krok 1

Prześlij plik

Musisz wybrać plik, który chcesz przekonwertować. Możesz wziąć go z komputera, dysku Google, Dropboxa lub po prostu przeciągnąć i upuścić na stronie.
Icon of «Wybierz język i format wyjściowy»
Krok 2

Wybierz język i format wyjściowy

Musisz wybrać wszystkie języki, które są używane w dokumencie. A także wybrać dowolny format wyjściowy, na przykład .doc (jest dostępnych ponad 10 różnych formatów tekstu), który Ci odpowiada.
Icon of «Konwertuj I Pobierz»
Krok 3

Konwertuj I Pobierz

Aby uzyskać rozpoznany tekst, musisz kliknąć przycisk 'Rozpoznaj' i pobrać plik z rozpoznanym tekstem.

Optyczne rozpoznawanie znaków

Optyczne rozpoznawanie znaków lub optyczny czytnik znaków (OCR) to taki sposób przetwarzania obrazów, w którym elektronicznie lub mechanicznie zamienia się tekst wpisany, odręczny lub drukowany na kod komputerowy. Można to zrobić na przykład ze zeskanowanego dokumentu, zdjęcia dokumentu, zdjęcia krajobrazu z widocznym tekstem na billboardach lub na tekst napisany na ekranie telewizora.

OCR, czyli optyczne rozpoznawanie znaków, to popularny sposób na digitalizację drukowanych tekstów. Dzięki niemu możemy elektronicznie edytować, przeszukiwać i przechowywać dokumenty takie jak faktury, wyciągi bankowe czy też wizytówki. OCR znajduje też zastosowanie w procesach maszynowych, jak przetwarzanie kognitywne czy tłumaczenie maszynowe. Ta dziedzina badań skupia się na rozpoznawaniu wzorców, sztucznej inteligencji i wizji komputerowej.

Wcześniejsze wersje programów do OCR wymagały szkolenia z obrazów każdego pojedynczego znaku i obsługiwały tylko jedną czcionkę na raz. Jednak teraz zaawansowane systemy potrafią uzyskać wysoki poziom dokładności przy rozpoznawaniu większości czcionek oraz obsługują wiele cyfrowych formatów plików obrazu. Niektóre z tych systemów są nawet w stanie odtworzyć sformatowane dane wyjściowe, które bardzo zbliżają się do oryginalnej strony, włączając w to obrazy, kolumny oraz inne elementy nietekstowe.