Optical Character Recognition – OCR

Cand vorbim de arhivare electronica, vorbim in mod inerent si despre scanarea documentelor. Scanarea este de fapt fotografierea unei pagini (exact ca si cum ar fi facuta cu un aparat foto sau telefon mobil), iar rezultatul este o poza.

Textul pe care il vedem noi in poze, in realitate este vazut de calculator ca o insiruire de puncte albe, negre, gri si color pe fundalul foii albe. Pentru domnul calculator, in acea poza nu exista litere, ci doar pete de culoare! Asta, din pacate pentru noi, face imposibila modificarea documentului sau cautarea unor cuvinte cheie in continut.

Si asa s-a nascut nevoia pentru tehnologia OCR. OCR vine de la Recunoastere Optica de Caractere (in engleza Optical Character Recognition) si este un procedeu de transformare a pozelor care contin text, in text care poate fi modificat, cautat si gasit.

Simplu, nu? In realitate nu e simplu deloc, iar astfel de tehnologii, pe langa ca sunt destul de complexe, sunt si destul de scumpe. Cele mai cunoscute firme care furnizeaza solutii de OCR sunt pe piata de peste 20 (douazeci!) de ani. In tot acest timp au facut sute de mii de teste pentru a ajusta procedeul care transforma pozele in text ca sa-i creasca rata de succes. In acest moment textul scris cu caractere latine are o acuratete de 90% pana la un maxim de 98%, iar pentru caractere chineze, arabe, chirilice sau grecesti inca nu exista OCR fiabil. Mai mult, acuratetea recunoasterii cuvintelor depinde de limba in care este scris textul. Asta pentru ca motorul de OCR vine cu dictionare incorporate pentru mai multe limbi si verifica in dictionar fiecare cuvant recunoscut. De aceea, atunci cand alegeti un furnizor de OCR este important sa faceti in prealabil teste pentru limba romana si sa vedeti ce iese.

Avantajul de a avea un modul OCR integrat cu solutia de arhivare electronica este imediat:

  • documentele se scaneaza
  • se arhiveaza electronic
  • se aplica automat procedeul OCR peste documentele arhivate
  • documentele se indexeaza automat, adica devin disponibile pentru cautare dupa textul din document (se mai numeste full text search).

Totul se face dintr-o singura aplicatie si o singura fereastra. Simplu si comod.

La fel se intampla si cu documentele receptionate pe fax: la destinatie ele ajung ca poze ale documentului original si deci nu mai pot fi modificate sau cautate dupa cuvintele cheie din continut. Este posibila aplicarea de OCR si pe faxuri, dar despre asta pe saptamana viitoare.