Enrera
Bloc B
Formació TIC en centres educatius
Imprimir
Pràctica B158. Utilització de l'OCR per a la captura parcial d'un document en paper
 
 

Una possibilitat d'utilització conjunta d'un escànner i l'editor de textos Word, és l'obtenció d'un document, en format document, a partir d'un altre en format paper.
Aquesta característica facilita l'aprofitament de documents ja escrits en paper sense haver d'escrivir-los a l'ordinador un altre cop.
El sistema de reconeixement de caràcters OCR, en concret el corresponent al programa Readiris, permet realitzar aquesta tasca de forma senzilla amb resultats òptims, tot depenent de la qualitat de l'imprés a partir del que es vol obtenir el document.

La instal·lació del programa, a l'ordinador propietari de l'escànner, és força senzilla. Tan sols cal assegurar-se que l'idioma d'instal·lació és el català i acceptar cada una de les finestres que es mostren durant el procés d'instal·lació.

  • Un cop acabada la instal·lació, en iniciar el programa per primera vegada, s'activa l'Assistent OCR, que podeu cancel·lar (i fins i tot desactivar-lo per a les properes ocasions).
  • A Fitxer | Seleccionar Font... Podeu seleccionar el tipus d'escanner més convenient per a les tasques d'escannejat. L'opció del tipus TWAIN (de la llista que obtindreu) acostuma a ser una opció força adequada.
  • Una opció força interessant, per a familiaritzar-se amb l'utilització del programa, consisteix en fer servir imatges prèviament escannejades en comptes d'obtenir-les directament de l'escànner. D'aquesta forma s'agilitza el procés d'obtenció de del document (el temps d'obtenció de les pàgines es fa des del disc dur en comptes de l'escànner) i, a més, permet utilitzar el programa Readiris en un altre ordinador, encara que no tingui instal·lat cap dispositiu d'escannejat.
   
Atenció!
Abans de realitzar la pràctica, caldrà executar el fitxer B158.exe
Aquest fitxer us permet crear, en el vostre ordinador, una carpeta anomenada tic\blocb\readiris, amb els fitxers necessaris pel desenvolupament de la pràctica.
   
Desenvolupament de la pràctica
   
Pràctica
  1. Poseu en marxa el programa Readiris
  2. Cancel·leu l'assistent OCR, cas que s'activi. Podeu desactivar-lo per a properes ocasions.
  3. Configureu l'idioma d'interficie d'usuari (només és necessari si encara no s'havia configurat o si la instal·lació s'ha fet en un altre idioma):
    • Demaneu Configuració | Idioma d'interfície d'usuari...
    • De la llista que obtindreu, seleccioneu Català i premeu el botó D'acord
  4. Configureu l'origen dels documents, el format i la resolució de captura.
    • Demaneu Configuració | Escànner...
    • Assenyaleu l'opció <Image> i premeu el botó D'acord
    • De la següent finestra, deixeu les propostes de Format i Resolució als valors indicats (A4, 300 ppp i Blanc i negre)
  5. Recupereu el document document.jpg que trobareu a la carpeta tic\blocb\readiris
    • Premeu el botó Capturar una imatge o bé demaneu Fitxer | Obrir...
    • De la finestra Font, localitzeu el directori tic\blocb\readiris i l'arxiu document.jpg i recupereu-lo prement el botó Abrir.
  6. Observeu el resultat de la captura:
    • Les zones de color groc, corresponen a aquelles que l'OCR ha detectat com a zones de text
    • Les zones de color blau correspondrien a les que presuposa que són imatges
    • Les zones de color fucsia correspondrien a zones on s'hi troben ubuicades taules.
    • La línia de fletxes indica l'ordre en que, el programa, faria el reconeixement del document.
  7. Elimineu les àrees marcades pel programa:
    • Premeu l'eina Seleccionar una finestra.
    • Assenyaleu, mentre manteniu premuda la tecla de Majúscules, totes i cada una de les zones marcades per tal de seleccionar-les.
    • Elimineu-les prement la tecla Surp.
  8. Seleccioneu la porció de text que desitgeu capturar:
    • Premeu l'eina Dibuixar una finestra de text
    • Feu clic a la cantonada superior esquerra de la zona de text a marcar i deixeu anar el botó del ratolí.
    • Desplaceu el ratolí, sense prémer cap botó, fins a la cantonada inferior dreta de la zona a marcar.
    • Feu clic amb el ratolí per a acabar de definir la zona.
    • Obtindreu només una zona marcada com es mostra a la següent imatge:
  9. Realitzeu el reconeixement del document
    • Premeu el botó Reconeixement
    • En fer-ho s'engega el procés d'aprenentatge de l'OCR, que s'aturarà per a demanar-vos confirmació en trobar lletres o paraules dubtoses.

      Per tal de no enlentir el procés, premeu el botó Acabar.
      En fer-ho, s'obrirà el Word amb el document a l'interior -el format és .rtf- preparat per a editar.
  10. Reviseu el document que haurà aparegut al Word. Corregiu, manualment, les possibles faltes d'ortografia o errades que pugui haver-hi.
  11. Deseu el document, en format .doc, amb el nom b158, a la carpeta tic\blocb\readiris
    • Demaneu Archivo | Guardar como
    • Localitzeu, en Guardar en:, la carpeta de destinació (tic\blocb\readiris)
    • Desplegueu, Guardar como tipo: i escolliu Documento de Word (*.doc)
    • Escriviu el nom de l'arxiu
    • premeu el botó Guardar.
   
 
Amunt