El reconocimiento óptico de caracteres expresado con frecuencia con la sigla OCR (del inglés Optical Character Recognition), es un proceso dirigido a la digitalización de textos desde una imagen o por ejemplo de un PDF. En muchos casos tenemos una imagen o un PDF que contiene texto, bien obtenido desde una fotografía, o de un escaneo de un documento, y nuestra intención es obtener ese texto para poder ser usado en: un articulo, o en los apuntes de la escuela. Para evitar mecanografiar la fotografía, hay programas que son capaces de reconocer el texto que contiene el archivo gráfico, capturarlo y así poder ser exportado a otro documento, o permitir un copia-pega.
GImageReader es un lector OCR simple, ligero, gratuito y multi-plataforma para ordenador que nos facilitara la tarea de obtener texto de imágenes o de archivos PDF.
Las funciones que esta aplicación permite realizar son las siguientes:
- Importar documentos PDF e imágenes desde el disco, dispositivos de escaneado, porta papeles y capturas de pantalla.
- Procesar múltiples imágenes y documentos de una sola vez
- Definir del área de reconocimiento manual o automática
- Reconocer a texto sin formato o documentos hOCR
- Mostrar el texto reconocido directamente junto a la imagen
- Procesar el texto reconocido, incluida la revisión ortográfica
- Importar documentos o imágenes cuyo texto se encuentre en diferentes idiomas
- Generar documentos PDF a partir de documentos hOCR
- Generar documentos PDF desde el documento hOCR
Fuente: Descargar desde la página de lanzamientos
Windows: Descargar desde la página de versiones
Fedora: Disponible en los repositorios oficiales
Debian: Disponible en los repositorios oficiales
Ubuntu: Disponible en ppa:sandromani/gimagereader
OpenSUSE: Disponible en OpenSUSE Build Service
Arch Linux: Disponible en los repositorios adicionales: gimagereader-gtk y gimagereader-qt
- Fedora:
yum install tesseract tesseract-langpack-es gimagereader
- Aprcity o derivados de Arch
yaourt -S gimagereader
Si no tenemos tesseract instalado, toca ejecutar:
sudo pacman -S tesseract tesseract-data-eng tesseract-data-spa
- En Ubuntu y derivadas como Linux Mint
sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt-get update
sudo apt-get install gimagereader tesseract-ocr tesseract-ocr-spa tesseract-ocr-eng
El funcionamiento, como ya he dicho, es muy simple. En este caso vamos a hacer una captura de pantalla que contiene texto e imágenes, y vamos a digitalizar el texto para exportarlo a un PDF.