GImageReader lector OCR simple y ligero

El reconocimiento óptico de caracteres expresado con frecuencia con la sigla OCR (del inglés Optical Character Recognition), es un proceso dirigido a la digitalización de textos desde una imagen o por ejemplo de un PDF. En muchos casos tenemos una imagen o un PDF que contiene texto, bien obtenido desde una fotografía, o de un escaneo de un documento, y nuestra intención es obtener ese texto para poder ser usado en: un articulo, o en los apuntes de la escuela. Para evitar mecanografiar la fotografía, hay programas que son capaces de reconocer el texto que contiene el archivo gráfico, capturarlo y así poder ser exportado a otro documento, o permitir un copia-pega.

GImageReader es un lector OCR simple, ligero, gratuito y multi-plataforma para ordenador que nos facilitara la tarea de obtener texto de imágenes o de archivos PDF.

Las funciones que esta aplicación permite realizar son las siguientes:

Importar documentos PDF e imágenes desde el disco, dispositivos de escaneado, porta papeles y capturas de pantalla.
Procesar múltiples imágenes y documentos de una sola vez
Definir del área de reconocimiento manual o automática
Reconocer a texto sin formato o documentos hOCR
Mostrar el texto reconocido directamente junto a la imagen
Procesar el texto reconocido, incluida la revisión ortográfica
Importar documentos o imágenes cuyo texto se encuentre en diferentes idiomas
Generar documentos PDF a partir de documentos hOCR

- Generar documentos PDF desde el documento hOCR

Fuente: Descargar desde la página de lanzamientos

Windows: Descargar desde la página de versiones

Fedora: Disponible en los repositorios oficiales

Debian: Disponible en los repositorios oficiales

Ubuntu: Disponible en ppa:sandromani/gimagereader

OpenSUSE: Disponible en OpenSUSE Build Service

Arch Linux: Disponible en los repositorios adicionales: gimagereader-gtk y gimagereader-qt

Se encuentra disponible en los repositorios de las principales distribuciones linux, y es posible instalarlo desde terminal:

Fedora:

yum install tesseract tesseract-langpack-es gimagereader

Aprcity o derivados de Arch

yaourt -S gimagereader

Si no tenemos tesseract instalado, toca ejecutar:

sudo pacman -S tesseract tesseract-data-eng tesseract-data-spa

En Ubuntu y derivadas como Linux Mint

sudo add-apt-repository ppa:sandromani/gimagereader

sudo apt-get update

sudo apt-get install gimagereader tesseract-ocr tesseract-ocr-spa tesseract-ocr-eng

El funcionamiento, como ya he dicho, es muy simple. En este caso vamos a hacer una captura de pantalla que contiene texto e imágenes, y vamos a digitalizar el texto para exportarlo a un PDF.

Añadimos un archivo, pegamos una imagen o realizamos una captura de pantalla

Se nos mostrara el documento seleccionado

Podemos ajustar de forma manual el área que queremos capturar o dejar que el programa haga su magia y reconozca los textos que contiene.

Si fuera necesario podemos manipular la imagen para aumentar o disminuir el brillo, contraste, resolución de pantalla, o invertir los colores.

Una vez se muestran las áreas que contienen el o los texto que queremos digitalizar, le indicaremos en que idioma se encuentra escrito, gImageReader reconocerá el texto y nos mostrará a continuación los textos que ha reconocido.

Podremos copiarlo o guardarlo en en un archivo de texto plano, que nos permitirá manipular más tarde.

En este caso te he descrito los pasos para una imagen, pero el potencial de la aplicación va más allá por que es capaz de digitalizar documentos PDF que no sean editable y exportarlo a un PDF que puedas modificar.

GImageReader lector OCR simple y ligero

El reconocimiento óptico de caracteres expresado con frecuencia con la sigla OCR (del inglés Optical Character Recognition), es un proceso dirigido a la digi...

Etiquetas

Posts relacionados

Lynx navegador web para terminal

Instalar varios paquetes DEB o RPM a la vez

Instalar AutoFirma en Linux 🐧

Protege tu sistema Linux cuando la memoria se agota

DistroSea, probar distribuciones Linux desde el navegador

Liberar espacio en sistemas basados en Linux