Mostrando entradas con la etiqueta pdf. Mostrar todas las entradas
Mostrando entradas con la etiqueta pdf. Mostrar todas las entradas

GImageReader lector OCR simple y ligero

El reconocimiento óptico de caracteres expresado con frecuencia con la sigla OCR (del inglés Optical Character Recognition), es un proceso dirigido a la digitalización de textos desde una imagen o por ejemplo de un PDF. En muchos casos tenemos una imagen o un PDF que contiene texto, bien obtenido desde una fotografía, o de un escaneo de un documento, y nuestra intención es obtener ese texto para poder ser usado en: un articulo, o en los apuntes de la escuela. Para evitar mecanografiar la fotografía, hay programas que son capaces de reconocer el texto que contiene el archivo gráfico, capturarlo y así poder ser exportado a otro documento, o permitir un copia-pega.


GImageReader es un lector OCR simple, ligero, gratuito y multi-plataforma para ordenador que nos facilitara la tarea de obtener texto de imágenes o de archivos PDF.

Las funciones que esta aplicación permite realizar son las siguientes:

  • Importar documentos PDF e imágenes desde el disco, dispositivos de escaneado, porta papeles y capturas de pantalla.
  • Procesar múltiples imágenes y documentos de una sola vez
  • Definir del área de reconocimiento manual o automática
  • Reconocer a texto sin formato o documentos hOCR
  • Mostrar el texto reconocido directamente junto a la imagen
  • Procesar el texto reconocido, incluida la revisión ortográfica
  • Importar documentos o imágenes cuyo texto se encuentre en diferentes idiomas
  • Generar documentos PDF a partir de documentos hOCR


- Generar documentos PDF desde el documento hOCR

  • Ubuntu

    Ubuntu: Disponible en ppa:sandromani/gimagereader
Se encuentra disponible en los repositorios de las principales distribuciones linux, y es posible instalarlo desde terminal:
  • Fedora:
yum install  tesseract tesseract-langpack-es gimagereader

  • Aprcity o derivados de Arch

yaourt -S gimagereader

  Si no tenemos tesseract instalado, toca ejecutar:

sudo pacman -S tesseract tesseract-data-eng tesseract-data-spa

    •  En Ubuntu y derivadas como Linux Mint

    sudo add-apt-repository ppa:sandromani/gimagereader

    sudo apt-get update

    sudo apt-get install gimagereader tesseract-ocr tesseract-ocr-spa tesseract-ocr-eng

     El funcionamiento, como ya he dicho, es muy simple. En este caso vamos a hacer una captura de pantalla que contiene texto e imágenes, y vamos a digitalizar el texto para exportarlo a un PDF.

    Pegar imagen que ha sido copiada y capturada en el navegador

    Añadimos un archivo, pegamos una imagen o realizamos una captura de pantalla
    Se nos mostrara el documento seleccionado
    Podemos ajustar de forma manual el área que queremos capturar o dejar que el programa haga su magia y reconozca los textos que contiene.
    Si fuera necesario podemos manipular la imagen para aumentar o disminuir el brillo, contraste, resolución de pantalla, o invertir los colores.
    Una vez se muestran las áreas que contienen el o los texto que queremos digitalizar, le indicaremos en que idioma se encuentra escrito, gImageReader reconocerá el texto y nos mostrará a continuación los textos que ha reconocido. 
    Podremos copiarlo o guardarlo en en un archivo de texto plano, que nos permitirá manipular más tarde.
    En este caso te he descrito los pasos para una imagen, pero el potencial de la aplicación va más allá por que es capaz de digitalizar documentos PDF que no sean editable y exportarlo a un PDF que puedas modificar.
    Vista rápida de la captura de texto de una imagen

    Fusionar archivos PDF

    El formato de archivos PDF se está convirtiendo, si no lo es ya, en una estándar para el envío y recepción de documentación oficial. En mi caso concreto, debía enviar varios documentos recogidos de varias fuentes a una institución pública. El problema que tenia, era que son varios documentos los que tenía que enviar, pero no me permitían subir al sistema nada más que cuatro archivos, y no era posible comprimirlos y enviarselos. Tenían que ser legibles para poder ser firmados digitalmente.

    Una de las soluciones que encontré era emparejar, fusionar, combinar, varios documentos PDF, y así cumplir con la limitación de número de archivos enviados.

    PDFsam Basic nos permite, en esta versión gratuita y sin añadir marcas de agua, 

    "dividir, fusionar, rotar, mezclar y extraer páginas de archivos PDF con PDFsam Basic, fuente libre y abierta, en casa o en el trabajo. Sus documentos PDF se mantienen privados en su ordenador, sin necesidad de cargarlos a un servicio de terceros."

    Se encuentra disponible para los sistemas operativos

    • Mac OS
    • Linux Paquete Deb para distribuciones Linux basadas en Debian (.deb ) Archivo portable (.tar.gz )
    • Windows
    Los requisitos del sistema son:
    • Sistema operativo de 64 bits, pero también disponen de versiones para 32 bits
    • 256MB of RAM
    • 70MB o más de espacio en disco

    PDFsam Basic

    • Combinar
    • Dividir
    • Mezcla alterna
    • Dividir por marcadores
    • Rotar
    • Extraer páginas de documentos PDF
    • Dividir por tamaño

    PDFsam Basic Combinar



    Es una aplicación muy sencilla de manejar y con un diseño agradable y configurable.
    Si quieres más funciones, disponen de versiones de pago, que podrás encontrar en su página oficial

    El Certificado Covid para Wallet y Passbook

    En una entrada anterior os mostré Donde obtener y bajar el Pasaporte Covid, en este caso os enseñare como descargarlo en formato PkPass, que es un formato creado por Apple.


    Donde obtener y bajar el Pasaporte Covid


    Esto nos permitirá integrar nuestro certificado de vacunación en nuestro teléfono Iphone y poder mostrarlo como si fuera una tarjeta de fidelización utilizando las herramienta integrada en el sistema operativo IOS.
    Como hemos dicho anteriormente es un formato creado por Apple y aun no es soportado por Google. Para Android deberemos utilizar una APP gratuita, para poder conservar nuestro Pasaporte en un formato legible.

    Es el Ministerio de Sanidad el que nos permite además de obtener el código QR, la descarga del pasaporte en formato PDF y solicitar y recibir también en formato Wallet o Passbook.


    Certificado COVID Digital de la UE

     

    Es necesario que dispongamos del Certificado Digital o de la Cl@ve Permanente, un navegador compatible y tener instalado la aplicación Autofirma en nuestro sistema operativo.


    solicitar y recibir también en formato Wallet o Passbook.

    En el formulario rellenaremos los datos que nos solicitan y activamos el checkbox para solicitar que nos envíen a través de SMS el enlace donde descargar nuestro certificado en formato PkPass.
    Una vez concluido el proceso deberemos esperar unos minutos (paciencia) y recibiremos un correo electrónico confirmando el envío del Pasaporte con la dirección donde descargarlo y un SMS con un enlace donde confirmaremos con nuestro número de DNI la descarga del certificado. El enlace deberá ser abierto con el navegador vinculado al sistema operativo:
    • En Iphone abrirlo con Safari
    En Android descargamos el archivo con el formato .PKPASS y añadiremos el archivo en la aplicación:

    Extraer tablas de datos en documentos PDF

    Los archivos PDF se han vuelto muy populares a la hora de compartir documentos, son multiplataforma, su contenido no se desvirtualiza a la hora de ser visualizados, no es posible posible alterar su contenido y es muy complicado la extracción de datos.


    Tabula es un programa multiplataforma que nos facilitará la extracción de tablas de archivos PDF y podremos extraerlas en formato texto o CSV (Valores Separados por Comas) y así exportarlo a una hoja de cálculo, para poder editarla.

    Los datos podrán ser extraídos siempre y cuando sean texto incrustados. No es posible exportar tablas si han sido añadidas al PDF como imágenes.

    Descargamos la versión correspondiente a nuestro sistema operativo. Al realizar la descarga del archivo comprimido nos encontraremos con un ejecutable para la plataforma JAVA.

    Una vez ejecutado nos creará un servicio web al que accederemos mediante nuestro navegador a la dirección:

    http://localhost:8080/


    Añadiremos el archivo del que queremos extraer la tabla. Podremos seleccionarla o permitir que el propio programa localice aquellas tablas de las que podremos obtener sus datos


    Previsualizaremos la tabla que hemos obtenido y nos permitirá exportarlo en el formato adecuado. Para importarlo o incorporarlo a, por ejemplo, una hoja de cálculo


    Año,Marca,Modelo,Descripción,Precio

    1997,Ford,E350,"ac, ABS, moon",3000.00

    1999,Chevy,Venture,Extended Edition,4900.00

    1999,Chevy,Venture,"Extended Edition, Very Large",5000.00

    1996,Jeep,Grand Cherokee,"MUST SELL! air, moon roof, loaded",4799.00

    En mi caso he extraído la tabla contenida en el documento PDF y la exportado en un archivo CSV para importarlo a una hoja de cálculo mediante la suite Libre Office.



    Calibre potente gestor de e-libros

    Calibre es un potente gestor de e-libros y documentación que soporta muy diversos formatos.

    Video manual Calibre

    Video manual Calibre


    Desde el formato creado por Adobe, extendido por toda la red, PDF (sigla del inglés Portable Document Format, «formato de documento portátil»), pasando por los formatos de Microsoft Word y los formatos populares de e-libros: MOBI, formato usado por Amazon y EPUB, usado por Google.
    Calibre rastreará todos nuestro documentos creando una gran biblioteca, organizada.

    Biblioteca Calibre

    Si reconoce los libros que tenemos en nuestro dispositivo, puede añadir etiquetas o datos que faltan para ampliar la información sobre los libros y enriquecer nuestro gran catálogo.

    También incluye un visor de libros soportando los principales formatos de e-reader's

    La diversidad de formatos de e-libros dificulta en gran medida su adquisición en distintas plataformas. Libros adquiridos en Google Play no es posible ser leído en el Reader de Amazon y viceversa. Tendríamos que adquirir un reader neutral que soporte varios formatos, como por ejemplo Cervantes.

    Con Calibre podemos convertir entre los distintos formatos para continuar leyendo nuestros libros aunque cambiemos el e-reader.

    AZW, AZW3, AZW4, CBZ, CBR, CBC, CHM, DJVU, DOCX, EPUB, FB2, FBZ, HTML, HTMLZ, LIT, LRF, MOBI, ODT, PDF, PRC, PDB, PML, RB, RTF, SNB, TCR, TXT, TXTZ

    Aunque nos aconsejan, en su manual de usuario, los mejores formatos para obtener el mejor resultado:

    En orden de preferencia decreciente: LIT, MOBI, AZW, EPUB, AZW3, FB2, FBZ, DOCX, HTML, PRC, ODT, RTF, PDB, TXT, PDF

    Es multi-plataforma y se encuentra traducido a diverso idiomas. Lo que le covierte en un programa prácticamente imprescindible para tener en nuestro equipo

    Calibre pagina de descarga