Posts Tagged ‘xpdf’

Convertir pdf a texto + Python + xpdf

June 20, 2009

Hoy me dice mi hermana que necesita el texto de un pdf. Yo me acuerdo que una vez utilicé 2 programas en windows pdfconverter y otro más; pero como no tenía ganas de ponerme a buscar recurrí a Python. Buscando en la red encontré Xpdf, un completo programa que nos permite visualizar documentos pdf, además incorpora una serie de programas en la línea de comandos que permiten convertir pdf’s a archivos de texto con pdftotext, extraer imágenes con pdfimages, o pasar pdf a documentos PostScript con pdftops. Tiene licencia gpl2

Mi hermana tiene windows xp asi que bajé los archivos comprimidos de la página, los descomprimí y agregué al python path la ruta absoluta.

C:\ xpdf-3.02pl3-win32\; (no se olviden del punto y coma)

Para convertir a texto utilizo el programa pdftotext y lo llamo con el método system.

Código:

#import el módulo os y lo llamo

import os

nombre=raw_input(“Ingrese el nombre: “)

os.system(“pdftotext -layout ” + nombre)

Lo probé y lo convierte con todos los signos de acentuación, letras especiales, etc.

Saludos

Advertisements