Hoy me dice mi hermana que necesita el texto de un pdf. Yo me acuerdo que una vez utilicé 2 programas en windows pdfconverter y otro más; pero como no tenía ganas de ponerme a buscar recurrí a Python. Buscando en la red encontré Xpdf, un completo programa que nos permite visualizar documentos pdf, además incorpora una serie de programas en la línea de comandos que permiten convertir pdf’s a archivos de texto con pdftotext, extraer imágenes con pdfimages, o pasar pdf a documentos PostScript con pdftops. Tiene licencia gpl2
Mi hermana tiene windows xp asi que bajé los archivos comprimidos de la página, los descomprimí y agregué al python path la ruta absoluta.
C:\ xpdf-3.02pl3-win32\; (no se olviden del punto y coma)
Para convertir a texto utilizo el programa pdftotext y lo llamo con el método system.
Código:
#import el módulo os y lo llamo
import os
nombre=raw_input(“Ingrese el nombre: “)
os.system(“pdftotext -layout ” + nombre)
Lo probé y lo convierte con todos los signos de acentuación, letras especiales, etc.
Saludos
November 15, 2011 at 9:54 pm |
SE LO PUEDE usar en un libro openoffice con pyuno? como se hace’? gracias
December 29, 2011 at 12:04 pm |
No he utilizado pyuno pero supongo que no habría incoveniente.