Hoy me dice mi hermana que necesita el texto de un pdf. Yo me acuerdo que una vez utilicé 2 programas en windows pdfconverter y otro más; pero como no tenía ganas de ponerme a buscar recurrí a Python. Buscando en la red encontré Xpdf, un completo programa que nos permite visualizar documentos pdf, además incorpora una serie de programas en la línea de comandos que permiten convertir pdf’s a archivos de texto con pdftotext, extraer imágenes con pdfimages, o pasar pdf a documentos PostScript con pdftops. Tiene licencia gpl2
Mi hermana tiene windows xp asi que bajé los archivos comprimidos de la página, los descomprimí y agregué al python path la ruta absoluta.
C:\ xpdf-3.02pl3-win32\; (no se olviden del punto y coma)
Para convertir a texto utilizo el programa pdftotext y lo llamo con el método system.
Código:
#import el módulo os y lo llamo
import os
nombre=raw_input(“Ingrese el nombre: “)
os.system(“pdftotext -layout ” + nombre)
Lo probé y lo convierte con todos los signos de acentuación, letras especiales, etc.
Saludos