Convertir pdf a texto + Python + xpdf

Hoy me dice mi hermana que necesita el texto de un pdf. Yo me acuerdo que una vez utilicé 2 programas en windows pdfconverter y otro más; pero como no tenía ganas de ponerme a buscar recurrí a Python. Buscando en la red encontré Xpdf, un completo programa que nos permite visualizar documentos pdf, además incorpora una serie de programas en la línea de comandos que permiten convertir pdf’s a archivos de texto con pdftotext, extraer imágenes con pdfimages, o pasar pdf a documentos PostScript con pdftops. Tiene licencia gpl2

Mi hermana tiene windows xp asi que bajé los archivos comprimidos de la página, los descomprimí y agregué al python path la ruta absoluta.

C:\ xpdf-3.02pl3-win32\; (no se olviden del punto y coma)

Para convertir a texto utilizo el programa pdftotext y lo llamo con el método system.

Código:

#import el módulo os y lo llamo

import os

nombre=raw_input(“Ingrese el nombre: “)

os.system(“pdftotext -layout ” + nombre)

Lo probé y lo convierte con todos los signos de acentuación, letras especiales, etc.

Saludos

Advertisements

Tags: , ,

2 Responses to “Convertir pdf a texto + Python + xpdf”

  1. diego Says:

    SE LO PUEDE usar en un libro openoffice con pyuno? como se hace’? gracias

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s


%d bloggers like this: