domingo, 20 de julio de 2014

petraTAG: Corrección del formato de archivos TXT procedentes de PDF

Al haberse creado el formato PDF expresamente para la lectura de documentos, con frecuencia resulta incómodo cuando se intenta trabajar con el texto de un archivo PDF con una herramienta diferente de un lector, como por ejemplo petraTAG.

Aunque muchos de los lectores de archivos PDF ofrecen la posibilidad exportar el texto a un archivo de solo texto, con frecuencia el archivo resultante suele ser bastante incómodo de utilizar. Un problema muy habitual es que abundan saltos de párrafo que no  deberían existir. Es decir, muchas veces el texto se exporta como:

Linux es un operativo
pensado tanto para
funcionar en el hogar
como en el trabajo.

En lugar de:

Linux es un operativo pensado tanto para funcionar en el hogar como en el trabajo.

Podemos ver que el archivo se exporta tal como se muestra en pantalla en el PDF de origen, lo que provoca que una misma frase aparezca cortada en varios fragmentos.

Para facilitar el trabajo con este tipo de archivos, petraTAG incorpora ahora un nuevo cuadro de diálogo, al que se accede mediante el menú Archivo Preparar archivo:


En este cuadro de diálogo, podemos elegir el archivo cuyo formato queremos corregir (IMPORTANTE: Debe ser un archivo TXT exportado mediante un lector de PDF y NO un archivo en formato PDF). También podemos elegir la ruta en la que queremos guardar el archivo corregido.

Aunque hay varias opciones, por ejemplo, para quitar los números de página que también pueden ser muy molestos, normalmente basta con utilizar las opciones predeterminadas.

De esta manera, en cuestión de segundos podremos disponer de un archivo mejorado con el que podremos trabajar a nuestro gusto.