martes, 30 de septiembre de 2014

petraREV: Repetido, repetido, repetido

El inglés y el español son bastante diferentes en lo relativo a la tolerancia a la repetición de palabras. Mientras que en inglés es perfectamente normal que un sustantivo o verbo aparezcan repetidos varias veces a unas pocas palabras de distancia, en español tal repetición resulta forzada y pesada.

Al traducir es fácil que, atentos principalmente al texto de origen, pasemos por alto estas repeticiones y escribamos una y otra vez la misma palabra, cuando hubiera resultado más natural y fluido recurrir a un pronombre o un sinónimo. Normalmente, una relectura del texto permite detectar este problema, pero cuando el tiempo apremia con frecuencia apenas podremos centrarnos en otros aspectos más evidentes.

Para conseguir que podamos deshacernos de estas repeticiones rápidamente, la próxima versión de petraREV incluirá una función destinada específicamente a detectar este problema. Por defecto, solo se comprobarán los nombres y los verbos, aunque es fácil ampliar o reducir las palabras detectadas por esta función modificando su configuración. También es posible determinar ciertas excepciones. Por ejemplo, los verbos «ser», «estar» y «haber» se utilizan con tal frecuencia dada su naturaleza de auxiliares que generarían un gran número de falsos positivos que ocultarían casos más interesantes.

Hay que resaltar que esta función no se basa en palabras concretas, sino en lemas, lo que permite detectar si hemos escrito, por ejemplo, «reducirá» cuatro palabras después de un «reduciendo».

sábado, 27 de septiembre de 2014

petraREV: Llegan los gráficos estadísticos

La próxima versión de petraREV incorporará gráficos estadísticos, lo que permitirá crear presentaciones visuales que resalten características interesantes.

Por el momento, estos gráficos solo están disponibles para la búsqueda de elementos, pero próximamente es probable que se incorporen en otras funciones de la aplicación.


Entre otras utilidades, estos gráficos pueden ayudar a comparar visualmente las frecuencias de palabras entre diversos conjuntos de texto, ofreciendo una interesante herramienta para estudiar y modificar el estilo de manera analítica.

jueves, 28 de agosto de 2014

petraTAG: Una cuestión de tamaño

Al etiquetar un texto, la primera impresión es que cuanto mayor sea el diccionario, mejor. Ciertamente, las mayores dimensiones del diccionario ralentizarán el procedimiento y el número mayor de entradas del diccionario ocasionarán un mayor gasto de memoria. Aún así, dadas las capacidades de los modernos ordenadores y teniendo en cuenta que el etiquetado con frecuencia solo debe realizarse una vez, parece preferible emplear un diccionario lo más completo posible... o al menos así era hasta la llegada de los modernos teléfonos inteligentes.

En este tipo de dispositivos, por mucho que aumenten sus características, las limitaciones de memoria y la necesidad de optimizar el uso de la batería obligan a buscar soluciones más eficientes. De hecho, es cierto que una gran parte de las entradas del diccionario nunca se utilizarán, bien porque son palabras raramente utilizadas (¿alguien ha empleado alguna vez «descentralizárnoslos»?) o bien porque pertenecen a campos muy específicos («metilendioximetanfetamina» no es una palabra que suela salir en una conversación).

La cuestión es, entonces, ¿cómo separar el grano de la paja? Una revisión manual no solo sería extremadamente lenta, sino que además tal vez ni siquiera eficiente. Como solución, petraTAG ha añadido una nueva función de exportación de reglas de desambiguación que crea un diccionario reducido, que solo contiene las palabras que contiene el texto etiquetado. Por ejemplo, al extraer las entradas necesarias para etiquetar la novela «Crepúsculo», nos encontramos con un diccionario con 12.352 entradas, un número muy alejado de las 266.790 entradas (¡y subiendo!) que contiene el diccionario más reciente de petraTAG.



Para facilitar aún más este procedimiento, esta función no borra las entradas presentes en el archivo indicado, sino que añade únicamente las nuevas, lo que facilita en gran medida la ampliación de diccionarios según las necesidades, sin que sea preciso partir de cero una y otra vez. Ahora, crear con petraTAG un diccionario personalizado es más fácil que nunca.

domingo, 20 de julio de 2014

petraTAG: Corrección del formato de archivos TXT procedentes de PDF

Al haberse creado el formato PDF expresamente para la lectura de documentos, con frecuencia resulta incómodo cuando se intenta trabajar con el texto de un archivo PDF con una herramienta diferente de un lector, como por ejemplo petraTAG.

Aunque muchos de los lectores de archivos PDF ofrecen la posibilidad exportar el texto a un archivo de solo texto, con frecuencia el archivo resultante suele ser bastante incómodo de utilizar. Un problema muy habitual es que abundan saltos de párrafo que no  deberían existir. Es decir, muchas veces el texto se exporta como:

Linux es un operativo
pensado tanto para
funcionar en el hogar
como en el trabajo.

En lugar de:

Linux es un operativo pensado tanto para funcionar en el hogar como en el trabajo.

Podemos ver que el archivo se exporta tal como se muestra en pantalla en el PDF de origen, lo que provoca que una misma frase aparezca cortada en varios fragmentos.

Para facilitar el trabajo con este tipo de archivos, petraTAG incorpora ahora un nuevo cuadro de diálogo, al que se accede mediante el menú Archivo Preparar archivo:


En este cuadro de diálogo, podemos elegir el archivo cuyo formato queremos corregir (IMPORTANTE: Debe ser un archivo TXT exportado mediante un lector de PDF y NO un archivo en formato PDF). También podemos elegir la ruta en la que queremos guardar el archivo corregido.

Aunque hay varias opciones, por ejemplo, para quitar los números de página que también pueden ser muy molestos, normalmente basta con utilizar las opciones predeterminadas.

De esta manera, en cuestión de segundos podremos disponer de un archivo mejorado con el que podremos trabajar a nuestro gusto.

martes, 28 de enero de 2014

¿De qué color es una preposición?

Al diseñar una interfaz de usuario de cualquier programa relacionado, existen muchas posibilidades que no se tienen en cuenta, sencillamente porque estamos acostumbrados a maneras muy concretas de leer textos. Durante siglos el siglo el ser humano ha leído textos impresos mayormente en un único color en las páginas de un libro, por lo que no es de extrañar que esta sea la manera que ahora nos resulta más intuitiva.

Sin embargo, los ordenadores ofrecen nuevas posibilidades que quedaban fuera del alcance de los antiguos impresores. Por ejemplo, el color que resultaba prohibitivo en la impresión en papel, ahora no tiene coste alguno, por no hablar por las posibilidades que abriría la inclusión de modelos tridimensionales.

Partiendo de estas ideas, estamos realizando un pequeño experimento con la interfaz de usuario de petraTAG, que consiste básicamente en ofrecer la opción de no mostrar todas las palabras etiquetadas en el mismo color y utilizar la categoría gramatical asignada por petraTAG para elegir el color en el que se presenta una palabra. El objetivo es agilizar la lectura de los textos cuando se buscan determinadas características en los textos o sencillamente se buscan los errores que ha podido cometer el etiquetador.

La cuestión que se plantea al comenzar a hacerlo es ¿y qué colores se asignan a cada categoría gramatical? Evidentemente, no se puede emplear la paleta completa de colores, ya que los colores demasiado claros resultan ilegibles. Por otra parte, también parece haber ciertas agrupaciones lógicos. Por ejemplo, parece lógico que los colores de elementos más afines sean también parecidos (por ejemplo, nombres, determinantes y adjetivos por una parte y verbos y adverbios por otra). Por ahora los primeros experimentos han producido resultados como el que se muestra a continuación:

 

Además, ¿por qué tiene que haber una única combinación de colores? Para otros fines podrían ser útiles combinaciones diferentes que, por ejemplo, en lugar de señalar la categoría gramatical indicasen otras características de cada palabra, como por ejemplo, el género, el número o, incluso, el tiempo verbal.

Por el momento, tal vez  sea excesivamente llamativo, pero parece interesante investigar en esta línea. En todo caso, no hay que temer que petraTAG se convierta en un circo multicolor, ya que incluiremos la opción de desactivar estos colores. Por el momento, no parece fácil encontrar un color que sea especialmente adecuado para las nombres, verbos, preposiciones y demás. ¿O no? ¿Cuáles elegiríais vosotros?