martes, 30 de septiembre de 2014

petraREV: Repetido, repetido, repetido

El inglés y el español son bastante diferentes en lo relativo a la tolerancia a la repetición de palabras. Mientras que en inglés es perfectamente normal que un sustantivo o verbo aparezcan repetidos varias veces a unas pocas palabras de distancia, en español tal repetición resulta forzada y pesada.

Al traducir es fácil que, atentos principalmente al texto de origen, pasemos por alto estas repeticiones y escribamos una y otra vez la misma palabra, cuando hubiera resultado más natural y fluido recurrir a un pronombre o un sinónimo. Normalmente, una relectura del texto permite detectar este problema, pero cuando el tiempo apremia con frecuencia apenas podremos centrarnos en otros aspectos más evidentes.

Para conseguir que podamos deshacernos de estas repeticiones rápidamente, la próxima versión de petraREV incluirá una función destinada específicamente a detectar este problema. Por defecto, solo se comprobarán los nombres y los verbos, aunque es fácil ampliar o reducir las palabras detectadas por esta función modificando su configuración. También es posible determinar ciertas excepciones. Por ejemplo, los verbos «ser», «estar» y «haber» se utilizan con tal frecuencia dada su naturaleza de auxiliares que generarían un gran número de falsos positivos que ocultarían casos más interesantes.

Hay que resaltar que esta función no se basa en palabras concretas, sino en lemas, lo que permite detectar si hemos escrito, por ejemplo, «reducirá» cuatro palabras después de un «reduciendo».

sábado, 27 de septiembre de 2014

petraREV: Llegan los gráficos estadísticos

La próxima versión de petraREV incorporará gráficos estadísticos, lo que permitirá crear presentaciones visuales que resalten características interesantes.

Por el momento, estos gráficos solo están disponibles para la búsqueda de elementos, pero próximamente es probable que se incorporen en otras funciones de la aplicación.


Entre otras utilidades, estos gráficos pueden ayudar a comparar visualmente las frecuencias de palabras entre diversos conjuntos de texto, ofreciendo una interesante herramienta para estudiar y modificar el estilo de manera analítica.

jueves, 28 de agosto de 2014

petraTAG: Una cuestión de tamaño

Al etiquetar un texto, la primera impresión es que cuanto mayor sea el diccionario, mejor. Ciertamente, las mayores dimensiones del diccionario ralentizarán el procedimiento y el número mayor de entradas del diccionario ocasionarán un mayor gasto de memoria. Aún así, dadas las capacidades de los modernos ordenadores y teniendo en cuenta que el etiquetado con frecuencia solo debe realizarse una vez, parece preferible emplear un diccionario lo más completo posible... o al menos así era hasta la llegada de los modernos teléfonos inteligentes.

En este tipo de dispositivos, por mucho que aumenten sus características, las limitaciones de memoria y la necesidad de optimizar el uso de la batería obligan a buscar soluciones más eficientes. De hecho, es cierto que una gran parte de las entradas del diccionario nunca se utilizarán, bien porque son palabras raramente utilizadas (¿alguien ha empleado alguna vez «descentralizárnoslos»?) o bien porque pertenecen a campos muy específicos («metilendioximetanfetamina» no es una palabra que suela salir en una conversación).

La cuestión es, entonces, ¿cómo separar el grano de la paja? Una revisión manual no solo sería extremadamente lenta, sino que además tal vez ni siquiera eficiente. Como solución, petraTAG ha añadido una nueva función de exportación de reglas de desambiguación que crea un diccionario reducido, que solo contiene las palabras que contiene el texto etiquetado. Por ejemplo, al extraer las entradas necesarias para etiquetar la novela «Crepúsculo», nos encontramos con un diccionario con 12.352 entradas, un número muy alejado de las 266.790 entradas (¡y subiendo!) que contiene el diccionario más reciente de petraTAG.



Para facilitar aún más este procedimiento, esta función no borra las entradas presentes en el archivo indicado, sino que añade únicamente las nuevas, lo que facilita en gran medida la ampliación de diccionarios según las necesidades, sin que sea preciso partir de cero una y otra vez. Ahora, crear con petraTAG un diccionario personalizado es más fácil que nunca.

domingo, 20 de julio de 2014

petraTAG: Corrección del formato de archivos TXT procedentes de PDF

Al haberse creado el formato PDF expresamente para la lectura de documentos, con frecuencia resulta incómodo cuando se intenta trabajar con el texto de un archivo PDF con una herramienta diferente de un lector, como por ejemplo petraTAG.

Aunque muchos de los lectores de archivos PDF ofrecen la posibilidad exportar el texto a un archivo de solo texto, con frecuencia el archivo resultante suele ser bastante incómodo de utilizar. Un problema muy habitual es que abundan saltos de párrafo que no  deberían existir. Es decir, muchas veces el texto se exporta como:

Linux es un operativo
pensado tanto para
funcionar en el hogar
como en el trabajo.

En lugar de:

Linux es un operativo pensado tanto para funcionar en el hogar como en el trabajo.

Podemos ver que el archivo se exporta tal como se muestra en pantalla en el PDF de origen, lo que provoca que una misma frase aparezca cortada en varios fragmentos.

Para facilitar el trabajo con este tipo de archivos, petraTAG incorpora ahora un nuevo cuadro de diálogo, al que se accede mediante el menú Archivo Preparar archivo:


En este cuadro de diálogo, podemos elegir el archivo cuyo formato queremos corregir (IMPORTANTE: Debe ser un archivo TXT exportado mediante un lector de PDF y NO un archivo en formato PDF). También podemos elegir la ruta en la que queremos guardar el archivo corregido.

Aunque hay varias opciones, por ejemplo, para quitar los números de página que también pueden ser muy molestos, normalmente basta con utilizar las opciones predeterminadas.

De esta manera, en cuestión de segundos podremos disponer de un archivo mejorado con el que podremos trabajar a nuestro gusto.

martes, 28 de enero de 2014

¿De qué color es una preposición?

Al diseñar una interfaz de usuario de cualquier programa relacionado, existen muchas posibilidades que no se tienen en cuenta, sencillamente porque estamos acostumbrados a maneras muy concretas de leer textos. Durante siglos el siglo el ser humano ha leído textos impresos mayormente en un único color en las páginas de un libro, por lo que no es de extrañar que esta sea la manera que ahora nos resulta más intuitiva.

Sin embargo, los ordenadores ofrecen nuevas posibilidades que quedaban fuera del alcance de los antiguos impresores. Por ejemplo, el color que resultaba prohibitivo en la impresión en papel, ahora no tiene coste alguno, por no hablar por las posibilidades que abriría la inclusión de modelos tridimensionales.

Partiendo de estas ideas, estamos realizando un pequeño experimento con la interfaz de usuario de petraTAG, que consiste básicamente en ofrecer la opción de no mostrar todas las palabras etiquetadas en el mismo color y utilizar la categoría gramatical asignada por petraTAG para elegir el color en el que se presenta una palabra. El objetivo es agilizar la lectura de los textos cuando se buscan determinadas características en los textos o sencillamente se buscan los errores que ha podido cometer el etiquetador.

La cuestión que se plantea al comenzar a hacerlo es ¿y qué colores se asignan a cada categoría gramatical? Evidentemente, no se puede emplear la paleta completa de colores, ya que los colores demasiado claros resultan ilegibles. Por otra parte, también parece haber ciertas agrupaciones lógicos. Por ejemplo, parece lógico que los colores de elementos más afines sean también parecidos (por ejemplo, nombres, determinantes y adjetivos por una parte y verbos y adverbios por otra). Por ahora los primeros experimentos han producido resultados como el que se muestra a continuación:

 

Además, ¿por qué tiene que haber una única combinación de colores? Para otros fines podrían ser útiles combinaciones diferentes que, por ejemplo, en lugar de señalar la categoría gramatical indicasen otras características de cada palabra, como por ejemplo, el género, el número o, incluso, el tiempo verbal.

Por el momento, tal vez  sea excesivamente llamativo, pero parece interesante investigar en esta línea. En todo caso, no hay que temer que petraTAG se convierta en un circo multicolor, ya que incluiremos la opción de desactivar estos colores. Por el momento, no parece fácil encontrar un color que sea especialmente adecuado para las nombres, verbos, preposiciones y demás. ¿O no? ¿Cuáles elegiríais vosotros?


lunes, 27 de mayo de 2013

petraREV: Herramientas para crear herramientas

A la hora de desarrollar un software, con frecuencia se pasa por alto la importancia de las herramientas que harán que sea posible aprovechar al máximo la potencia de la aplicación creada. Este problema suele ser aún más habitual cuando el software no va destinado a usuarios generales, sino a usuarios especializados a los que se presupone que serán capaces de lidiar con cualquier interfaz y sistema de manejo.

Lamentablemente, lo cierto es que aún cuando este usuario sea capaz de trabajar con un software poco amigable, es probable que no llegue a aprovechar al máximo las posibilidades existentes y, aún peor, es posible que introduzca muchos errores.

En la última versión de petraREV se ha trabajado especialmente en los aspectos de usabilidad, mediante varias mejoras para facilitar el uso de esta herramienta. El progreso ha sido especialmente visible en el sistema de flexión de raíces. Este sistema, básicamente, es el que se ocupa de crear, a partir de una raíz y un conjunto de terminaciones, todas las palabras necesarios. Por ejemplo, a partir de la raíz cant- y el conjunto de terminaciones para los verbos regulares de la primera conjugación -ar, crearía canto, cantas, canta, cantamos, etc.

Se trata de una función que muy rara vez debe utilizar el usuario medio y, por tanto, apenas había recibido atención. El resultado era un sistema basado en archivos de texto que, incluso para usuarios muy avanzados, resultaba complicado y pesado, siendo muy fácil que se cometieran errores.

Esta situación ha cambiado con la nueva interfaz que permite manejar las terminaciones. A través de varias pantallas nuevas, ahora resulta mucho más fácil tanto añadir nuevas terminaciones como diagnosticar los problemas de las ya existentes.



Como casi siempre, los pequeños detalles son cruciales, por lo que se han incorporado varias novedades imaginativas que ofrecen una experiencia mucho más cómoda. Por ejemplo, al examinar un conjunto de terminaciones, dichas terminaciones van acompañadas de ejemplos dinámicos tomados del diccionario. De esta manera, no solo es más fácil hacerse una buena idea del funcionamiento de cada terminación, sino que además se revisa la información ya contenida en el diccionario, lo que resulta muy útil para detectar errores.

jueves, 28 de febrero de 2013

petraREV: Avances

Las últimas mejoras realizadas a petraREV han refinado determinados aspectos de la pantalla de diccionario. Ahora, cuando se crea un diccionario se indica el número de palabras que incluye el nuevo diccionario. Además, al etiquetar un texto no solo aparece la etiqueta, sino también el lema.

La pantalla que permite comparar archivos ahora es mucho más cómoda de utilizar, ya que permite arrastrar archivos.

La comparación de traducciones también ha sufrido una importante, pero polémica actualización, relativa a los casos en los que deja de aparecer en la traducción nueva una determinada traducción. Por ejemplo, imaginemos que tenemos estos dos segmentos:

Open the dialog.
Abre el diálogo.

Open the dialog.
Abre el cuadro de diálogo.

Es decir, un mismo texto de origen traducido de dos maneras diferentes. Si al revisarlo, se unifica la traducción, es decir pasa a ser:


Open the dialog.
Abre el cuadro de diálogo.

Open the dialog.
Abre el cuadro de diálogo.

Anteriormente, petraREV no informaba de este cambio,  ya que en rigor no se ha introducido una nueva traducción. Sin embargo, se ha considerado que esta omisión era importante y en la nueva versión se informará de este cambio, aunque será necesario estudiar cómo funciona en la práctica el nuevo comportamiento.

Por último, la compatibilidad con archivos .sdlxliff ha mejorado considerable, siendo posible ahora cargar los archivos con mucha más facilidad.