sábado, 17 de noviembre de 2012

petraTAG: versión 1.2

Mientras que las principales novedades de la última versión de petraTAG fueron la incorporación de nuevas funciones que facilitaran las búsquedas y las estadísticas, esta nueva versión de petraTAG, que puede descargarse ya desde la página del proyecto en SourceForge, se ha centrado en mejorar y ampliar las funciones ya existentes. Entre las mejoras más importantes cabe destacar:
  • Compatibilidad con archivos .rtf, .doc y .docx. Ahora es posible cargar y realizar búsquedas en archivos en estos formatos.
  • Función de paginación. En las versiones anteriores, al cargar un número elevado de líneas y consultar el etiquetado, petraTAG podía tardar bastante tiempo en mostrarlo, dando la impresión haberse quedado bloqueado. Ahora, cuando el tamaño del etiquetado es excesivo, se muestra en varias páginas por las que es posible desplazarse escribiendo un número de página en el cuadro de la parte inferior de la pantalla o utilizando las flechas de avance y retroceso.
  • Función de guardado de informe. Una opción en el menú Archivo permite guardar el contenido de cualquier informe que se esté mostrando.
  • Ampliación del diccionario de etiquetado. El diccionario contiene ahora cerca de 900 nuevos lemas, que permiten reconocer con mayor precisión más  de 5000 palabras.
Además de estas mejoras evidentes, también se han corregido varios errores y se han optimizado varias funciones para lograr un funcionamiento más intuitivo y cómodo.

De manera paralela a estas novedades, también se ha actualizado el sitio web de petraTAG, añadiendo un nuevo apartado que explica las etiquetas utilizadas y retocando varias de las secciones existentes. Además, se ha creado una nueva sección de tutoriales donde se explican paso a paso los procedimientos más importantes.


martes, 13 de noviembre de 2012

petraREV: La importancia de los espacios en blanco

La comprobación de la coherencia en la traducción es, sin duda, una de las funciones más populares de cualquier sistema de revisión asistida. Resulta fácil de comprender que un mismo texto de origen debe traducirse siempre con el mismo texto de destino, a excepción de unas cuantas excepciones que justifican que esta norma se incumpla.

Precisamente por ser una de las operaciones más eficaces, resulta particularmente frustrante que se nos muestren como distintos dos segmentos que, a simple vista, parecen exactamente idénticos. petraREV utiliza varios métodos para resaltar las diferencias pero en ocasiones no parecen capaces de hallar las diferencias entre dos segmentos. ¿Qué ocurre en esos casos?

La respuesta a esta pregunta se halla, principalmente, en los espacios en blanco. Dado que la comparación se realiza a nivel de token y no de caracteres intersticiales (principalmente espacios en blanco), el algoritmo actual es incapaz de detectar donde están las diferencias.

En realidad, hay un buen motivo para que se haya programado de ella manera. La comparación de segmentos es una tarea compleja que se complica aún más si tenemos que tratar con los espacios en blanco, ya que los seres humanos adoptamos acerca de la posición de los espacios en blanco que no son evidentes para una máquina. ¿Está asociado un espacio en blanco con la palabra anterior o con la siguiente? ¿Al mover una palabra es implícito que se traslada con ella sus espacios en blanco? ¿Se aplican estos criterios también a los espacios inicial de una frase o su posición les independiza de todas las palabras que la componen?

Aparte de toda esta complejidad, lo cierto es que cuando dos textos son sustancialmente diferentes, los espacios parecen perder importancia. Cuando una frase se ha reformulado, añadiendo palabras, cambiándolas de lugar o eliminándolas, no parece que los espacios en blanco sean tan importantes. Los espacios en blanco parecen ser importantes solo cuando todo lo demás coincide.

A partir de esta idea, se ha incorporado un algoritmo a petraREV que solo comprueba los espacios en blanco cuando todo lo demás coincida y resulta admisible exigir una correspondencia de uno a uno entre dos textos.

Aún así, siguen planteándose algunos problemas, por ejemplo, cuando hay tres segmentos con diferentes traducciones y las diferencias se concentran en espacios presentes solo en el primer segmento. Dado que al presentar las incoherencias entre más de dos segmentos, la comparación solo se establece entre los segmentos a partir del segundo y el primero, los espacios en blanco no serían visibles y, una vez mas, todos los segmentos parecerían idénticos. Rebuscado, ¿verdad?

La experiencia demuestra que estas alineaciones de circunstancias extrañas acaban pasando en la realidad. No obstante, al crear un programa de esta índole, rara vez es posible atender el 100% de los casos que acabaran sucediendo. No obstante, poder pasar del 98% al 99% ya es un logro y lo que quede será un estupendo tema sobre el que plantearse preguntas y crear una nueva versión, aún más completa.

martes, 30 de octubre de 2012

Novedades en la ayuda de petraREV

La ayuda de una aplicación es, en estos momentos, de una importancia comparable a la del propio código, ya que por muy interesantes que sean las funciones que se incluyen, si no se ofrece la documentación necesaria para aprovechar su potencial, lo más probable es que pasen prácticamente inadvertidas.

Para facilitar el manejo de petraREV, se ha realizado una importante actualización de la página con su ayuda. Entre las novedades se incluyen:

  • Nueva página de descarga, para que no sea necesario visitar SourceForge para descargar la versión más reciente. Además, de esta manera se indica cuál es la versión más útil para la mayoría de los usuarios.
  • Actualización del  formato de los segmentos de ejemplo. Las banderas indican intutivamente cuál es el texto de origen y el texto de destino de los segmentos.
  • Renovación de las presentación de la codificación de las etiquetas. Además de varios cambios estéticos, se ha incluido un índice de las etiquetas al principio de la página para localizar rápidamente el significado de las etiquetas de cada categoría gramatical.
Estas son solo algunas de las mejoras que hemos introducido. Esperamos que os gusten y, si tenéis alguna idea o sugerencia, no dudéis en dejarnos un comentario en este blog o escribirnos a nuestra página de contacto.

jueves, 25 de octubre de 2012

OpenTranslation: El momento de la renovación

Durante los últimos años, la estructura del sitio web de OpenTranslation se ha mantenido básicamente tal cual. Las novedades se han producido principalmente en el glosario, al que se han añadido varios apéndices y numerosos términos, las noticias de portada y los corpus, que se han actualizado regularmente.

Ahora ha llegado el momento de iniciar una renovación del sitio, para conseguir que sea más útil, tanto a los voluntarios que colaboran en las traducciones del software libre como a los traductores que utilizan software libre en su trabajo diario.

Para empezar, hemos añadido un par de enlaces a la página principal para que sea más fácil consultar el blog y el twitter de este proyecto, pero estamos estudiando varias posibilidades para conseguir que este sitio sea más ameno, útil y cómodo, pero ante todo, nos desearíamos conocer la opinión de los usuarios del sitio para que nos aporten ideas y sugerencias y que, entre todos, podamos mejorar este sitio, así que no dudes en indicarnos tu opinión en los comentarios (o escribiendo directamente a la dirección de correo del proyecto).