lunes, 7 de diciembre de 2015

Herramientas de búsqueda de textos en archivos: la navaja suiza de cualquier traductor

Si tuviera que elegir una única aplicación para redactar una traducción, excluyendo por supuesto las que incluye cualquier sistema operativo, curiosamente la aplicación que elegiría no sería una aplicación específicamente diseñada para la traducción, pues escogería una aplicación que me permitiese hacer búsquedas en un conjunto de archivos de texto.

En los años que llevo traduciendo, este tipo de herramientas ha demostrado ser las más versátiles y, aunque el trabajo me obliga a pasar de una herramienta de traducción a otra y a recurrir a todo tipo de diccionarios, esta pequeña pero útil herramienta ha demostrado ser de las más útiles y versátiles.

En principio, parecería que la función que ofrecen estas herramientas debería proporcionarla cualquier sistema de memorias de traducción, pero desgraciadamente no es así. El problema es que las memorias de traducción parecen estar diseñadas principalmente para encontrar el segmento más similar al que estás buscando. Por ejemplo, si buscas el segmento «The monitor displays a yellow screen.» te mostrarán con suerte segmentos como «The monitor displays a red screen.» y hay que reconocer que hacen un buen trabajo en este sentido.

El problema radica en que cuando no buscas un segmento, sino un término sino una expresión utilizan el mismo algoritmo y, en este caso, los resultados no son tan buenos por diversos motivos:

La búsqueda no resulta tan precisa. Al buscar términos cortos puede interesarnos emplear opciones como «Coincidir mayúsculas y minúsculas» o «Coincidir palabras completas» que las memorias de traducción no incluyen.
No es posible establecer un orden de prioridades. Con frecuencia, disponemos de varios materiales con diversos niveles de prioridad. Por ejemplo, una memoria de traducción puede estar aprobada por el cliente y la otra puede ser una memoria de menor fiabilidad, pero más completa. Los algoritmos de las memorias de traducción suelen priorizar los resultados únicamente por grado de concordancia, lo que puede hacer que se nos pasen por alto resultados que tienen una mayor prioridad.
Solo admiten un documentos bilingües. Es fácil convertir cualquier documento bilingüe en una memoria de traducción, pero con frecuencia disponemos de otros tipos de materiales como, por ejemplo, consultas al cliente o textos monolingües, lo que obliga a realizar búsquedas en varias herramientas, con la consiguiente pérdida de tiempo.

En general,  ordenar los materiales en carpetas por prioridad y realizar búsquedas con una herramienta de búsqueda de texto suele ser el método más eficaz y eficiente de consultar la referencia de una traducción. Durante muchos años he utilizado una herramienta para este fin, pero dado que se trata de una herramienta desarrollado para un sistema operativo concreto su aplicación es limitada. Además, en ciertas ocasiones es fácil pensar que una herramienta diseñada específicamente para la traducción podría ser más útil.

De esta manera, ha surgido la idea de potenciar esta herramienta, aunque para ello hay que comenzar construyendo un prototipo capaz de ofrecer la funcionalidad básica. Con este fin ha surgido OpenTextSearch, que en estos momentos es poco más que proyecto de fin de semana. Aún así, ya es capaz de buscar en carpetas y presentar los resultados de una manera suficientemente clara, como podéis ver en la siguiente captura:



No obstante, esto es solo el principio. Conforme el proyecto avance, podremos incorporarle cada vez características más interesantes que harán que el trabajo de cualquier traductor sea más cómodo y productivo. Si quieres participar con ideas o te interesa probar la versión alfa, ¡no dudes en ponerte en contacto con nosotros»