jueves, 28 de agosto de 2014

petraTAG: Una cuestión de tamaño

Al etiquetar un texto, la primera impresión es que cuanto mayor sea el diccionario, mejor. Ciertamente, las mayores dimensiones del diccionario ralentizarán el procedimiento y el número mayor de entradas del diccionario ocasionarán un mayor gasto de memoria. Aún así, dadas las capacidades de los modernos ordenadores y teniendo en cuenta que el etiquetado con frecuencia solo debe realizarse una vez, parece preferible emplear un diccionario lo más completo posible... o al menos así era hasta la llegada de los modernos teléfonos inteligentes.

En este tipo de dispositivos, por mucho que aumenten sus características, las limitaciones de memoria y la necesidad de optimizar el uso de la batería obligan a buscar soluciones más eficientes. De hecho, es cierto que una gran parte de las entradas del diccionario nunca se utilizarán, bien porque son palabras raramente utilizadas (¿alguien ha empleado alguna vez «descentralizárnoslos»?) o bien porque pertenecen a campos muy específicos («metilendioximetanfetamina» no es una palabra que suela salir en una conversación).

La cuestión es, entonces, ¿cómo separar el grano de la paja? Una revisión manual no solo sería extremadamente lenta, sino que además tal vez ni siquiera eficiente. Como solución, petraTAG ha añadido una nueva función de exportación de reglas de desambiguación que crea un diccionario reducido, que solo contiene las palabras que contiene el texto etiquetado. Por ejemplo, al extraer las entradas necesarias para etiquetar la novela «Crepúsculo», nos encontramos con un diccionario con 12.352 entradas, un número muy alejado de las 266.790 entradas (¡y subiendo!) que contiene el diccionario más reciente de petraTAG.



Para facilitar aún más este procedimiento, esta función no borra las entradas presentes en el archivo indicado, sino que añade únicamente las nuevas, lo que facilita en gran medida la ampliación de diccionarios según las necesidades, sin que sea preciso partir de cero una y otra vez. Ahora, crear con petraTAG un diccionario personalizado es más fácil que nunca.