sábado, 2 de abril de 2022

Tutorial: ¿Cómo descargar y alinear los Diarios Oficiales de la Unión Europea? (actualización)


La descarga de los Diarios Oficiales de la Unión Europea (que ya comentamos anteriormente aquí) ha cambiado. Ahora, para obtener una versión alineada con estos útiles documentos utilizando petraREV es preciso seguir estos pasos:

1. Navega hasta la página donde se encuentran los diarios:

https://data.europa.eu/data/datasets/official-journals-of-the-european-union-2021?locale=en

2. Busca el idioma que desees (por ejemplo, ES para español y EN para inglés).

3. Para descargar los archivos, elige la opción Download que aparece junto a cada idioma y aparecerá un pequeño menú con dos opciones. Elige downloadURL para descargar un archivo txt con una lista con todos los archivos.

4. Abre el archivo con un editor de texto y reemplaza todas las ocurrencias de «","» por tabuladores y pégalo en un documento de texto.

5. Crea una tabla utilizando los tabuladores como separadores. Solo nos interesa la última columna, en la que aparecen cosas como:

http://publications.europa.eu/resource/cellar/35908f2f-5089-11eb-b59f-01aa75ed71a1.0006.02/zip

6. Pega esta columna en un documento de texto y ahora sustituye la marca de párrafo por « | wget». Debería quedar una única línea muy larga similar a la siguiente:

wget http://publications.europa.eu/resource/cellar/35908f2f-5089-11eb-b59f-01aa75ed71a1.0006.02/zip | wget http://publications.europa.eu/resource/cellar/10986470-5153-11eb-b59f-01aa75ed71a1.0006.02/zip | ...

7. Abre una terminal y dirígete a la ubicación donde deseas guardar los archivos. Pega esta línea y ejecútala. Comenzarán a descargarse los archivos.

8. Cuando la descarga haya terminado, descomprime los archivos. Es posible que la extensión de los archivos no sea la correcta, así que puede renombrar los archivos para cambiarla. Para ello, la manera más fácil suele ser eliminar primero todos los puntos de los nombres de los archivos y luego utilizar el patrón Número + .zip para definir el nombre de todos los archivos.

9. Cuando estén descomprimidos todos los archivos, borra los archivos .zip y los archivos .tif. En general, solo deben quedar archivos con formato xml.

10. Repite el proceso anterior para el otro idioma que quieres alinear. Al final, debes tener una carpeta con todos los archivos del idioma de origen y otra con todos los archivos del idioma de destino.

11. Una vez que todos los archivos se encuentren en una carpeta, abre petraRev y elige Herramientas → Revisar. En la pantalla de revisión, borra todas las operaciones con Marcar todo → Quitar. Ahora, escribe Alinear lotes de archivos y haz doble clic en esta operación para añadirla a la lista de operaciones.

12. Haz doble clic ahora en esta operación para configurar esta operación. Solo tienes que indicar dónde se encuentran la carpeta con los archivos de origen y la carpeta con los archivos de destino. Si lo deseas, también puedes indicar dónde quieres que se guarden los archivos alineados.

13. Haz clic en Revisar y, después de una breve espera, se alinearán los archivos y se cargarán en la herramienta. Puedes hacer clic en Archivo → Exportar para exportar la traducción al archivo que desees.

El archivo resultante será completamente funcional, pero para agilizar las búsquedas, puede ser interesante eliminar todas las repeticiones y, en lugar de exportarlo directamente, emplear la operación Dividir traducción para obtener archivos más pequeños. Por ejemplo, si se divide en 20 archivos, los archivos tendrán unos 10 MB de tamaño, lo cual es bastante razonable.

Y, si tienes alguna duda, no dudes en compartirla en los comentarios.

No hay comentarios:

Publicar un comentario