miércoles, 29 de febrero de 2012

Microsoft Translator Hub, o la traducción automática al servicio de las lenguas en peligro

Microsoft Translator Hub
Más allá de los eslóganes de marketing refinados al extremo («Donde el idioma se encuentra con el mundo», «Construyendo puentes entre las lenguas, las culturas y la tecnología») y de las buenas intenciones («Microsoft Translator Hub ayuda las lenguas menos difundidas a prosperar dando a las comunidades locales el poder para construir sistemas de traducción automática»), ¿qué objetivos pueden ser los de Microsoft y de su nuevo Translator Hub?

Lanzado ayer, el Microsoft Translator Hub es un servicio que permite a todo el mundo (individuos, comunidades locales, empresas) construir, treinar y desplegar sistemas personalizados de traducción automática. Pone de relieve el número de idiomas alvos soportados: 1 462, o sea un número relativamente impresionante para este tipo de herramienta, lo que permite presentarlo como una herramienta para las lenguas poco extendidas. Intención loable a priori.

Pero una advertencia se necesita luego que comienza la fase de entrenamiento del modelo, ya que se debe alimentarlo de ficheros de segmentos alineados que hacen corresponder un texto de la lengua alvo a un texto de la lengua fuente. Y a estos archivos son asociados derechos, que usted pierde inmediatamente («Al subir mis documentos, confirmo que el contenido que someto no infringe los derechos de autor, los derechos de publicidad, los derechos de privacidad u otros derechos de propiedad intelectual. Soy titular de derechos suficientes sobre el contenido para otorgar a Microsoft la licencia proporcionada en sus Términos de Uso», Términos de Uso que no se pueden ser más explícitos).

Podemos ver que bajo la aparencia de un servicio dedicado a las lenguas más o menos raras (como transmitido aquí y allí), Microsoft se recuperará datos suficientes para treinar sus propios algoritmos de traducción automática a buen precio, mientras detectará las lenguas las más solicitadas. Porque hay aquí un problema importante de las lenguas raras, minoritarias o en peligro: sus subrepresentación en la web (y por lo tanto, el número muy limitado de datos disponibles para establecer alineamientos automáticos de corpus).

Podemos ver también que la adición de una lista considerable de lenguas potencialmente soportadas (además, ¿por qué limitarse a 1 462?) crea un efecto de anuncio en sí mismo. De otra manera, este Translator Hub habría sido solamente una nueva herramienta entre otras.

¿Es necesario dejar de lado esta herramienta?

Si se quiere desarrollar a buen precio una herramienta de traducción automática para una lengua poco representada pero para cual tiene suficientes textos originales y traducidos correspondientes, la oferta de Microsoft le puede interesar, ya que tal vez ayudará al futuro desarrollo de herramientas de traducción para ese idioma. Pero si prefiere guardar a mano sobre sus corpus, tendrá que desarrollar sus herramientas propias, o utilizar herramientas comerciales.

«Imagine una red de cientos de miles de traductores automáticos no sólo entrenados para algunas lenguas y algunos sectores de la industria, pero arreglados para una miríada de pares de idiomas, muchos subdominios y personalizados para cada empresa y cada oferta. [...] Esta red deberá ser alimentada de un flujo sin fin de palabras traducidas.» (fuente: Who gets paid for translation in 2020)

Este futuro ya es presente: hay que alimentar la máquina, y al menos coste. Explotación de los datos de la web, digitalización de libros, corpus alineados ofrecidos por la comunidad… Todas las pistas son explotables.


Microsoft Translator Hub, ou la traduction automatique au service des langues en danger (en francés)
Microsoft Translator Hub, where automatic translation helps endangered languages (en inglés)
Microsoft Translator Hub, ou a tradução automática ao serviço das línguas em perigo (en portugués)

No hay comentarios:

Publicar un comentario