PhD thesis,

Aprendizaje de transductores estocásticos de estados finitos y su aplicación en traducción automática

, and .
(2009)

Abstract

Traducción automática es un área de lingü\'ıstica computacional que investiga el uso de software para traducir texto o voz en lenguaje natural hacia su representación en un idioma destino, también mediante lenguaje natural, En las últimas décadas ha habido un fuerte impulso sobre la utilización de técnicas estad\'ısticas para el desarrollo de sistemas de traducción automática.Para la aplicación de estos métodos sobre un par de lenguas en concreto, se requiere la disponibilidad de un corpus paralelo para dicho par de idiomas.El atractivo de estas técnicas radica en que el desarrollo de un sistema se realiza sin necesidad de trabajo experto por parte de especialistas en lingü\'ıstica.Los modelos de estados finitos llevan bastante tiempo empleándose con éxito en múltiples y variadas disciplinas dentro de la investigación cient\'ıfica aplicada al lenguaje natural, incluyendo su uso en traducción automática.Los modelos de estados finitos presentan una serie de ventajas con respecto a otros modelos estad\'ısticos, como una sencilla integración en entornos de reconocimiento de voz, su aplicación a sistemas de traducción asistida, o la capacidad de procesar la información sin necesidad de que esté completa, por medio de una arquitectura basada en las populares cadenas de montaje.El objetivo de la investigación consiste en el estudio y la explotación de las técnicas de traducción automática basadas en modelos de estados finitos.El trabajo presentado en esta tesis es un análisis detallado de la metodolog\'ıa GIATI para el aprendizaje de transductores estocásticos de estados finitos para su aplicación eficaz y eficiente como modelos estad\'ısticos de traducción, permitiendo su uso sobre tareas de traducción con un gran volumen de datos.Por un lado, se ha desarrollado un conjunto de herramientas software que implementan de manera eficiente la metodolog\'ıa GIATI, y que permiten, por tanto, el aprendizaje de la estructura de dichos modelos y la estimación de sus probabilidades, incluyendo métodos de búsqueda para su evaluación.Además, se han incluido varias técnicas de escalabilidad en el desarrollo de dichas herramientas que permiten el uso de un corpus paralelo voluminoso.Por otro lado, en la actualidad el estado del arte en traducción automática estad\'ıstica está basado en los as\'ı conocidos modelos basados en segmentos.La idea que subyace a estos modelos se ha integrado dentro de nuestro marco de trabajo, permitiendo la construcción de transductores basados en segmentos, cuya calidad se contrasta positivamente frente a los basados en palabras.Su aplicación sobre GIATI ha fomentado el uso de estrategias de búsqueda eficientes que han permitido el uso de algoritmos de suavizado más eficaces.También hemos adaptado las modernas tendencias en modelado log-lineal sobre esta tecnolog\'ıa basada en transductores estocásticos de estados finitos.La aproximación permite el refinamiento de las probabilidades de transición del modelo, de modo que las prestaciones del sistema se ven incrementadas.Finalmente, se ha establecido la infraestructura necesaria para una mejor explotación de los recursos lingü\'ısticos disponibles.Su repercusión implica una mejor estimación de los modelos de traducción correspondientes, gracias al uso de analizadores morfológicos en cada lengua implicada en el proceso de traducción.La información lingü\'ıstica asociada permite clasificar las palabras en categor\'ıas, reduciendo as\'ı la variabilidad de los corpus, obteniendo unos modelos estad\'ısticamente más robustos tras el proceso de aprendizaje.Los resultados por medio de esta aproximación son un tanto preliminares pero sirven para establecer las bases de una futura l\'ınea de investigación sobre este tema.

Tags

Users

  • @sofiagruiz92

Comments and Reviews