Un transductor de estados finitos determinista p-subsecuencial adelantado (TpSSDA o EDpSST de sus siglas en inglés Earliest Deterministic Finite-State p-Subsequential Transducers) es la implementación habitual de las transducciones p-subsecuenciales adelantadas para un diccionario morfológico no alineado.
Éstos transductores no tienen estados de aceptación explícitamente definidos.
Definición
editar
Un transductor es adelantado si la salida está asignada a los arcos de forma que se produzca tan pronto como sea posible.
Un transductor de estados finitos determinista p-subsecuencial adelantado es la implementación habitual de las transducciones p-subsecuenciales adelantadas para un diccionario morfológico no alineado.
Cada uno de sus estados representa el conjunto de prefijos que comparten un prefijo (el más largo posible) de salida común.
Se llega a un único estado para cada símbolo de entrada y estado, lo que hace que el autómata sea determinista.
La salida está asociada a las transiciones estado-a-estado: se va construyendo incrementalmente el prefijo común más largo.
Formalmente se define como:
Dada una transducción , con un conjunto finito, el correspondiente transductor de estados finitos determinista -subsecuencial adelantado (EDSST, earliest deterministic finite-state -subsequential transducer) es , donde :
es el conjunto de todos los prefijos de entrada más el estado de absorción
es el alfabeto de entrada
es el alfabeto de salida
es la función de transición
es la función de salida
para , e indefinido en otro caso.
Si , todas las salidas tienen como prefijo.
es el estado inicial
es una función que asigna a cada estado un conjunto de colas a agregar a la salida al final de la entrada
Esta construcción es básicamente un trie para las cadenas de dotada de funciones de salida
y que producen la cadena de salida tan pronto como es posible (la información de salida puede ser añadida fácilmente a lo largo del recorrido en post-orden del trie). El transductor resultante (acíclico) se puede minimizar fácilmente en un transductor equivalente que produce la misma salida para todos los prefijos en y añadiendo las mismas colas a todas las cadenas de caracteres en E mientras utiliza el número mínimo de estados.
Ejemplo
editar
La imagen de la tabla representa el diccionario morfológico alineado utilizado para representar el transductor de estados finitos determinista p-subsecuencial adelantado que se representa en la segunda imagen.
En la representación del transductor, las arístas tienen representadas los pares de entrada y salida separados por el signo ':', es decir, el par s : t, donde s ∈ es la cadena de entrada y t ∈ es la cadena de salida.
Podemos observar que es adelantado, puesto que una vez que se ha visto la cadena "reco" el transductor asigna a la salida la cadena "recordar".
Inconvenientes del uso de TpSSDA como analizador morfológico
editar
Si una transducción se valida solamente al final de la entrada, se tiene que retrasar salida.
Si se añade una nueva entrada en el diccionario morfológico, el transductor tiene que reconstruirse de nuevo, los cálculos del prefijo común más largo y los estados equivalentes pueden no ser correctos para muchos estados.
Estos inconvenientes pueden evitarse permitiendo al transductor mantener varias hipótesis de transducción vivas durante el proceso, algunas de los cuales se podrán descartar después de leer más entrada (es decir, un transductor no determinista). Este tipo de la transformación no requiere un realineamiento de las entradas y salidas, pero puede conservar las alineaciones en un diccionario morfológico alineado.
Alicia Garrido-Alenda; Mikel L. Forcada (2002). «Comparing nondeterministic and quasideterministic finite-state transducers built from morphological dictionaries». Procesamiento del Lenguaje Natural.
Mehryar Mohri (1997,). «Finite-state transducers in language and speech processing,». Computational Linguistics,. 23, (2,). 269--311.
J. Oncina and P. García and E. Vidal, (1993,). «Learning subsequential transducers for pattern recognition interpretation tasks,». IEEE Transactions on Pattern Analysis and Machine Intelligence,. 15,. 448--458.