Diccionari morfològic

Un diccionari morfològic és un arxiu que conté les correspondències entre les formes superficials i lèxiques de les paraules. Les formes superficials són paraules trobades en un text, en totes les seues possibles formes (gènere, nombre, temps...). La forma lèxica és l'arrel o lema de les paraules, acompanyat d'aquesta informació de gènere, nombre, etc. En català 'cantaríem' ' és una forma superficial, la forma lèxica seria cantar, verb, condicional, 1a persona, plural. Es poden trobar 2 tipus de diccionaris morfològics: alineats i no-alineats.

Diccionaris morfològics alineats

En un diccionari morfològic alineat la correspondència entre la forma superficial i lèxica d'una paraula es troba alineada a nivell de caràcter. En l'exemple anterior tindríem:

(c,c) (a,a) (n,n) (t,t) (θ,a) (θ,r) (θ,<vb>) (a,θ) (r,θ) (í,<cnd>) (e,θ) (m,<1>) (θ,<pl>)

on θ és el símbol buit i <vb>, <cnd>, <1>, <pl> es corresponen amb el verb, condicional, 1a persona i plural.

En l'exemple el primer caràcter seria l'entrada (forma superficial) i el segon la sortida (forma lèxica). Aquesta ordenació seria valida per a l'ús en analitzadors morfològics, on a partir d'una forma superficial obtindríem la seua forma lèxica. En el cas de l'ús en generadors morfològics l'ordenació seria al revés.

Formalment si Σ és l'alfabet dels símbols d'entrada i Γ el dels símbols de sortida, un diccionari morfològic alineat és un subconjunt A L {\displaystyle A\subset L^{*}} on:

L = ( Σ θ ) × Γ Σ × ( Γ θ ) {\displaystyle L=(\Sigma \cup {\theta })\times \Gamma \cup \Sigma \times (\Gamma \cup {\theta })}

és l'alfabet de tots els possibles alineaments, incloent el símbol buit.

Diccionari morfològic no alineat

Un diccionari morfològic no alineat és simplement un conjunt U Γ × Σ {\displaystyle U\subset \Gamma ^{*}\times \Sigma ^{*}} de parelles de paraules d'entrada i sortida. Un diccionari morfològic no alienat representaria l'exemple anterior com a:

(cantaríem, cantar<vb><cnd><1><pl>)

Es pot obtenir fàcilment un diccionari alineat a partir d'un diccionari no alineat.

Ambigüitats lèxiques

A vegades hi pot haver més d'una forma lèxica associada a una forma superficial. Per exemple 'deu' pot correspondre un nom (la desena, que és singular, masculí), o bé, 3a persona del singular del present d'indicatiu del verb deure. Per això és necessària una funció que relaciona a les cadenes d'entrades amb les seues corresponents cadenes de sortida.

Si definim el conjunt E Σ {\displaystyle E\subset \Sigma ^{*}} de paraules d'entrada, sent E = w : ( w , w ) U {\displaystyle E={w:(w,w')\in U}} . La funció que faria la correspondència seria τ : E 2 Γ {\displaystyle \tau :E\rightarrow 2^{\Gamma ^{*}}} definida com: τ ( w ) = w : ( w , w ) U {\displaystyle \tau (w)=w':(w,w')\in U}

Referències

  • Alicia Garrido-Alenda; Mikel L. Forcada «Comparing nondeterministic and quasideterministic finite-state transducers built from morphological dictionaries». 2002.