Inducción automática de taxonomías de sustantivos generales y especializados a partir de corpus textuales desde el enfoque de la lingüística cuantitativa

Investigador Responsable

Rogelio Nazar

Descripción

En este proyecto se propone la aplicación de métodos de lingüística cuantitativa a un problema central en semántica que es el de las relaciones hiperonímicas entre unidades léxicas, es decir el de las relaciones de menor a mayor generalidad en el concepto designado por las palabras o por términos técnicos o especializados. Es la relación que se da, por ejemplo, entre la palabra automóvil y la palabra vehículo, o entre los términos oxitocina y hormona, ya que decimos que el primero es “un tipo” del segundo (un hipónimo) mientras que, en el sentido inverso, el segundo es “una clase” del primero (un hiperónimo). El establecimiento de estas relaciones entre las unidades léxicas es necesario para organizar el vocabulario en la forma de una taxonomía, y esto es de gran interés tanto para la lingüística teórica como para la aplicada. El presente proyecto es de interés para la lingüística teórica por el método que propone, ya que al estar basado en el análisis de textos reales, hace explícita una descripción sistemática del comportamiento del léxico en el discurso, concretamente de sus propiedades distribucionales. Por su parte, para la lingüística aplicada puede ser de interés el producto de la investigación que sería la organización del léxico en forma de taxonomía, ya que esta puede tener aplicaciones prácticas en campos diversos como la lexicografía, la terminografía, la traducción y el aprendizaje de lenguas entre otros.

El objetivo del proyecto es el desarrollo de una metodología para la inducción automática de taxonomías a partir de textos. Esta metodología se funda en algoritmos de análisis cuantitativo de las propiedades distribucionales de los sustantivos en corpus textuales de grandes dimensiones (miles de millones de palabras), ya sea de lenguaje general como especializado. Esta será una metodología basada en el análisis de la coocurrencia léxica y servirá para predecir, a partir de la distribución de dos sustantivos en un corpus, si entre ellos existe una relación de hiperonimia y el sentido o dirección de esta relación ya que, siendo naturalmente asimétrica, esta relación de se da en una sola dirección. Por cada unidad léxica analizada, se estudiará el vocabulario de las oraciones del corpus en las que esta aparece, y mediante el análisis automatizado de este vocabulario, se evaluará la hipótesis que guía el proyecto, según la cual las relaciones de hiperonimia poseen un patrón característico que las pone de relieve. Concretamente, que las unidades léxicas exhiben una tendencia a aparecer en las mismas oraciones con sus hiperónimos en una relación no recíproca. Así, por ejemplo, el término trombosis mostrará una tendencia a aparecer en las mismas oraciones con el término enfermedad, pero este último no mostrará esta misma tendencia respecto al primero.


«