Gonzalo Génova Fuster

Jorge Morato, Juan Lloréns, Gonzalo Génova, José Antonio Moreiro. "Experiments in Discourse Analysis Impact on Information Classification and Retrieval Algorithms", Information Processing and Management, 39(6): 825-851, Nov 2003.

Full text

Abstract

Researchers in indexing and retrieval systems have been advocating the inclusion of more contextual information to improve results. The proliferation of full-text databases and advances in computer storage capacity have made it possible to carry out text analysis by means of linguistic and extra-linguistic knowledge. Since the mid 80's, research has tended to pay more attention to context, giving discourse analysis a more central role. The research presented in this paper aims to check whether discourse variables have an impact on modern information retrieval and classification algorithms. In order to evaluate this hypothesis, a functional framework for information analysis in an automated environment has been proposed, where the n-grams (filtering) and the k-means & Chen's classification algorithms have been tested against sub-collections of documents based on the following discourse variables: "Genre", "Register", "Domain terminology", and "Document structure". The results obtained with the algorithms for the different sub-collections were compared to the MeSH information structure. These demonstrate that n-grams does not appear to have a clear dependence on discourse variables, though the k-means classification algorithm does, but only on domain terminology and document structure, and finally Chen's algorithm has a clear dependence on all of the discourse variables. This information could be used to design better classification algorithms, where discourse variables should be taken into account. Other minor conclusions drawn from these results are also presented.

Resumen

Los investigadores en sistemas de indización y recuperación de información defienden que se incluya información contextual para mejorar los resultados. La proliferación de bases de datos a texto completo y los avances en capacidad de almacenamiento han hecho posible llevar a cabo el análisis del texto mediante conocimiento lingüístico y extra-lingüístico. Desde mediados de los 80, las investigaciones han prestado más atención al contexto, dando un papel más central al análisis del discurso. La investigación presentada en este artículo pretende comprobar si las variables de discurso tienen algún impacto en los modernos algoritmos de clasificación y recuperación de información. Para evaluar esta hipótesis hemos propuesto un método para el análisis de información en un entorno automatizado, en el que los algoritmos n-grams (filtrado), k-means y Chen (clasificación) han sido probados contra subcolecciones de documentos basadas en las siguientes variables de discurso: "género", "registro", "terminología del dominio", y "estructura del documento". Los resultados obtenidos con los algoritmos para las diferentes subcolecciones han sido comparados con la estructura de información MeSH, y demuestran que n-grams no parece tener una clara dependencia de las variables de discurso, mientras que k-means sí la tiene, aunque sólo sobre la terminología del dominio y la estructura del documento, y finalmente el algoritmo de Chen tiene una clara dependencia de todas las variables de discurso. Esta información podría usarse para diseñar mejores algoritmos de clasificación, en los que las variables de discurso sean tomadas en cuenta. También se presentan otras conclusiones menores extraídas de estos resultados.