@asalber

COMA: a system for flexible combination of schema matching approaches

, and . Proceedings of the 28th international conference on Very Large Data Bases, page 610--621. Hong Kong, China, VLDB Endowment, (2002)

Abstract

COMA (Combining Match) es un sistema de detección de correspondencias entre esquemas (bases de datos u ontologías) basado en la combinación de distintas técnicas o algoritmos. Funciona iterativamente en tres etapas que pueden reiterarse: 1- Retroalimentación del usuario. Esta fase es opcional y permite que el usuario establezca correspondencias que después influirán en el cálculo de nuevas correspondencias en las siguientes etapas. 2- Utilización de distintos algoritmos de cálculo de similitudes para cada par de entidades de los esquemas. Se utilizan distintos tipos de algoritmos: sufijos, afijos, n-gramas, distancia de edición, fonéticos, sinónimos, tipos de datos, relaciones taxonómicas y correspondencias con terceros esquemas. Las medidas de similitud de cada algoritmo para cada par de entidades se organizan en un cubo de similitudes. 3- Combinación de similitudes. Para cada par de entidades de los esquemas se agregan las medidas de similitud de los diferentes algoritmos utilizados. Se utiliza el máximo, el mínimo y la media ponderada como posibles medidas de agregación. Después se ordenan los candidatos por similitudes y se seleccionan los candidatos de acuerdo a distintos filtros: los n candidatos más parecidos, los candidatos que estén a una distancia d menor del más parecido, y los que superen un determinado umbral de similitud. La evaluación de las correspondencias obtenidas se realiza comparando con correspondencias hechas a mano mediante las medidas de precisión, recuerdo, y una combinación de ambas. La combinación de algoritmos y la reutilización de correspondencias externas mejora sensiblemente los resultados.

Links and resources

Tags

community