Abstract

Tutkielman kokonaistavoite on vastata tietotulvan tuomiin haasteisiin tiedonlouhinnantekniikoita käyttäen. Yleisenä tutkimuskohteena on tiedonlouhinta rakenteisistadokumenteista. Täsmällisemmin määriteltynä tutkimusongelma käsittää samaa skeemaanoudattavien XML-dokumenttien klusteroinnin ja tiedonhaun. Lisäksi käsitellään erilaistenhaku- ja klusterointitekniikoiden yhdistämisen tuomia mahdollisuuksia dokumenttikokoelmienhahmottamisessa. Teoreettisessa osuudessa käydään läpi erilaisia indeksirakenteita, samanlaisuusmittoja,klusterointialgoritmeja ja hakumenetelmiä. Empiirisessä osuudessa onkehitetty ExtMiner-sovellus, joka tukee hakua, klusterointia ja visualisointia erilaisille XML-dokumenttikokoelmille.

Links and resources

Tags