Vortrag ueber aktuelle Moeglichkeiten mit Perl Suchmaschinenartig zu indexieren. Dabei werden schliesslich folgende Loesungen praeferiert: Xapian und Kino (und Plucene). Allerdings ist Plucene nach eigener Erfahrung aus Performance-Gesichtspunkten derzeit keine Option.
Xapian ist eine Suchmaschinentechnologie - aehnlich wie Lucene im Java-Umfeld. Sie zeichnet sich durch verschiedene Vorteile aus.
1) Xapian ist schnell
2) Obwohl Xapian selbst in C++ programmiert ist, kann mit Perl und vielen anderen Programmiersprachen darauf zugegriffen werden. Indexer und Suche sind zusammen weniger als 100 Zeilen Perl-Code.
3) Xapian bietet Relevance Feedback. Damit können Drill-Downs realisiert werden - wenn auch erst einmal nur token-basiert out-of-the-box.
4) Xapian skaliert vernünftig mit grossen Datenmengen. Bei einer Web-Suchmaschine mit 500 Millionen Webseiten (etwa 1.5 Terrabytes an Datenbank Dateien), bei der Xapian im Einsatz war, brauchte eine Suche (laut Bericht) trotzdem weniger als 1 Sekunde - natürlich hängt das auch massgeblich von
der verwendeten Hardware ab. Eine Suche nach 'Deutschland' im Katalog der USB Koeln mit knapp 77000 Treffer brauchte knapp 1 Sekunde...
Insgesamt eine stabile und interessante Loesung fuer Suchanwendungen.