Senior Sanchez
2010-05-07, 10:52:17
Hiho,
Für ein Uni-Projekt lasse ich einige hundert HTML Seiten mit Apache Lucene indexen. Dummerweise sind die HTML Seiten aber nicht valide, dass heißt da sind öfters leichte syntaktische Fehler drin (die Firefox, Safari und Co aber ignorieren bzw. ausbügeln können). Lucene kommt damit aber gar nicht klar. Es schmeißt ständig "Parse Aborted Meldungen".
Hier mein Code:
Analyzer analyser;
analyser = new StandardAnalyzer(Version.LUCENE_30);
try {
this.writer = new IndexWriter(this.IndexDir, analyser,MaxFieldLength.LIMITED);
for (File file : this.files) {
this.writer.addDocument(HTMLDocument.Document(file));
this.writer.commit();
}
this.writer.close();
}
catch(Exception e) {
e.printStackTrace();
}
this.files enthält die zu indizierenden HTML-Dokumente.
Hat irgendjemand eine Idee, wie ich Lucene robuster hinbekomme?
Ganz auf Lucene verzichten geht auch nicht, da wir keine Lust haben, die TFIDF-Funktion nach zu implementieren. ;)
Für ein Uni-Projekt lasse ich einige hundert HTML Seiten mit Apache Lucene indexen. Dummerweise sind die HTML Seiten aber nicht valide, dass heißt da sind öfters leichte syntaktische Fehler drin (die Firefox, Safari und Co aber ignorieren bzw. ausbügeln können). Lucene kommt damit aber gar nicht klar. Es schmeißt ständig "Parse Aborted Meldungen".
Hier mein Code:
Analyzer analyser;
analyser = new StandardAnalyzer(Version.LUCENE_30);
try {
this.writer = new IndexWriter(this.IndexDir, analyser,MaxFieldLength.LIMITED);
for (File file : this.files) {
this.writer.addDocument(HTMLDocument.Document(file));
this.writer.commit();
}
this.writer.close();
}
catch(Exception e) {
e.printStackTrace();
}
this.files enthält die zu indizierenden HTML-Dokumente.
Hat irgendjemand eine Idee, wie ich Lucene robuster hinbekomme?
Ganz auf Lucene verzichten geht auch nicht, da wir keine Lust haben, die TFIDF-Funktion nach zu implementieren. ;)