Nach einigen Testphasen mit Alpha-Testern habe ich festgestellt, dass die Qualität meines Newscrawlers meine Ansprüche noch nicht ganz befriedigt. Das Auffinden von interessanten Artikeln für Nutzer funktioniert auf Stichwortbasis wie es soll. Doch leider fehlt die semantische Komponente. Das heißt, bei sehr einfachen oder mehrdeutigen Begriffen bekommt man viele unnütze Treffer. Und das Nachverfolgen von bestimmten Themen ist mangels semantischer Zuordbarkeit nur unzureichend möglich. Es wäre doch schön, wenn das Programm wüsste, dass z.B. “Frau Merkel” und “Bundeskanzlerin” dieselbe Person sind.
Semantik ist in den USA weit fortgeschritten
Leider ist es auf dem Gebiet der semantischen Analyse mal wieder so wie immer: Deutschland hinkt den Amerikanern um mittlerweile 3 Jahre hinterher. Ich sage nur Stichwort “OpenCalais” oder “Zemanta”. Hierzulande gibt weder solche Webservices noch direkt nutzbare Tools für dieses schwierige – aber auch immens wichtige Thema – welches die nächste Evolutionsstufe des Webs möglich macht.
Bei uns starb sogar Rivva, der Blog-Aggregator, statt von Investoren oder Unternehmen mit Kusshänden aufgekauft oder übernommen zu werden, wie es in USA üblich gewesen wäre. Das ist für mich leider komplett unverständlich und eigentlich eine Schande. Deutschland verpasst komplett den Anschluss! So wie es aussieht, müssen wir darauf warten, bis die Amerikaner ihre Entwicklungen auf die deutsche Sprache portiert haben. Nur besteht von deren Seite nicht das geringste Interesse dafür. Tja…
Mach es selbst?
Welche Möglichkeit bleibt übrig? Mal wieder selbermachen.
In das Thema Semantik habe ich mich schon eingearbeitet – aber es sind einige wissenschaftliche Disziplinen auf einmal. Die muss man beherrschen. Eine kleine Mammutaufgabe, der ich alleine kaum gewachsen bin.
Insofern wäre ich dankbar für jeden, der ein Projekt “OpenCalais” für die deutsche Sprache mit mir in Angriff nehmen möchte. Datensätze von semantischen Ressourcen sind vorhanden. Auch von Freebase, bevor es von Google gekauft wurde.
Erster Schritt wäre, diese Quadruples und die Triples aus dem Wikipedia-Dump in eine Datenbank einzuspielen und diese durchsuchbar zu machen.
Danach muss das Tool ein Lernschema durchlaufen und Begriffe clustern.
Auf der anderen Seite müssen Worte aus Texten getaggt, lemmafiziert und damit in ihre Grundformen und Grundbedeutungen übertragen werden.
Danach kann man langsam anfangen, Worte und sinnbildende Blöcke mit der semantischen Datenbank zu analysieren und auszuwerten.
Benötigte Disziplinen:
Wer sich traut, schreibt mir einfach eine Nachricht. Danke!