Ocram7 Geschrieben 26. September 2008 Teilen Geschrieben 26. September 2008 Erstmal hoffe ich, dass ich das richtige Unterforum gewählt habe. Viele Nachrichten-Aggregatoren, wie z.B. Wikio, ordnen allen Artikeln Tags zu. Da diese Arbeit per Hand viel zu aufwändig wäre, kann man ja davon ausgehen, dass das Tagging automatisch oder zumindest halbautomatisch durchgeführt wird. Beispieltext: Klaus Dobbratz über den Abschiedsschmerz von Hans-Michael Holczer Der Teammanger des Radrennstalls Gerolsteiner, ein wichtiger Sympathieträger des Sports, fand kein Gehör bei der Industrie. Der Name verschwindet wie auch die Fahrer. Das Ende einer durchaus erfolgreichen Geschichte. Neuss, 4. September... Quelle: sport-signale.de Wikios Tags für diesen Artikel: - Sport/Radsport/Radsportler/Gerolsteiner - Sport/Radsport - Sport/Radsport/Radsportler - Sport Für alle Tags gibt es also auch noch eine Hierarchie: "Radsport" ist z.B. "Sport" untergeordnet. Wie wird das eurer Meinung nach realisiert? Automatisch oder halbautomatisch? Welchen Ansatz von mir findet ihr besser? Oder habt ihr vielleicht noch einen besseren? 1. Ansatz: Es wird eine Datenbank aufgebaut mit einem Tag und einem Pfad für das Tag. Beispiel: "Tour de France" als Tag und "Sport/Radsport/Tour de France" als Pfad. Wenn in einem Artikel nun "Tour de France" vorkommt, dann werden auch die übergeordneten Tags dem Artikel zugeordnet. Der Artikel erhält dann also die Tags "Tour de France", "Radsport" und "Sport". 2. Ansatz: Alle Wörter und Wortkombinationen werden aus dem Text ausgelesen und als Tag genommen. Weil das sehr oft gemacht wird, erkennt das system mit der Zeit, dass "Tour de France" zu "Radsport" gehört und verbindet die Tags automatisch. Das ist also ein vollautomatischer Ansatz. Ich hoffe, ihr könnt mir helfen, herauszufinden, wie man so etwas umsetzen kann. Danke im Voraus für eure Antworten! Zitieren Link zu diesem Kommentar Auf anderen Seiten teilen Mehr Optionen zum Teilen...
kingofbrain Geschrieben 28. September 2008 Teilen Geschrieben 28. September 2008 Servus, dieses Thema ist wohl eines der umfangreicheren für die heutige Indizierung von Dokumenten. Ich arbeite zwar nicht selbst in diesem Bereich, habe aber momentan mit einem Dienstleister zu tun, die sich darauf spezialisiert haben. Dort ist es so, dass Texte zerlegt werden, die Worte - wenn möglich - in ihre Grundform gebracht werden, Rechtschreibfehler erkannt und behoben werden, Synonyme über Thesauri aufgelöst werden, und die übriggebliebenen Worte dann anhand von Lexika verschlagwortet werden. Dies geschieht automatisch, die Pflege der Lexika und Thesauri sowie die Einstellungen für die Erkennung von Rechtschreibfehlern und Wortformen sind natürlich Zusatzaufwände. Um tiefer in die Materie einzusteigen, solltest Du Dich wohl am besten intensiver mit dem Thema Verschlagwortung und Textindizierung beschäftigen. Hier gibt es sehr viele Sachen zu beachten. Schöne Grüße, Peter Zitieren Link zu diesem Kommentar Auf anderen Seiten teilen Mehr Optionen zum Teilen...
Empfohlene Beiträge
Dein Kommentar
Du kannst jetzt schreiben und Dich später registrieren. Wenn Du ein Konto hast, melde Dich jetzt an, um unter Deinem Benutzernamen zu schreiben.