Zum Inhalt springen

Empfohlene Beiträge

Geschrieben

Erstmal hoffe ich, dass ich das richtige Unterforum gewählt habe.

Viele Nachrichten-Aggregatoren, wie z.B. Wikio, ordnen allen Artikeln Tags zu. Da diese Arbeit per Hand viel zu aufwändig wäre, kann man ja davon ausgehen, dass das Tagging automatisch oder zumindest halbautomatisch durchgeführt wird.

Beispieltext:

Klaus Dobbratz über den Abschiedsschmerz von Hans-Michael Holczer Der Teammanger des Radrennstalls Gerolsteiner, ein wichtiger Sympathieträger des Sports, fand kein Gehör bei der Industrie. Der Name verschwindet wie auch die Fahrer. Das Ende einer durchaus erfolgreichen Geschichte. Neuss, 4. September...

Quelle: sport-signale.de

Wikios Tags für diesen Artikel:

- Sport/Radsport/Radsportler/Gerolsteiner

- Sport/Radsport

- Sport/Radsport/Radsportler

- Sport

Für alle Tags gibt es also auch noch eine Hierarchie: "Radsport" ist z.B. "Sport" untergeordnet.

Wie wird das eurer Meinung nach realisiert? Automatisch oder halbautomatisch? Welchen Ansatz von mir findet ihr besser? Oder habt ihr vielleicht noch einen besseren?

1. Ansatz: Es wird eine Datenbank aufgebaut mit einem Tag und einem Pfad für das Tag. Beispiel: "Tour de France" als Tag und "Sport/Radsport/Tour de France" als Pfad. Wenn in einem Artikel nun "Tour de France" vorkommt, dann werden auch die übergeordneten Tags dem Artikel zugeordnet. Der Artikel erhält dann also die Tags "Tour de France", "Radsport" und "Sport".

2. Ansatz: Alle Wörter und Wortkombinationen werden aus dem Text ausgelesen und als Tag genommen. Weil das sehr oft gemacht wird, erkennt das system mit der Zeit, dass "Tour de France" zu "Radsport" gehört und verbindet die Tags automatisch. Das ist also ein vollautomatischer Ansatz.

Ich hoffe, ihr könnt mir helfen, herauszufinden, wie man so etwas umsetzen kann. Danke im Voraus für eure Antworten!

Geschrieben

Servus,

dieses Thema ist wohl eines der umfangreicheren für die heutige Indizierung von Dokumenten. Ich arbeite zwar nicht selbst in diesem Bereich, habe aber momentan mit einem Dienstleister zu tun, die sich darauf spezialisiert haben.

Dort ist es so, dass Texte zerlegt werden, die Worte - wenn möglich - in ihre Grundform gebracht werden, Rechtschreibfehler erkannt und behoben werden, Synonyme über Thesauri aufgelöst werden, und die übriggebliebenen Worte dann anhand von Lexika verschlagwortet werden. Dies geschieht automatisch, die Pflege der Lexika und Thesauri sowie die Einstellungen für die Erkennung von Rechtschreibfehlern und Wortformen sind natürlich Zusatzaufwände.

Um tiefer in die Materie einzusteigen, solltest Du Dich wohl am besten intensiver mit dem Thema Verschlagwortung und Textindizierung beschäftigen. Hier gibt es sehr viele Sachen zu beachten.

Schöne Grüße,

Peter

Dein Kommentar

Du kannst jetzt schreiben und Dich später registrieren. Wenn Du ein Konto hast, melde Dich jetzt an, um unter Deinem Benutzernamen zu schreiben.

Gast
Auf dieses Thema antworten...

×   Du hast formatierten Text eingefügt.   Formatierung wiederherstellen

  Nur 75 Emojis sind erlaubt.

×   Dein Link wurde automatisch eingebettet.   Einbetten rückgängig machen und als Link darstellen

×   Dein vorheriger Inhalt wurde wiederhergestellt.   Editor leeren

×   Du kannst Bilder nicht direkt einfügen. Lade Bilder hoch oder lade sie von einer URL.

Fachinformatiker.de, 2024 by SE Internet Services

fidelogo_small.png

Schicke uns eine Nachricht!

Fachinformatiker.de ist die größte IT-Community
rund um Ausbildung, Job, Weiterbildung für IT-Fachkräfte.

Fachinformatiker.de App

Download on the App Store
Get it on Google Play

Kontakt

Hier werben?
Oder sende eine E-Mail an

Social media u. feeds

Jobboard für Fachinformatiker und IT-Fachkräfte

×
×
  • Neu erstellen...