
Brainflakes
Mitglieder-
Gesamte Inhalte
6 -
Benutzer seit
-
Letzter Besuch
Inhaltstyp
Profile
Forum
Downloads
Kalender
Blogs
Shop
Alle Inhalte von Brainflakes
-
Bisher kann ich nur Links hinzufügen, wenn auf der Seite hinter dem Link irgendwas steht, wird es bei einer Suche nicht berücksichtigt. Mit meiner Anwendung schon. Dazu kommt die automatische Aktualisierung, die ebenfalls eine - wenn auch vielleicht marginale - Verbesserung ist. Kleines Beispiel: Im Wiki ist ein Artikel zu golden-i (Home | Golden-i). Dabei ist auch ein Link zu heise für weitere Informationen (Der echte Robocop | Technology Review). Wenn ich nun im Wiki nach "HUD" suche, komme ich auf 0 Ergebnisse, da in dem Artikel nichts dazu steht. Durch das Auslesen der Zusatzinfo und deren Indexierung finde ich aber bei meiner Anwendung beides. Hier hast du nicht verstanden was ich machen will. Es wird nicht der Text lokal gespeichert, sondern die Indizes zusammen mit der URL. Das soziale Netz mit Wiki ist der aktuelle Zustand der nicht mehr angestrebt ist. Was die Verbesserung gegenüber dem alten System angeht habe ich oben schon was dazu geschrieben. Und nochmal frage ich: Warum sollte jemand in einer firmeninternen Informationsanwendung bewusst(!) Spam einfügen? Für deutsch/Fremdsprachen kann man zusätzlich noch Tags einbauen, das ist jetzt nicht wirklich viel Aufwand. Woher nimmst du das? Was wiederum den Rahmen eines Abschlussprojektes sprengen würde, oder nicht? Weil ich über google keinerlei Kontrolle habe, was die Zusammenstellung der Infos betrifft. Vielleicht gibt es ja im Intranet auch noch Infos dazu oder sonst was.
-
Sinnvoll ist es in dem Sinne, das es ein bestehendes System durch ein besseres ersetzt. Wirtschaftlich ist es dann halt lediglich in dem Zusammenhang, dass zueinandergehörige Informationen besser gefunden werden als bisher. Bisher kann man ja theoretisch auch jeden Unsinn ins Wiki stellen, was aber niemand macht weil es niemandem was bringt. Warum sollte das mit meiner Anwendung anders sein? Scheinbar habe ich das noch vergessen in dem Post vorher: Ich erstelle über die Seiten mit Hilfe von Lucene Indizes und entwickle dazu immer noch die eigene (lokale) Suche. Dazu wird es die Möglichkeit geben, bei bestimmten Seiten, die hier in der Abteilung öfter für solche News herangezogen werden (heise und golem, evtl. noch andere) die Artikel aus der html-Seite zu extrahieren. Ich stell nochmal meinen überarbeiteten Antrag hier rein, vielleicht kann man das daraus besser ablesen.. 3. Projektbeschreibung Ist-Analyse [...] bietet seinen Abteilungen die Möglichkeit, Informationen über aktuelle Themen oder interessante neue Technologien, die relevant sein können mittels eines firmeninternen Wikis mit Anschluss an ein eigenes soziales Netzwerk zu teilen. Über einen Activity Flow kann beobachtet werden, wenn neue Artikel im Wiki eingestellt wurden. Die Problematik dabei besteht darin, dass Webseiten nicht als Ganzes einfach in das Wiki kopiert werden sollten, da dadurch unter Umständen Wiki-Artikel viel zu lang werden, sofern mehrere Seiten mit Informationen dazu im Internet dazu existieren. Man muss also entweder die Artikel im Wiki kürzen, oder eine Linkliste anhängen, die aber bei einer Suchanfrage nicht berücksichtigt wird Änderungen an den Originalartikeln müssen, wenn sie überhaupt entdeckt werden, in mühseliger Handarbeit nachträglich übertragen werden. Zielsetzung Ziel des Projektes ist es, eine zentrale Webanwendung zur Verfügung zu stellen, mit der Informationen aus mehreren Webseiten automatisch zusammen indiziert werden, um bei einer Suchanfrage alle zusammenhängenden Informationen zu einem Thema aufzufinden. Hierfür gibt der Benutzer beim Erstellen eines Eintrags in der Anwendung ein Schlüsselwort an. Zu jedem Schlüsselwort können ein oder mehrere Links angegeben werden (beispielsweise eine News-Seite und zusätzlich die Herstellerseite des Produktes von dem berichtet wird), wobei für jeden Link separat einstellbar sein soll, ob die Anwendung lediglich den Inhalt der verlinkten Seite indexiert , oder ob jede Seite der Domain verarbeitet werden soll. Ein Web-Crawler innerhalb der Anwendung lädt dann, je nach Angabe, nur die verlinkte, oder alle Seiten der Domain herunter. Um Laufzeitprobleme bei sehr großen Domains zu verhindern, wird eine Sperre implementiert, die den Vorgang abbricht, sobald die heruntergeladene Datenmenge zu groß wird. Für bestimmte, administrativ einstellbare Seiten, die oft frequentiert werden, besteht die Möglichkeit, Inhalte von Artikeln ohne zusätzlichen Overhead zu extrahieren. Die so zusammengetragenen Informationen werden schließlich unter Nutzung des Lucene-Frameworks indexiert, um die Informationen später einfach wieder zu finden. Suchanfragen berücksichtigen dann nicht nur das angegebene Schlüsselwort, sondern zusätzlich auch die mit Lucene erstellten Indizes und finden so auch Zusammenhänge mit Inhalten, die alleine durch Schlüsselwort und den Link wie es bisher im Wiki realisiert ist, nicht gefunden worden wären. Eine Update-Komponente der Anwendung überprüft außerdem periodisch, ob die lokal gespeicherten Informationen noch aktuell sind. Dadurch soll eine Wissensdatenbank geschaffen werden, die ihre Stärken gegenüber der bisherigen Lösung in der Anwendbarkeit einer Volltextsuche, die auch sämtliche relevanten Internetseiten liefert und ihrer ständigen Aktualität durch die Update-Komponente hat. Für die Zukunft wären auch noch diverse Erweiterungen dieses Projekts möglich. So wäre z.B. eine Anbindung an den Mailverteiler einer Abteilung denkbar, um eine noch einfachere Art der Informationsverteilung zu ermöglichen. Auch eine direktere Anbindung an das Wiki wäre denkbar.
-
Das extrahieren von Texten ist ja auch nicht mehr angedacht. In deinem Beispiel käme es darauf an, was du zu dem HP-Link angegeben hast. Entweder der Crawler zieht nur die direkte Seite komplett, oder er lädt alle Seiten der HP-Domain, bis die Sperre greift. Wenn keine Links mehr existieren ist der Crawl-Vorgang durch, so ist das ja gedacht. Wenn man dann nach dem Begriff "HP Notebook" sucht, kommen die Seiten die bei diesem Erstellungsvorgang geladen wurden. Das System weiß wo es bei heise nachschlagen soll, weil man dazu den direkten Link auf die Seite angibt. Mit dynamischen Inhalten gibt es wohl ein Problem, die müsste man bei der Benutzung dann ausschließen. Natürlich kommt es hierbei stark auf die Angaben des Benutzers an, ob sinnvolle Ergebnisse bei der Suche zustande kommen, aber da das System nur innerhalb Abteilungen voller Entwickler benutzt wird, sehe ich darin ein eher geringeres Problem.
-
Okay, ich habe mich gerade nochmal mit ein paar Leuten in der Abteilung unterhalten und wir sind dazu gekommen, das Projekt nochmal umzuformulieren: Der Nutzer bekommt eine Eingabemaske, in der er ein Schlüsselwort (Produktname o.ä.) eingeben kann, dazu dann Links angeben kann mit der Möglichkeit wie bisher, anzugeben, ob nur die Seite gezogen werden soll, oder die ganze Domain durch den Crawler. Der ganze Teil der Suche nach ähnlichen Inhalten fällt weg. Zusätzlich können noch Tags vergeben werden. Allen Links die dabei zustande kommen, wird dann über das Lucene-Framework ein Index zugewiesen und die Seiten werden als ganzes abgespeichert. Gemacht wird das Ganze, damit man die Inhalte über das Schlüsselwort, Tags, oder Volltextsuche wieder finden kann, wobei die Relevanz der gefundenen Einträge nicht in Vordergrund steht. Anwendungsbeispiel wäre z.B. ein technisches Produkt, über das auf heise.de berichtet wird. Der Nutzer gibt die Homepage des Herstellers an, wobei die ganze Domain gezogen werden soll, und den Artikel auf heise der einzeln dazu gespeichert werden soll. Damit nicht irgendwelche Spaßvögel angeben, dass man die komplette heise-Domain zieht, wird in den Crawler eine Sperre eingebaut, die nach x rekursiven Aufrufen abbricht. Ist das so dann doch wieder zu simpel oder nicht?
-
Erst mal danke für eure Meinungen. Der Fokus in dem Projekt liegt in dem Erstellen des Crawlers und der Suchfunktion dahinter. Da ihr beide meint, das Indexieren der Inhalte wäre zu komplex für ein Abschlussprojekt, kann man das denn noch runterskalieren? Ich denke mal wenn ich nur den Crawler als Projekt nehme, der ungefiltert alle Seiten einer Domain zurückliefert, ist das schon wieder zu wenig. Vielleicht mit gefilterten Ergebnissen ohne Indexierung? Ich stecke hier halt leider etwas fest, da wir im Unternehmen bisher kein anderes Projekt gefunden haben und morgen der Antrag abgegeben werden muss. Edit: Die Einbindung von Lucene, bzw. dem Python-Port davon (pyLucene) war tatsächlich eingeplant. Aber muss ich sowas dann mit im Antrag angeben?
-
Hi, ich wollte hier auch einmal nachfragen ob sich ein paar Leute mal meinen Projektantrag ansehen könnten. 1. Thema: Selbsterweiterndes Informationscluster mit Volltextsuche 2. Termin 03.03.2013 – 15.04.2013 3. Projektbeschreibung Ist-Analyse [...] bietet seinen Abteilungen die Möglichkeit, Informationen über aktuelle Themen oder interessante neue Technologien, die relevant für Projekte des Instituts sein können mittels eines firmeninternen Wikis mit Anschluss an ein eigenes soziales Netzwerk zu teilen. Über einen Activity Flow kann beobachtet werden, wenn neue Artikel im Wiki eingestellt wurden. Die Problematik dabei besteht darin, dass Webseiten nicht als Ganzes einfach in das Wiki kopiert werden sollten, da damit viel unnützer Overhead gespeichert wird (Werbung, allgemeine Navigationslinks usw.) Man könnte zwar im Wiki eine Linksammlung einrichten, damit gibt man aber die Möglichkeit auf, Inhalte über eine Volltextsuche (wieder) zu finden. Daher wird meist auf eine Verteilung der Informationen per Email-Verteiler zurückgegriffen. Dabei ist aber nicht gewährleistet, dass die Informationen auch alle Mitarbeiter erreichen, da sie im Fluss des restlichen Mailverkehrs untergehen können. Zielsetzung Ziel des Projektes ist es, eine zentrale Webanwendung zur Verfügung zu stellen, mit der Informationen aus Webseiten automatisch extrahiert und damit einfach gesammelt und über einen längeren Zeitraum, zunächst testweise noch abseits des Wikis über eine Datenbank bereitgestellt werden können. Dabei sollen lediglich die relevanten Teile beispielsweise einer News-Seite abgespeichert werden, damit die Anwendung später direkt in das Wiki mit eingebunden werden könnte, was aber nicht mehr im Rahmen dieses Projektes stattfinden wird. Zusätzlich soll es die Möglichkeit geben, auf verlinkten Domains automatisch nach Artikeln mit ähnlichen Inhalten gesucht werden. Dies geschieht durch Angabe eines Such- bzw. Indexwortes bei der Erstellung eines Eintrags innerhalb der Anwendung. Zu jedem Artikel können ein oder mehrere Links angegeben werden (beispielsweise eine News-Seite und zusätzlich die Herstellerseite des Produktes von dem berichtet wird), wobei für jeden Link separat einstellbar sein soll, ob die Anwendung lediglich den Inhalt der verlinkten Seite speichert, oder ob die Domain weiter nach Seiten mit relevanten Inhalten durchsucht werden soll. Ein Web-Crawler innerhalb der Anwendung durchsucht dann, sofern angegeben, die Domain nach Artikeln, die mit dem Suchwort zusammenhängen Die so zusammengetragenen Informationen werden schließlich indiziert, wodurch die Anwendung einer Volltextsuche ermöglicht wird, um die Informationen später einfach wieder zu finden. Eine Update-Komponente der Anwendung überprüft außerdem periodisch, ob die lokal gespeicherten Artikel noch aktuell sind. Dadurch soll eine sich automatisch erweiternde Wissensdatenbank geschaffen werden , die ihre Stärken gegenüber der bisherigen Lösung in der Anwendbarkeit einer Volltextsuche und ihrer ständigen Aktualität durch die Update-Komponente hat. Für die Zukunft wären auch noch diverse Erweiterungen dieses Projekts möglich. So wäre z.B. eine Anbindung an den Mailverteiler einer Abteilung denkbar, um eine noch einfachere Art der Informationsverteilung zu ermöglichen. 4. Projektumfeld: Das Projekt wird firmenintern ohne jegliche Fremdleistung innerhalb der Abteilung [...] realisiert. Programmiersprache: Python Entwicklungsumgebung: Microsoft Visual Studio 2012 Datenbank: PostgreSQL Versionskontrolle: git 5. Projektphasen Projektdefinition (4 Stunden) Ist-Analyse (2 Stunden) Soll-Konzept/Zielformulierung (2 Stunden) Projektplanung (14 Stunden) Projektstrukturplan (3 Stunden) Terminplanung/Gantt-Chart (1 Stunde) Kostenplanung (1 Stunde) Planung des Datenmodells (3 Stunden) Programmstruktur und –ablauf (6 Stunden) Realisierung (36 Stunden) Entwicklung des Web-Crawlers (16 Stunden) Entwicklung der Index- und Suchfunktion (11 Stunden) Entwicklung der Update-Komponente (1 Stunde) Erstellung eines Web-Interfaces zur Bedienung (8 Stunden) Testphase (5 Stunden) Erstellen des Testplans (2 Stunden) Funktionsprüfung (3 Stunden) Dokumentation (9 Stunden) Erstellen der Dokumentation (9 Stunden) Projektabschluss (2 Stunden) Softwareinstallation (1 Stunde) Einweisung in die Software (1 Stunde) Gesamtaufwand (70 Stunden) Vielen Dank schonmal im Vorraus an die, die sich die Mühe machen