CRogoza Geschrieben 2. November 2010 Teilen Geschrieben 2. November 2010 Guten Tag zusammen, Ziel ist es aus den Suchmaschinen Google, Yahoo und Bing Ad-Anzeigen zu bestimmten Suchwörtern zu crawlen. Leider geben die APIs der genannten Suchmaschinen diese nicht her, oder ich finde es nicht in den API Doks. Kurze Tests mit den APIs haben bei den Results die Ads nicht mitgeliefert. Hat in dem Bereich jemand Erfahrung oder eine Idee, wie das programmatisch am sinnvollsten zu lösen ist? Ein Webcrawler in Java mit Proxyrotation etc. ist schon vorhanden, weitere ETL Prozesse werden ebenfalls in Java umgesetzt. Danke schon mal für Ideen und Kommentare! Zitieren Link zu diesem Kommentar Auf anderen Seiten teilen Mehr Optionen zum Teilen...
flashpixx Geschrieben 2. November 2010 Teilen Geschrieben 2. November 2010 Was ist denn das Ziel? Deine Informationen sind recht wenig, so dass ich mir darunter nichts vorstellen kann. Zitieren Link zu diesem Kommentar Auf anderen Seiten teilen Mehr Optionen zum Teilen...
CRogoza Geschrieben 2. November 2010 Autor Teilen Geschrieben 2. November 2010 Dachte eigentlich das Ziel steht da Ziel ist es aus den Suchmaschinen Google, Yahoo und Bing Ad-Anzeigen zu bestimmten Suchwörtern zu crawlen.Zweck ist es letztendlich die sichtbare Domain mit der tatsächlichen Redirect-Domain zu vergleichen, ob z. B. fachinformatiker.de dort steht, man aber auf einem ganz anderen Forum landet. Zitieren Link zu diesem Kommentar Auf anderen Seiten teilen Mehr Optionen zum Teilen...
flashpixx Geschrieben 2. November 2010 Teilen Geschrieben 2. November 2010 Zweck ist es letztendlich die sichtbare Domain mit der tatsächlichen Redirect-Domain zu vergleichen, ob z. B. fachinformatiker.de dort steht, man aber auf einem ganz anderen Forum landet. Der Link einer Anzeige steht im HTML Code und auch der Link der redirectet wird, steht auch in dem Dokument. Also wo ist das Problem? Zitieren Link zu diesem Kommentar Auf anderen Seiten teilen Mehr Optionen zum Teilen...
CRogoza Geschrieben 2. November 2010 Autor Teilen Geschrieben 2. November 2010 Leider geben die APIs der genannten Suchmaschinen diese nicht her, oder ich finde es nicht in den API Doks. Kurze Tests mit den APIs haben bei den Results die Ads nicht mitgeliefert. Das Suchen und Extrahieren funktioniert ja schon, bisher über einen Crawler + Parser. Nur ab einer bestimmten Anzahl an Querys verpasst Google einen Block auf die IP. Und das selbe Problem mit dem Block wird wohl auch bei den anderen Suchmaschinene passieren. Darum die Frage nach der API, ob jemand schon Vergleichbares mit der API gemacht hat. Zitieren Link zu diesem Kommentar Auf anderen Seiten teilen Mehr Optionen zum Teilen...
flashpixx Geschrieben 2. November 2010 Teilen Geschrieben 2. November 2010 Noch einmal der Hinweis: Beschreibe Dein Problem so, dass es verständlich ist, denn ich sehe im Moment weder einen Zusammenhang mit Java, noch ist mir klar was Du eigentlich machst / machen willst. Du willst die Werbung von Google lesen, dafür gibt es entsprechende APIs Zitieren Link zu diesem Kommentar Auf anderen Seiten teilen Mehr Optionen zum Teilen...
CRogoza Geschrieben 2. November 2010 Autor Teilen Geschrieben 2. November 2010 Sorry, -no offense- aber hast du meine Beiträge gelesen? Die eingesetzte Sprache ist Java, sowohl beim Crawler als auch beim Parser. Und wie oben geschrieben: die APIs geben die Ads nicht her! Darum erneut die Frage: hat jemand Erfahrung damit die Ads von bestimmten Suchmaschinen (Google, Yahoo, Bing) programmatisch auszulesen und welche Möglichkeiten gibt es die dabei entstehenden Probleme wie IP Sperre zu umgehen. Falls die APIs das können, dann bitte einen Ref dazu, denn weder in der Doku noch in den Tests war es über die API möglich die Problemstellung zu lösen. Falls das hier einfach der falsche Bereich ist, dann bitte verschieben bzw. Info an mich. Zitieren Link zu diesem Kommentar Auf anderen Seiten teilen Mehr Optionen zum Teilen...
Empfohlene Beiträge
Dein Kommentar
Du kannst jetzt schreiben und Dich später registrieren. Wenn Du ein Konto hast, melde Dich jetzt an, um unter Deinem Benutzernamen zu schreiben.