Zum Inhalt springen
  • 0

Google Suchergebnisse in Exceldatei importieren


Frage

Geschrieben

Hallo Zusammen,

ich habe folgende Herausforderung. Es soll ein Schlagwort z. B. "Leberkas" über google.de gesucht werden und die Ergebnisse in eine Exceldatei über führt werden. Wie kann man dies am Besten umsetzen und mit welcher Sprache? Ich selber bin leider kein Anwendungsentwickler, so dass ich um Milde bitte 😉

 

Servus

actionmuc

5 Antworten auf diese Frage

Empfohlene Beiträge

  • 1
Geschrieben
vor 7 Stunden schrieb Chris-Info:

Wird dabei auch via Javascript dynamisch geladener Inhalt geladen?

Es kommt nur der von der Ressource versendete Code als string zurück:

"p: $('#div_impressum').offset().top }, 1500);" onmouseover="preView('li_impressu
m')"  onmouseout = "hide_preView()"> <a><figure class='ball'></figure></a></li><
ul> <footer>⌖</footer> </nav>        <div id="div_start"></div>
        <div id="div_suche"></div>
        <div id="div_firma"></div>"
 

  • 0
Geschrieben (bearbeitet)

Hallo actionmuc,

der Begriff dazu heißt Web Scraping, teilweise auch Screen Scraping. Machen kannst Du das mit vielen Sprachen. Unter anderem auch mit VBA direkt in Excel selbst. Gängige Methoden sind xhr (XML HTTP Request) oder wenn die Automatisierung eines Browsers notwendig ist, dass Selenium Framework. Die gewünschten Ergebnisse aus der zu verarbeitenden HTML Datei bekommt man am einfachsten über das DOM (Document Object Model) oder im Falle von Selenium über eine ähnliche seleniumeigene Technik.

Das Scrapen über einen Browser ist langsamer, da immer die gesamte Seite mit allen Dateien geladen und gerendert wird, während bei Verwendung von xhr nur die angeforderte Datei vom WebServer angefordert wird.

Der Vorteil von Selenium ist, dass der Browser automatisch das gesamte Seassionhandling übernimmt und auch JavaScript verarbeiten kann. Bei xhr muss man sich selbst um Cookies, SeassionIDs, usw. kümmern, falls notwendig und es ist eine statische Angelegenheit. Das bedeutet, JavaScript wird nicht ausgeführt.

Soweit etwas oberflächlich zu den grundlegenden Technologien. Das Problem bei Google ist, die sperren Dich nach 30 oder 35 automatisierten Zugriffen aus. Habe die genaue Anzahl nicht mehr im Kopf, glaube aber nicht, dass die Begrenzung aufgehoben wurde. Aussperren heißt in diesem speziellen Fall, bei jedem Zugriff werden Captchas vor die Suchergebnisseite geschaltet.

Bearbeitet von ZwennL
  • 0
Geschrieben
vor 3 Stunden schrieb actionmuc:

 und die Ergebnisse in eine Exceldatei über führt 

Definier mal bitte "Die Ergebnisse".

Die Links zu den Webseiten? Bilder vom Leberkäse? Die Webseiten die Google findet als HTML Dump?

  • 0
Geschrieben

Um einfach mal alles zu grapschen:

Um den vollständigen Inhalt einer Webseite zu laden, könnten Sie verschiedene Ansätze verwenden, abhängig von Ihren spezifischen Anforderungen und der von Ihnen bevorzugten Programmiersprache. Da Sie PowerShell ISE als Ihre bevorzugte Programmierumgebung angegeben haben, könnte das folgende PowerShell-Skript ein Ausgangspunkt sein:

```powershell
# PowerShell-Script zum Laden des vollständigen Inhalts einer Webseite

# URL der Webseite, deren Inhalt geladen werden soll
$url = "https://leberkas.com"

# WebClient-Objekt erstellen
$client = New-Object System.Net.WebClient

# Den Inhalt der Webseite herunterladen
$content = $client.DownloadString($url)

# Den vollständigen Inhalt der Webseite anzeigen
Write-Output $content // > datei falls gewünscht
``` 

und dann fängt die Arbeit erst an. Die gewünschten Daten/Infos usw. ausfiltern

 

 

  • 0
Geschrieben
vor 4 Stunden schrieb hellerKopf:

# URL der Webseite, deren Inhalt geladen werden soll

$url = "https://leberkas.com"

# WebClient-Objekt erstellen
$client = New-Object System.Net.WebClient

# Den Inhalt der Webseite herunterladen
$content = $client.DownloadString($url)

Mal aus Interesse:

Wird dabei auch via Javascript dynamisch geladener Inhalt geladen? Oder ist das wir curl und lädt "nur" Inhalte die ins HTML vorgerendert wurden?

Dein Kommentar

Du kannst jetzt schreiben und Dich später registrieren. Wenn Du ein Konto hast, melde Dich jetzt an, um unter Deinem Benutzernamen zu schreiben.

Gast
Diese Frage beantworten...

×   Du hast formatierten Text eingefügt.   Formatierung wiederherstellen

  Nur 75 Emojis sind erlaubt.

×   Dein Link wurde automatisch eingebettet.   Einbetten rückgängig machen und als Link darstellen

×   Dein vorheriger Inhalt wurde wiederhergestellt.   Editor leeren

×   Du kannst Bilder nicht direkt einfügen. Lade Bilder hoch oder lade sie von einer URL.

Fachinformatiker.de, 2024 by SE Internet Services

fidelogo_small.png

Schicke uns eine Nachricht!

Fachinformatiker.de ist die größte IT-Community
rund um Ausbildung, Job, Weiterbildung für IT-Fachkräfte.

Fachinformatiker.de App

Download on the App Store
Get it on Google Play

Kontakt

Hier werben?
Oder sende eine E-Mail an

Social media u. feeds

Jobboard für Fachinformatiker und IT-Fachkräfte

×
×
  • Neu erstellen...