Web Scraping

von Okt 17, 20220 Kommentare

Was ist Web Scraping? Ein kompletter Leitfaden f├╝r Einsteiger


Mit dem Wachstum der digitalen Wirtschaft gewinnt Web Scraping immer mehr an Bedeutung. Lesen Sie weiter, um zu erfahren, was Web Scraping ist, wie es funktioniert und warum es f├╝r die Datenanalyse so wichtig ist.

Die Menge der Daten in unserem Leben w├Ąchst exponentiell. Mit diesem Anstieg ist die Datenanalyse zu einem ├Ąu├čerst wichtigen Bestandteil der Unternehmensf├╝hrung geworden. Daten haben zwar viele Quellen, aber der gr├Â├čte Teil davon befindet sich im Internet. In dem Ma├če, wie die Bereiche Big Data Analytics, k├╝nstliche Intelligenz und maschinelles Lernen wachsen, brauchen Unternehmen Datenanalysten, die das Web auf immer raffiniertere Weise durchforsten k├Ânnen.

Dieser Leitfaden f├╝r Einsteiger bietet eine umfassende Einf├╝hrung in das Web-Scraping, was es ist, wie es verwendet wird und was der Prozess beinhaltet. Wir behandeln:

Was ist Web Scraping?
Wof├╝r wird Web Scraping verwendet?
Wie funktioniert ein Web Scraper?
Wie man das Web scrapen kann (Schritt f├╝r Schritt)
Welche Tools k├Ânnen Sie zum Scrapen des Webs verwenden?
Was m├╝ssen Sie sonst noch ├╝ber Web Scraping wissen?
Zusammenfassung
Bevor wir ins Detail gehen, lassen Sie uns mit den einfachen Dingen beginnenÔÇŽ

1. Was ist Web Scraping?


Web Scraping (oder Data Scraping) ist eine Technik, mit der Inhalte und Daten aus dem Internet gesammelt werden. Diese Daten werden in der Regel in einer lokalen Datei gespeichert, damit sie bei Bedarf bearbeitet und analysiert werden k├Ânnen. Wenn Sie schon einmal Inhalte von einer Website kopiert und in eine Excel-Tabelle eingef├╝gt haben, ist dies im Wesentlichen das, was Web Scraping ist, allerdings in einem sehr kleinen Ma├čstab.

Wenn jedoch von “Web-Scrapern” die Rede ist, handelt es sich in der Regel um Softwareanwendungen. Web-Scraping-Anwendungen (oder “Bots”) sind darauf programmiert, Websites zu besuchen, die relevanten Seiten zu erfassen und n├╝tzliche Informationen zu extrahieren. Durch die Automatisierung dieses Prozesses k├Ânnen diese Bots in k├╝rzester Zeit riesige Datenmengen extrahieren. Im digitalen Zeitalter, in dem Big Data – die sich st├Ąndig aktualisieren und ver├Ąndern – eine so wichtige Rolle spielen, ist dies von gro├čem Nutzen. In diesem Beitrag erfahren Sie mehr ├╝ber die Natur von Big Data.

Welche Arten von Daten k├Ânnen Sie aus dem Web auslesen?
Wenn es Daten auf einer Website gibt, dann k├Ânnen sie theoretisch ausgewertet werden! Zu den g├Ąngigen Datentypen, die Unternehmen sammeln, geh├Âren Bilder, Videos, Texte, Produktinformationen, Kundenmeinungen und -bewertungen (auf Websites wie Twitter, Yell oder Tripadvisor) sowie Preisangaben von Vergleichswebsites. Es gibt einige rechtliche Bestimmungen dar├╝ber, welche Arten von Informationen Sie auslesen d├╝rfen, aber darauf gehen wir sp├Ąter noch ein.

2. Wof├╝r wird Web Scraping verwendet?


Web Scraping hat unz├Ąhlige Anwendungsm├Âglichkeiten, insbesondere im Bereich der Datenanalyse. Marktforschungsunternehmen verwenden Scraper, um Daten aus sozialen Medien oder Online-Foren zu gewinnen, z. B. zur Analyse der Kundenstimmung. Andere scrapen Daten von Produktwebsites wie Amazon oder eBay, um die Analyse von Wettbewerbern zu unterst├╝tzen.

Google nutzt Web Scraping regelm├Ą├čig, um seine Inhalte zu analysieren, zu bewerten und zu indexieren. Web Scraping erm├Âglicht es dem Unternehmen auch, Informationen von Websites Dritter zu extrahieren, bevor sie auf die eigenen Websites umgeleitet werden (z. B. werden E-Commerce-Websites gescraped, um Google Shopping zu best├╝cken).

Viele Unternehmen f├╝hren auch Kontakt-Scraping durch, d. h. sie durchsuchen das Internet nach Kontaktinformationen, die f├╝r Marketingzwecke verwendet werden sollen. Wenn Sie einem Unternehmen jemals Zugang zu Ihren Kontakten gew├Ąhrt haben, um dessen Dienste in Anspruch zu nehmen, dann haben Sie ihm die Erlaubnis erteilt, genau dies zu tun.

Es gibt nur wenige Einschr├Ąnkungen f├╝r die Verwendung von Web Scraping. Es kommt im Wesentlichen darauf an, wie kreativ Sie sind und welches Ziel Sie verfolgen. Von Immobilienangeboten ├╝ber Wetterdaten bis hin zur Durchf├╝hrung von SEO-Audits – die Liste ist schier endlos!

Es sei jedoch darauf hingewiesen, dass Web Scraping auch eine Schattenseite hat. B├Âswillige Akteure nutzen oft Daten wie Bankdaten oder andere pers├Ânliche Informationen, um Betrug, Betrug, Diebstahl von geistigem Eigentum und Erpressung zu betreiben. Es ist gut, sich dieser Gefahren bewusst zu sein, bevor Sie mit dem Web Scraping beginnen. Vergewissern Sie sich, dass Sie mit den rechtlichen Bestimmungen zum Web Scraping vertraut sind. Wir werden diese in Abschnitt sechs etwas genauer behandeln.

Du hast Fragen?

Ich stehe Dir gern zur Verf├╝gung.

Kreative Kommunikation Web Scraping image00002 scaled

3. Wie funktioniert ein Web Scraper?


Jetzt wissen wir also, was Web Scraping ist und warum verschiedene Organisationen es einsetzen. Aber wie funktioniert ein Web Scraper? Die genaue Methode unterscheidet sich zwar je nach der verwendeten Software oder den Tools, aber alle Web Scraping Bots folgen drei Grundprinzipien:

Schritt 1: Durchf├╝hrung einer HTTP-Anfrage an einen Server


Schritt 2: Extrahieren und Parsen (oder Aufschl├╝sseln) des Codes der Website


Schritt 3: Lokales Abspeichern der relevanten Daten


Schauen wir uns nun jeden dieser Schritte etwas genauer an.

Schritt 2: Extrahieren und Parsen des Codes der Website


Sobald eine Website einem Scraper Zugang gew├Ąhrt, kann der Bot den HTML- oder XML-Code der Website lesen und extrahieren. Dieser Code bestimmt die Inhaltsstruktur der Website. Der Scraper parst dann den Code (was im Grunde bedeutet, dass er ihn in seine Bestandteile zerlegt), um Elemente oder Objekte zu identifizieren und zu extrahieren, die von demjenigen, der den Bot losgelassen hat, vordefiniert wurden! Dazu k├Ânnen bestimmte Texte, Bewertungen, Klassen, Tags, IDs oder andere Informationen geh├Âren.

Schritt 3: Lokale Speicherung der relevanten Daten


Nach dem Zugriff auf das HTML- oder XML-Format, dem Scrapen und dem Parsen speichert der Web Scraper die relevanten Daten lokal ab. Wie bereits erw├Ąhnt, werden die extrahierten Daten von Ihnen vordefiniert (Sie haben dem Bot mitgeteilt, was er sammeln soll). Die Daten werden in der Regel als strukturierte Daten gespeichert, oft in einer Excel-Datei, z. B. im .csv- oder .xls-Format.

Wenn diese Schritte abgeschlossen sind, k├Ânnen Sie die Daten f├╝r die gew├╝nschten Zwecke verwenden. Einfach, oder? Und es stimmtÔÇŽ diese drei Schritte lassen Data Scraping einfach erscheinen. In Wirklichkeit wird der Prozess jedoch nicht nur einmal durchgef├╝hrt, sondern unz├Ąhlige Male. Das bringt eine ganze Reihe von Problemen mit sich, die gel├Âst werden m├╝ssen. Schlecht programmierte Scraper k├Ânnen zum Beispiel zu viele HTTP-Anfragen senden, was zum Absturz einer Website f├╝hren kann. Jede Website hat au├čerdem unterschiedliche Regeln daf├╝r, was Bots tun d├╝rfen und was nicht. Das Ausf├╝hren von Web-Scraping-Code ist nur ein Teil eines umfassenderen Prozesses. Sehen wir uns das jetzt an.

Datenanalysten arbeiten vor dem Web Scraping zusammen

4. Wie man das Web scrapen kann (Schritt-f├╝r-Schritt-Anleitung)


OK, wir haben also verstanden, was ein Web Scraping-Bot macht. Aber es geh├Ârt mehr dazu, als einfach nur Code auszuf├╝hren und auf das Beste zu hoffen! In diesem Abschnitt gehen wir auf alle Schritte ein, die Sie befolgen m├╝ssen. Die genaue Methode zur Durchf├╝hrung dieser Schritte h├Ąngt von den verwendeten Tools ab, daher konzentrieren wir uns auf die (nichttechnischen) Grundlagen.

Schritt eins: Finden Sie die URLs, die Sie scrapen m├Âchten
Es mag offensichtlich klingen, aber als Erstes m├╝ssen Sie herausfinden, welche Website(s) Sie scrapen m├Âchten. Wenn Sie z. B. Buchrezensionen von Kunden untersuchen, sollten Sie relevante Daten von Websites wie Amazon, Goodreads oder LibraryThing abrufen.

Schritt zwei: Untersuchen Sie die Seite
Bevor Sie Ihren Web Scraper programmieren, m├╝ssen Sie herausfinden, was er scrapen soll. Right-clicking anywhere on the frontend of a website gives you the option to ÔÇśinspect elementÔÇÖ or ÔÇśview page source.ÔÇÖ This reveals the siteÔÇÖs backend code, which is what the scraper will read.

Schritt drei: F├╝hren Sie den Code aus
Wenn Sie den Code geschrieben haben, ist der n├Ąchste Schritt, ihn auszuf├╝hren. Jetzt hei├čt es warten! An dieser Stelle fordert der Scraper den Zugriff auf die Website an, extrahiert die Daten und analysiert sie (wie in den Schritten im vorherigen Abschnitt beschrieben).

Sind Sie neugierig auf eine Karriere in der Datenanalyse?
Lernen Sie kostenlos!

Schritt vier: Speichern der Daten
Nachdem Sie die relevanten Daten extrahiert, geparst und gesammelt haben, m├╝ssen Sie sie speichern. Sie k├Ânnen Ihren Algorithmus anweisen, dies zu tun, indem Sie zus├Ątzliche Zeilen zu Ihrem Code hinzuf├╝gen. Welches Format Sie w├Ąhlen, bleibt Ihnen ├╝berlassen, aber wie bereits erw├Ąhnt, sind Excel-Formate am weitesten verbreitet. Sie k├Ânnen Ihren Code auch durch ein Python-Regex-Modul (kurz f├╝r “regul├Ąre Ausdr├╝cke”) laufen lassen, um einen saubereren und leichter lesbaren Datensatz zu erhalten.

Nat├╝rlich ist Web Scraping nicht immer so einfach, wie es auf den ersten Blick scheint, wie wir bei unseren Erkundungen des Datenanalyseprozesses oft feststellen. Es kommt h├Ąufig vor, dass Sie Fehler machen und einige Schritte wiederholen m├╝ssen. Aber keine Sorge, das ist normal, und ├ťbung macht den Meister!

5. Welche Tools k├Ânnen Sie zum Scrapen des Webs verwenden?

Wir haben die Grundlagen f├╝r das Scrapen von Daten im Internet behandelt, aber wie funktioniert das Ganze aus technischer Sicht? F├╝r das Web-Scraping sind h├Ąufig Kenntnisse in Programmiersprachen erforderlich, wobei Python die beliebteste Sprache f├╝r diese Aufgabe ist. Gl├╝cklicherweise verf├╝gt Python ├╝ber eine gro├če Anzahl von Open-Source-Bibliotheken, die das Web-Scraping erheblich erleichtern. Dazu geh├Âren:

BeautifulSoup
BeautifulSoup ist eine weitere Python-Bibliothek, die h├Ąufig zum Parsen von Daten aus XML- und HTML-Dokumenten verwendet wird. BeautifulSoup organisiert diese geparsten Inhalte in besser zug├Ąnglichen B├Ąumen und erleichtert so das Navigieren und Suchen in gro├čen Datenbest├Ąnden. F├╝r viele Datenanalysten ist BeautifulSoup das Tool der Wahl.

Scrapy
Scrapy ist ein auf Python basierendes Anwendungsframework, das strukturierte Daten aus dem Web durchsucht und extrahiert. Es wird h├Ąufig f├╝r Data Mining, Informationsverarbeitung und die Archivierung historischer Inhalte verwendet. Neben Web Scraping (wof├╝r es speziell entwickelt wurde) kann es auch als Allzweck-Webcrawler oder zur Extraktion von Daten ├╝ber APIs verwendet werden.

Pandas
Pandas ist eine weitere Mehrzweck-Python-Bibliothek, die f├╝r die Datenmanipulation und -indizierung verwendet wird. Sie kann zum Scrapen des Webs in Verbindung mit BeautifulSoup verwendet werden. Der Hauptvorteil der Verwendung von Pandas besteht darin, dass Analysten den gesamten Datenanalyseprozess in einer Sprache durchf├╝hren k├Ânnen (und nicht auf andere Sprachen, wie z. B. R, umsteigen m├╝ssen).

Parsehub
Ein zus├Ątzliches Tool f├╝r den Fall, dass Sie kein erfahrener Programmierer sind: Parsehub ist ein kostenloses Online-Tool (um das klarzustellen, es handelt sich nicht um eine Python-Bibliothek), das das Scrapen von Online-Daten erleichtert. Der einzige Haken ist, dass Sie f├╝r den vollen Funktionsumfang bezahlen m├╝ssen. Aber es lohnt sich, mit dem kostenlosen Tool herumzuspielen, und das Unternehmen bietet einen hervorragenden Kundendienst.

Es gibt viele andere Tools, von allgemeinen Scraping-Tools bis hin zu solchen, die f├╝r anspruchsvollere Nischenaufgaben entwickelt wurden. Am besten erkunden Sie, welche Tools Ihren Interessen und F├Ąhigkeiten entsprechen, und f├╝gen dann die entsprechenden Tools zu Ihrem Datenanalyse-Arsenal hinzu!

Kreative Kommunikation Web Scraping monitor g912570093 1920
Web Scraping 2

6. Was m├╝ssen Sie sonst noch ├╝ber Web Scraping wissen?

Wir haben bereits erw├Ąhnt, dass Web-Scraping nicht immer so einfach ist, wie das Befolgen einer Schritt-f├╝r-Schritt-Anleitung. Hier finden Sie eine Checkliste mit weiteren Punkten, die Sie vor dem Scraping einer Website beachten sollten.

Haben Sie Ihre Zieldaten verfeinert?
Wenn Sie Ihren Web Scraper programmieren, ist es wichtig, dass Sie so genau wie m├Âglich angeben, was Sie sammeln m├Âchten. Wenn Sie zu vage bleiben, haben Sie am Ende viel zu viele Daten (und Kopfschmerzen!). Am besten investieren Sie im Vorfeld etwas Zeit, um einen klaren Plan zu erstellen. Das erspart Ihnen auf lange Sicht viel Arbeit bei der Datenbereinigung.

Haben Sie die Nutzungsbedingungen der Website gepr├╝ft?
Neben der robots.txt-Datei sollten Sie auch die Nutzungsbedingungen einer Website ├╝berpr├╝fen. Obwohl beide ├╝bereinstimmen sollten, wird dies manchmal ├╝bersehen. Die AGB k├Ânnen eine formale Klausel enthalten, in der festgelegt ist, was Sie mit den Daten auf der Website tun d├╝rfen und was nicht. Wenn Sie gegen diese Regeln versto├čen, k├Ânnen Sie rechtliche Probleme bekommen, also stellen Sie sicher, dass Sie das nicht tun!

Befolgen Sie die Datenschutzprotokolle?
Nur weil bestimmte Daten verf├╝gbar sind, hei├čt das nicht, dass Sie sie ohne Konsequenzen abgreifen d├╝rfen. Achten Sie genau auf die Gesetze in den verschiedenen L├Ąndern und befolgen Sie die Datenschutzprotokolle der einzelnen Regionen. In der EU beispielsweise sch├╝tzt die Allgemeine Datenschutzverordnung (GDPR) bestimmte personenbezogene Daten vor der Extraktion, d. h. es ist gesetzeswidrig, sie ohne die ausdr├╝ckliche Zustimmung der Betroffenen zu scrapen.

Besteht die Gefahr, dass Sie eine Website zum Absturz bringen?
Gro├če Websites wie Google oder Amazon sind f├╝r einen hohen Datenverkehr ausgelegt. Kleinere Websites sind das nicht. Daher ist es wichtig, dass Sie eine Website nicht mit zu vielen HTTP-Anfragen ├╝berlasten, die sie verlangsamen oder sogar ganz zum Absturz bringen k├Ânnen. Tats├Ąchlich ist dies eine Technik, die h├Ąufig von Hackern verwendet wird. Sie ├╝berfluten Websites mit Anfragen, um sie zum Absturz zu bringen, was als “Denial-of-Service”-Angriff bezeichnet wird. Achten Sie darauf, dass Sie nicht aus Versehen einen solchen Angriff durchf├╝hren! Achten Sie auch darauf, dass Sie nicht zu aggressiv scrapen; lassen Sie gen├╝gend Zeit zwischen den Anfragen und vermeiden Sie es, eine Website w├Ąhrend der Hauptgesch├Ąftszeiten zu scrapen.

Ber├╝cksichtigen Sie all diese ├ťberlegungen, gehen Sie sorgf├Ąltig mit Ihrem Code um, und Sie sollten im Handumdrehen mit dem Scrapen des Internets zufrieden sein.

7. Zusammenfassung


In diesem Beitrag haben wir uns angesehen, was Data Scraping ist, wie es verwendet wird und was der Prozess beinhaltet. Zu den wichtigsten Erkenntnissen geh├Âren:

Mit Web Scraping lassen sich alle Arten von Daten sammeln: Von Bildern bis zu Videos, Text, numerischen Daten und mehr.
Web Scraping ist vielseitig einsetzbar: Vom Scrapen von Kontakten ├╝ber das Durchsuchen sozialer Medien nach Markenerw├Ąhnungen bis hin zur Durchf├╝hrung von SEO-Audits – die M├Âglichkeiten sind endlos.
Planung ist wichtig: Wenn Sie sich die Zeit nehmen, im Voraus zu planen, was Sie scrapen m├Âchten, sparen Sie sich auf lange Sicht die M├╝he, Ihre Daten zu bereinigen.
Haben sie jetzt noch Fragen? Dann schreiben sie mir gerne eine Nachricht und ich helfe ihnen.

Philipp Barkmann

Philipp Barkmann

Ver├Âffentlicht: Okt 17, 2022
Postkategorie: Digitale Sichtbarkeit
w

Du hast Fragen?

Ich freue mich darauf, Dich unterst├╝tzen zu d├╝rfen. Schreibe mir einfach oder rufe mich direkt an:

Bis gleich?
Ich bin gern f├╝r Dich da!

Einfach ausf├╝llen und "zack" gibt┬┤s eine Antwort.

Datenschutzerkl├Ąrung

Kontakt:

Andreas-Haselbacher-Stra├če 19
30900 Wedemark
Tel.: 05130 / 97 45 07 - 0
Mobil: 0172 / 754 83 90

Weitere Infos zu mir

Diese Website ist durch reCAPTCHA geschützt und es gelten die Datenschutzbestimmungen und 
Nutzungsbedingungen von Google.

Weitere Artikel

professionell kostenlos eigene Website designen und erstellen 2022

professionell kostenlos eigene Website designen und erstellen 2022

Eigene Website erstellen: Welche L├Âsung passt zu mir? - faq professionell kostenlos eigene Website designen und erstellen 2022: Es gibt viele verschiedene M├Âglichkeiten, eine Website zu erstellen, und die beste L├Âsung f├╝r Sie h├Ąngt von Ihren Bed├╝rfnissen und Zielen...

Blogbeitrag Konzept

Blogbeitrag Konzept

Wenn Sie jemals einen Blogbeitrag gelesen haben, haben Sie Inhalte von einem Vordenker, der ein Experte in seiner Branche ist, konsumiert. Die Chancen stehen gut, dass Sie, wenn der Blogbeitrag gut geschrieben war, mit hilfreichem Wissen und einer positiven Meinung...

Keyword Recherche Google

Keyword Recherche Google

Warum ist Keyword-Recherche wichtig?Die Keyword Recherche Google hilft Ihnen dabei herauszufinden, welche Keywords am besten geeignet sind, und bietet wertvolle Einblicke in die Suchanfragen, die Ihre Zielgruppe tats├Ąchlich bei Google stellt. Der Einblick, den Sie in...

Web Sicherheit

Web Sicherheit

Die 10 wichtigsten Internet-Sicherheitsregeln und was man online nicht tun sollte - Web Sicherheit Auch wenn Apps bei den t├Ąglichen Online-Interaktionen der meisten Menschen eine gr├Â├čere Rolle spielen als herk├Âmmliche Websites, bedeutet das nicht, dass sich die...