Die Bekämpfung von Web Scraping ist ein ständiges Katz-und-Maus-Spiel zwischen Website-Betreibern und denjenigen, die Daten automatisiert extrahieren möchten. Eine der Strategien, die zur Abwehr von Scraping eingesetzt werden, besteht darin, die Last für Scraper zu erhöhen.
Die Idee dahinter ist, dass die zusätzliche Last auf individueller Ebene vernachlässigbar ist, sich aber auf Massen-Scraper-Ebene summiert und das Scraping erheblich verteuert.
Letztendlich ist dies eine Platzhalterlösung, damit mehr Zeit für Fingerprinting und die Identifizierung von Headless-Browsern aufgewendet werden kann (z. B. über die Art und Weise, wie sie Schriftarten rendern), sodass die Challenge-Proof-of-Work-Seite Benutzern, die mit größerer Wahrscheinlichkeit legitim sind, nicht angezeigt werden muss.
Anubis erfordert die Verwendung moderner JavaScript-Funktionen, die Plugins wie JShelter deaktivieren.
Es ist wichtig zu beachten, dass moderne JavaScript-Funktionen für bestimmte Anti-Scraping-Techniken unerlässlich sind.
Einige Systeme, wie z.B. Anubis, benötigen diese modernen Features, um effektiv zu funktionieren. Plugins, die diese Funktionen deaktivieren, können ungewollt die Anti-Scraping-Maßnahmen beeinträchtigen.
Fingerprinting ist eine weitere wichtige Technik zur Identifizierung von Headless-Browsern. Hierbei werden spezifische Merkmale des Browsers analysiert, um ihn eindeutig zu identifizieren. Ein Beispiel ist die Art und Weise, wie der Browser Schriftarten rendert.
Die Herausforderung besteht darin, legitime Nutzer nicht unnötig mit aufwendigen Challenge-Proof-of-Work Seiten zu belästigen. Durch verbesserte Fingerprinting-Methoden können diese Herausforderungen gezielter eingesetzt werden.
Die folgende Tabelle fasst die verschiedenen Anti-Scraping-Techniken und ihre Funktionsweise zusammen:
| Technik | Beschreibung | Zweck |
|---|---|---|
| Erhöhung der Last für Scraper | Zusätzliche Berechnungen oder Wartezeiten für jeden Request. | Verteuerung des Scrapings. |
| Fingerprinting | Analyse spezifischer Browsermerkmale. | Identifizierung von Headless-Browsern. |
| Challenge-Proof-of-Work | Aufgabe, die ein Nutzer lösen muss, um als legitim zu gelten. | Unterscheidung zwischen Mensch und Maschine. |
tags: #hiroki #ito #weibe #augenbraue #herkunft
Diese Website verwendet Cookies. Durch die weitere Nutzung der Seite stimmst du der Verwendung von Cookies zu. Weitere Informationen
Die Cookie-Einstellungen auf dieser Website sind auf "Cookies zulassen" eingestellt, um das beste Surferlebnis zu ermöglichen. Wenn du diese Website ohne Änderung der Cookie-Einstellungen verwendest oder auf "Akzeptieren" klickst, erklärst du sich damit einverstanden.