In diesem Abschnitt erstellen wir die Kernfunktionalität des Datenscrapers zum Sammeln von Beiträgen.
Die meisten Cyberkriminalitätsforen bieten allen Benutzern kostenlosen Zugang, wobei kostenpflichtige Zugänge Funktionen wie das Posten in bestimmten Kategorien oder zusätzliche Aktionen freischalten. Bei der Verwendung von kostenlosen Konten für das Web-Scraping beschränken Foren häufig die Inhalte, die Sie innerhalb eines Zeitraums von 24 Stunden anzeigen oder kommentieren können. Um dies zu umgehen, sollten Sie die Anfragen begrenzen und die Aufgaben auf mehrere Konten verteilen.
Das tornet_forum enthält eine Marktplatzkategorie mit paginierten Inhalten. Jede Seite zeigt eine Tabelle mit 10 Zeilen an, die 10 Beiträge darstellen. Bei Hunderten von Seiten ergibt sich eine große Menge an Inhalten, die gründlich gescrapt werden müssen, ohne dass Daten verloren gehen.
Hier ist ein Beispiel für die Marktplatz-Paginierung:

Mein Ansatz besteht darin, ein Skript zu erstellen, das eine Paginierungs-URL und die maximale Paginierungsnummer als Eingaben verwendet. Anschließend generiert es eine Liste von Paginierungs-URLs und teilt diese in Stapel zu je 10 auf. Wenn es beispielsweise 12 Paginierungsseiten gibt, erstellt das Skript zwei Stapel: einen mit 10 Paginierungs-URLs und einen mit 2. Da jede Seite 10 Beiträge enthält, scrapt jeder Bot 100 Beitrag-Links pro Stapel von 10 Seiten.
Hier ist ein Beispiel für eine Stapelstruktur:
http://127.0.0.1:5000/category/marketplace/Sellers?page=1
http://127.0.0.1:5000/category/marketplace/Sellers?page=2
http://127.0.0.1:5000/category/marketplace/Sellers?page=3
...
http://127.0.0.1:5000/category/marketplace/Sellers?page=10