In diesem Abschnitt werden wir einige Themen behandeln, die Ihnen in den folgenden Abschnitten vorgestellt werden. Es ist wichtig, dass Sie alles hier durchlesen, da Sie so einen guten Überblick über den Kursinhalt erhalten.

Die Themen dieses Abschnitts umfassen Folgendes:

  1. Simulationsseiten auf mehreren Netzwerken
  2. Einsatz künstlicher Intelligenz: Prompting, RAG und Feinabstimmung
  3. Fortgeschrittenes Web-Scraping
  4. Terminologie

Simulationsseiten auf mehreren Netzwerken

In diesem Kurs arbeiten Sie mit zwei Arten von Demo-Cybercrime-Marktplätzen, die zu Schulungszwecken entwickelt wurden. Wir können kein Scraping oder Testen auf echten Cybercrime-Seiten wie darkforums.st durchführen, die Ihnen zuvor vorgestellt wurden, da dies in vielen Rechtsordnungen rechtliche Risiken mit sich bringen kann. Um eine sichere und rechtmäßige Lernumgebung zu gewährleisten, haben wir zwei Simulationsseiten erstellt:

  • Eine wird im Clearnet (auch als normales oder öffentliches Web bezeichnet) gehostet
  • Eine wird im Tor-Netzwerk gehostet

Diese Simulationsseiten sind so gestaltet, dass sie echte Cybercrime-Foren mit menschenähnlichen Aktivitäten, Beiträgen und Kommentaren nachahmen. So erhalten Sie eine möglichst realistische Erfahrung, um die Identifizierung von Cybercrime und das Scraping von Daten in einer kontrollierten und legalen Umgebung zu üben.

Clearnet vs. Tor: Eine kurze technische Erklärung

  • Clearnet bezeichnet den öffentlich zugänglichen Teil des Internets, den Sie täglich nutzen. Websites wie google.com oder wikipedia.org sind Clearnet-Websites. Sie können direkt über Standardbrowser (Chrome, Firefox, Edge) unter Verwendung von DNS und ohne besondere Konfiguration aufgerufen werden.
  • Das Tor-Netzwerk ist ein Anonymitätsnetzwerk, das den Datenverkehr über mehrere Knoten leitet, um den Standort und die Identität des Benutzers zu verbergen. Tor-Websites (manchmal auch „Dark-Web-Websites” genannt) verwenden .onion-Domains und können nur mit einem Tor-fähigen Browser oder einem Tor-Proxy aufgerufen werden. Diese Websites werden von herkömmlichen Suchmaschinen nicht indexiert und oft für versteckte oder datenschutzorientierte Dienste genutzt.

In diesem Kurs bezeichnen wir normale Websites als Clearnet-Websites und von Tor gehostete Websites als Tornet-Websites.

Mit dieser Konfiguration können Sie Ihre Fähigkeiten im Bereich Threat Intelligence sicher aufbauen und testen, ohne mit realen kriminellen Infrastrukturen in Kontakt zu kommen.

In Modul 1 lernen Sie alle wichtigen Begriffe kennen, die Sie zum Verständnis der Themen, Tools und Infrastrukturen benötigen, mit denen wir im Laufe des Kurses arbeiten werden. In späteren Modulen werden Sie in die Tor- und Clearnet-Simulationsseiten eingeführt und richten diese lokal mit Docker ein. Wenn Sie noch nicht mit Docker vertraut sind oder nicht wissen, was eine „lokale” Website ist, machen Sie sich keine Sorgen, Sie werden dies im Laufe des Kurses lernen.


Einsatz künstlicher Intelligenz: Prompting, RAG und Feinabstimmung

In diesem Kurs lernen Sie, wie künstliche Intelligenz (KI) uns bei Cyber-Threat-Intelligence-Aufgaben wie der Identifizierung verdächtiger Aktivitäten oder der Erkennung von Initial Access Broker (IAB)-Beiträgen unterstützen kann. Wir behandeln drei wichtige KI-Ansätze: Prompting, RAG (Retrieval-Augmented Generation) und Fine-Tuning.

Prompting

Prompting bedeutet, ein vortrainiertes KI-Modell zu verwenden, indem man ihm sorgfältig formulierte Anweisungen (Prompts) gibt, um das gewünschte Ergebnis zu erhalten. Es sind keine zusätzlichen Daten oder Änderungen am Modell erforderlich. Die Qualität des Prompts beeinflusst die Qualität des Ergebnisses, und das Ergebnis kann auch von den Schlussfolgerungsfähigkeiten des Modells abhängen, das Sie mit dem Prompt anweisen.

Beispiel: Sie geben einem KI-Modell wie OpenAI's GPT diesen Prompt:

Given this post, tell me if it offers initial access to a network: 

`Back again, mods nuked my last thread. Selling VPN access to a big EU telecom, one of them household names in Germany (you figure it out). Full internal access, you can pivot to servers, grab call logs, or mess with billing systems. Been stable for a month, no kicks. Asking $4,000 BTC, negotiable for bulk buyers (got 2 more telecoms). I’ll throw in logs or a test connection for proof, but only if you’re serious. Escrow or MM accepted, I’m vouched here. Hit me up in PM, let’s make this quick. No skids, please.`

Das Modell analysiert den Text und antwortet auf der Grundlage seines vorhandenen Wissens.

RAG (Retrieval-Augmented Generation) in der Cyber-Bedrohungsaufklärung

RAG ist eine Technik, die ein Sprachmodell mit einer externen Wissensdatenbank kombiniert. Sie funktioniert, indem sie relevante Informationen aus dieser Wissensdatenbank abruft, wenn Sie eine Frage stellen oder eine Eingabe machen. Diese abgerufenen Informationen werden dann zusammen mit Ihrer Eingabe an das Sprachmodell weitergeleitet, sodass es eine fundiertere und genauere Antwort geben kann.

In der Cyber Threat Intelligence kann RAG verwendet werden, um gekennzeichnete Beispiele für Beiträge im Zusammenhang mit Cyberkriminalität, wie positive, negative und neutrale Beiträge, zu indexieren und zu speichern und diese Beispiele dem Modell zum Zeitpunkt der Eingabe zur Verfügung zu stellen.

Anwendungsbeispiel in CTI

  • Das System indexiert gekennzeichnete Beiträge:

    • Positive Beiträge: Direkter Verkauf von unbefugtem Zugriff (z. B. „Initial access to RBC Bank available“).
    • Neutrale Beiträge: Allgemeine Anzeigen, die nicht mit dem Verkauf von Zugriffsrechten in Verbindung stehen (z. B. „Selling malware loader“).
    • Negative Beiträge: Nicht relevante oder themenfremde Dienstleistungen (z. B. „Offering VPS hosting“).

Wenn Sie einen verdächtigen IAB-Beitrag eingeben, ruft das RAG-System ähnliche Beispiele aus der Wissensdatenbank ab. Das Sprachmodell berücksichtigt diese Beispiele dann bei der Generierung seiner Antwort. Auf diese Weise kann das Modell besser beurteilen, ob ein Beitrag auf IAB-Aktivitäten hindeutet.

Feinabstimmung

Während RAG zum Zeitpunkt der Abfrage externe Daten abruft, funktioniert die Feinabstimmung anders. Bei der Feinabstimmung wird das Modell anhand eines benutzerdefinierten Datensatzes (z. B. gekennzeichneten Beiträgen) trainiert, sodass das Wissen direkt in die Parameter des Modells integriert wird. Das Modell „lernt“ während des Feinabstimmungsprozesses die Muster in den Daten und muss zum Zeitpunkt der Abfrage keine Beispiele mehr abrufen, sondern wendet das während des Trainings Gelernte an.

Beide Ansätze helfen dabei, ein Modell an bestimmte Aufgaben anzupassen, aber:

  • RAG wird in der Regel für die Indizierung und den Abruf externer Informationen verwendet, um das Modell während der Inferenz (Antwortgenerierung) zu unterstützen.
  • Fine-Tuning passt das Modell selbst an, sodass es das neue Wissen ohne externen Abruf anwenden kann.

In diesem Kurs verwenden wir nur Prompting, da dies der einfachste Ansatz für den Einstieg ist.


Fortgeschrittenes Web-Scraping

Web-Scraping ist der Prozess der automatischen Extraktion von Daten aus Websites. Anstatt Informationen manuell aus Webseiten zu kopieren und einzufügen, werden beim Scraping mithilfe von Software (sogenannten Scrapern) Daten effizient und in großem Umfang gesammelt und strukturiert.

Scraping kann auf viele Arten von Informationen abzielen, z. B.:

  • Text aus Beiträgen, Kommentaren oder Artikeln
  • Produktlisten oder Preise
  • Bilder oder Links
  • Metadaten wie Zeitstempel oder Benutzernamen

Web-Scraping ist in kleinem Umfang in der Regel unkompliziert. Die Herausforderung beginnt, wenn Sie Daten in industriellem Umfang scrapen müssen, beispielsweise alle Daten einer Website vom Tag ihrer Veröffentlichung bis zum aktuellen Zeitpunkt.

Stellen Sie sich eine Website vor, die seit dem 19. Januar 2021 online ist. Wie können Sie alle Beiträge von diesem Datum bis heute zuverlässig scrapen, ohne Beiträge zu verpassen, die während der Ausführung Ihres Scrapers veröffentlicht werden? Und was ist mit Beiträgen, die nach Abschluss des Scans erscheinen?

Die Scraping-Techniken, die wir in diesem Kurs behandeln, gehen weit über das hinaus, was normalerweise in Tutorials für Anfänger oder YouTube-Videos gezeigt wird. Die Websites, mit denen Sie in unseren Simulationen arbeiten werden, verfügen über Funktionen zur automatischen Auffüllung, die kontinuierlich neue Beiträge generieren. Dies stellt eine Herausforderung für herkömmliche Scraping-Methoden dar, die Sie in diesem Kurs lernen werden zu meistern.

Im Laufe des Kurses werden Sie feststellen, dass wir zwei Arten von Bots verwenden. Eine Gruppe konzentriert sich ausschließlich auf das Sammeln von Beitragstiteln und Links und bewegt sich systematisch zwischen den Seiten, um sicherzustellen, dass keine Daten übersehen werden. Ihre Aufgabe ist es, sicherzustellen, dass alle Inhalte, egal ob alt oder neu, genau und effizient erfasst werden. Die andere Gruppe ist für das Scraping von Daten aus einzelnen Beiträgen verantwortlich.


Terminologie

In diesem Abschnitt werden Ihnen möglicherweise neue oder unbekannte Begriffe begegnen. Aus diesem Grund haben wir einen eigenen Abschnitt mit allen wichtigen Begriffen aus diesem Kurs hinzugefügt. Es ist wichtig, dass Sie diesen Teil nicht überspringen, auch wenn Sie sich als Experte auf diesem Gebiet betrachten.

Es gibt immer etwas Neues zu lernen. Und Sie müssen sich von Begriffen wie industrielles Web-Scraping nicht einschüchtern lassen. Diese Konzepte werden Ihnen im Laufe des Kurses klar werden.

In Modul 1 erklären wir Ihnen alles, was Sie wissen müssen, um für die nächsten Schritte gerüstet zu sein.