Dans cette section, nous aborderons quelques sujets qui seront présentés dans les sections suivantes. Il est important que vous lisiez attentivement tout ce qui se trouve ici, car cela vous aidera à avoir une vue d'ensemble du contenu du cours.

Les thèmes abordés dans cette section sont les suivants :

Sites de simulation sur plusieurs réseaux
Utilisation de l'intelligence artificielle : incitation, RAG et ajustement
Web scraping avancé
Terminologie

Sites de simulation sur plusieurs réseaux

Dans ce cours, vous travaillerez avec deux types de marchés de cybercriminalité de démonstration conçus à des fins de formation. Nous ne pouvons pas effectuer de scraping ou de tests sur de véritables sites de cybercriminalité tels que darkforums.st, que vous avez découvert précédemment, car cela pourrait entraîner des risques juridiques dans de nombreuses juridictions. Afin de garantir un environnement d'apprentissage sûr et légal, nous avons créé deux sites de simulation :

L'un hébergé sur le clearnet (également appelé web normal ou public)
L'autre hébergé sur le réseau Tor

Ces sites de simulation sont conçus pour imiter de véritables forums de cybercriminalité, avec des activités, des publications et des commentaires semblables à ceux d'êtres humains. Cela vous offre une expérience aussi proche que possible de la pratique de l'identification des cybercrimes et du scraping de données dans un environnement contrôlé et légal.

Clearnet vs Tor : brève explication technique

Clearnet désigne la partie de l'Internet accessible au public que vous utilisez tous les jours. Les sites tels que google.com ou wikipedia.org sont des sites clearnet. Ils sont accessibles directement via les navigateurs standard (Chrome, Firefox, Edge) à l'aide du DNS et sans aucune configuration particulière.
Le réseau Tor est un réseau anonyme qui achemine le trafic via plusieurs nœuds afin de masquer l'emplacement et l'identité de l'utilisateur. Les sites Tor (parfois appelés « sites du dark web ») utilisent des domaines .onion et ne sont accessibles qu'à l'aide d'un navigateur compatible avec Tor ou d'un proxy Tor. Ces sites ne sont pas indexés par les moteurs de recherche traditionnels et sont souvent utilisés pour héberger des services cachés ou axés sur la confidentialité.

Dans ce cours, nous appellerons les sites web normaux « sites clearnet » et les sites hébergés par Tor « sites tornet ».

Cette configuration vous permet de développer et de tester en toute sécurité vos compétences en matière de renseignements sur les menaces sans interagir avec une véritable infrastructure criminelle.

Dans le module 1, vous apprendrez toute la terminologie clé nécessaire pour comprendre les sujets, les outils et l'infrastructure que nous utiliserons tout au long du cours. Dans les modules suivants, vous découvrirez les sites de simulation Tor et clearnet et les configurerez localement à l'aide de Docker. Si vous n'êtes pas encore familiarisé avec Docker ou avec ce qu'est un site web « local », ne vous inquiétez pas, vous apprendrez tout cela au cours de la formation.

Utilisation de l'intelligence artificielle : prompting, RAG et ajustement

Dans ce cours, vous apprendrez comment l'intelligence artificielle (IA) peut nous aider dans les tâches de cyber-renseignement, telles que l'identification d'activités suspectes ou la détection de publications d'Initial Access Broker (IAB). Nous aborderons trois principales approches de l'IA : le prompting, le RAG (Retrieval-Augmented Generation) et le fine-tuning.

Prompting

Le prompting consiste à utiliser un modèle d'IA pré-entraîné en lui donnant des instructions soigneusement rédigées (prompts) afin d'obtenir le résultat souhaité. Aucune donnée supplémentaire ni modification du modèle n'est nécessaire. La qualité du prompt influence la qualité du résultat, et le résultat peut également dépendre des capacités de raisonnement du modèle que vous utilisez.

Exemple : Vous donnez à un modèle d'IA tel que le GPT d'OpenAI le prompt suivant :

Given this post, tell me if it offers initial access to a network: 

`Back again, mods nuked my last thread. Selling VPN access to a big EU telecom, one of them household names in Germany (you figure it out). Full internal access, you can pivot to servers, grab call logs, or mess with billing systems. Been stable for a month, no kicks. Asking $4,000 BTC, negotiable for bulk buyers (got 2 more telecoms). I’ll throw in logs or a test connection for proof, but only if you’re serious. Escrow or MM accepted, I’m vouched here. Hit me up in PM, let’s make this quick. No skids, please.`

Le modèle analyse le texte et répond en fonction de ses connaissances existantes.

RAG (Retrieval-Augmented Generation) dans le domaine du renseignement sur les cybermenaces

RAG est une technique qui combine un modèle linguistique avec une base de connaissances externe. Elle fonctionne en récupérant des informations pertinentes dans cette base de connaissances lorsque vous posez une question ou fournissez une invite. Ces informations récupérées sont ensuite transmises avec votre invite au modèle linguistique, ce qui lui permet de donner une réponse plus éclairée et plus précise.

Dans le domaine du renseignement sur les cybermenaces, le RAG peut être utilisé pour indexer et stocker des exemples étiquetés de publications liées à la cybercriminalité, telles que des publications positives, négatives et neutres, et mettre ces exemples à la disposition du modèle au moment de la requête.

Exemple d'utilisation dans le CTI

Le système indexe les publications étiquetées :
- Messages positifs : vente directe d'un accès non autorisé (par exemple, « Accès initial à RBC Bank disponible »).
- Messages neutres : publicités générales non liées à la vente d'accès (par exemple, « Vente de chargeurs de logiciels malveillants »).
- Messages négatifs : services sans rapport ou hors sujet (par exemple, « Offre d'hébergement VPS »).

Lorsque vous saisissez un message suspecté d'être un IAB, le système RAG récupère des exemples similaires dans la base de connaissances. Le modèle linguistique prend ensuite en compte ces exemples lors de la génération de sa réponse. Cela aide le modèle à mieux évaluer si un message signale une activité IAB.

Affinage

Alors que RAG récupère des données externes au moment de la requête, l'affinage est différent. Dans le cadre du réglage fin, le modèle est entraîné sur un ensemble de données personnalisé (tel que des messages étiquetés) afin que les connaissances soient directement intégrées dans les paramètres du modèle. Le modèle « apprend » les modèles dans les données pendant le processus de réglage fin et n'a plus besoin de récupérer des exemples au moment de la demande, il applique ce qu'il a appris pendant l'entraînement.

Les deux approches permettent d'adapter un modèle à des tâches spécifiques, mais :

Le RAG est généralement utilisé pour indexer et récupérer des informations externes afin d'aider le modèle lors de l'inférence (génération de réponses).
Le réglage fin ajuste le modèle lui-même afin qu'il puisse appliquer les nouvelles connaissances sans avoir besoin d'une récupération externe.

Dans ce cours, nous n'utiliserons que le prompting, car c'est l'approche la plus simple pour commencer.

Web scraping avancé

Le web scraping est le processus qui consiste à extraire automatiquement des données de sites web. Au lieu de copier-coller manuellement des informations à partir de pages web, le scraping utilise un logiciel (appelé scraper) pour collecter et structurer les données de manière efficace et à grande échelle.

Le scraping peut cibler de nombreux types d'informations, telles que :

le texte de publications, de commentaires ou d'articles
les listes de produits ou les prix
des images ou des liens
des métadonnées telles que des horodatages ou des noms d'utilisateur

Le scraping web est généralement simple à petite échelle. La difficulté commence lorsque vous devez extraire des données à un niveau industriel, par exemple en collectant toutes les données d'un site, depuis son lancement jusqu'à aujourd'hui.

Imaginez un site qui est en ligne depuis le 19 janvier 2021. Comment pouvez-vous extraire de manière fiable toutes les publications de cette date jusqu'à aujourd'hui sans manquer celles publiées pendant que votre scraper est en cours d'exécution ? Et qu'en est-il des publications qui apparaissent après la fin de l'analyse de votre scraper ?

Les techniques de scraping que nous aborderons dans ce cours vont bien au-delà de ce qui est généralement présenté dans les tutoriels pour débutants ou les vidéos YouTube. Les sites sur lesquels vous travaillerez dans nos simulations disposent de fonctionnalités de remplissage automatique qui génèrent en permanence de nouveaux articles. Cela pose des défis aux méthodes de scraping traditionnelles, que vous apprendrez à surmonter.

Au fur et à mesure que vous avancerez dans le cours, vous verrez que nous utilisons deux types de bots. Un groupe se concentre entièrement sur la collecte des titres et des liens des articles, en passant systématiquement d'une page à l'autre pour s'assurer qu'aucune donnée n'est manquante. Leur travail consiste à s'assurer que chaque élément de contenu, ancien ou nouveau, est collecté avec précision et efficacité. L'autre groupe est chargé de scraper les données des publications individuelles.

Terminologie

Dans cette section, vous rencontrerez peut-être des termes nouveaux ou inconnus. C'est pourquoi nous avons inclus une section dédiée couvrant tous les termes clés abordés dans ce cours. Il est important de ne pas sauter cette partie, même si vous vous considérez comme un expert en la matière.

Il y a toujours quelque chose de nouveau à apprendre. Et il ne faut pas se laisser intimider par des termes tels que « scraping industriel ». Ces concepts deviendront clairs au fur et à mesure que vous avancerez.

Nous vous expliquerons tout ce que vous devez savoir dans le module 1 afin de vous préparer à la suite.