En esta sección, repasaremos algunos temas que se tratarán en las próximas secciones. Es importante que leas todo el contenido, ya que te ayudará a obtener una visión general del material del curso.
Los temas de esta sección incluyen lo siguiente:
- Sitios de simulación en múltiples redes
- Utilización de la inteligencia artificial: prompts, RAG y ajuste fino
- Web scraping avanzado
- Terminología
Sitios de simulación en múltiples redes
En este curso, trabajarás con dos tipos de mercados de ciberdelincuencia de demostración diseñados con fines formativos. No podemos realizar scraping ni pruebas en sitios web reales de ciberdelincuencia como darkforums.st, que ya conoces, ya que hacerlo podría suponer un riesgo legal en muchas jurisdicciones. Para garantizar un entorno de aprendizaje seguro y legal, hemos creado dos sitios de simulación:
- Uno alojado en la clearnet (también llamada web normal o pública)
- Otro alojado en la red Tor
Estos sitios de simulación están diseñados para imitar foros reales de ciberdelincuencia, con actividades, publicaciones y comentarios similares a los de los seres humanos. Esto te proporciona la experiencia más cercana posible a la práctica de la identificación de ciberdelitos y el scraping de datos en un entorno controlado y legal.
Clearnet vs Tor: una breve explicación técnica
- Clearnet se refiere a la parte de Internet accesible al público que utilizas todos los días. Sitios como google.com o wikipedia.org son sitios clearnet. Se puede acceder a ellos directamente a través de navegadores estándar (Chrome, Firefox, Edge) utilizando DNS y sin ninguna configuración especial.
- La red Tor es una red anónima que enruta el tráfico a través de múltiples nodos para ocultar la ubicación y la identidad del usuario. Los sitios Tor (a veces llamados «sitios web oscuros») utilizan dominios .onion y solo se puede acceder a ellos mediante un navegador compatible con Tor o un proxy Tor. Estos sitios no están indexados por los motores de búsqueda tradicionales y se utilizan a menudo para alojar servicios ocultos o centrados en la privacidad.
En este curso, nos referiremos a los sitios web normales como sitios clearnet y a los sitios alojados en Tor como sitios tornet.
Esta configuración le permite desarrollar y poner a prueba de forma segura sus habilidades en materia de inteligencia sobre amenazas sin interactuar con infraestructuras criminales reales.
En el Módulo uno, aprenderá toda la terminología clave necesaria para comprender los temas, las herramientas y la infraestructura con los que trabajaremos a lo largo del curso. En módulos posteriores, se le presentarán los sitios de simulación de Tor y clearnet y los configurará localmente utilizando Docker. Si aún no está familiarizado con Docker o con lo que es un sitio web «local», no se preocupe, aprenderá sobre ello como parte del proceso.
Utilización de la inteligencia artificial: prompts, RAG y ajuste fino
En este curso, aprenderás cómo la inteligencia artificial (IA) puede ayudarnos en tareas de inteligencia sobre amenazas cibernéticas, como identificar actividades sospechosas o detectar publicaciones de Initial Access Broker (IAB). Abordaremos tres enfoques principales de la IA: prompting, RAG (Retrieval-Augmented Generation) y fine-tuning.
Prompting
Las indicaciones consisten en utilizar un modelo de IA previamente entrenado dándole instrucciones cuidadosamente redactadas (indicaciones) para obtener el resultado deseado. No se necesitan datos adicionales ni cambios en el modelo. La calidad de la indicación influye en la calidad del resultado, y el resultado también puede depender de la capacidad de razonamiento del modelo al que se le dan las indicaciones.
Ejemplo: Le das a un modelo de IA como el GPT de OpenAI esta indicación:
Given this post, tell me if it offers initial access to a network:
`Back again, mods nuked my last thread. Selling VPN access to a big EU telecom, one of them household names in Germany (you figure it out). Full internal access, you can pivot to servers, grab call logs, or mess with billing systems. Been stable for a month, no kicks. Asking $4,000 BTC, negotiable for bulk buyers (got 2 more telecoms). I’ll throw in logs or a test connection for proof, but only if you’re serious. Escrow or MM accepted, I’m vouched here. Hit me up in PM, let’s make this quick. No skids, please.`
El modelo analiza el texto y responde basándose en sus conocimientos previos.
RAG (generación aumentada por recuperación) en la inteligencia sobre amenazas cibernéticas
RAG es una técnica que combina un modelo lingüístico con una base de conocimientos externa. Funciona recuperando información relevante de esa base de conocimientos cuando se formula una pregunta o se proporciona una indicación. A continuación, esta información recuperada se transmite junto con la indicación al modelo de lenguaje, lo que le permite dar una respuesta más informada y precisa.
En la inteligencia sobre amenazas cibernéticas, RAG se puede utilizar para indexar y almacenar ejemplos etiquetados de publicaciones relacionadas con delitos cibernéticos, como publicaciones positivas, negativas y neutras, y poner esos ejemplos a disposición del modelo en el momento de la indicación.
Ejemplo de uso en CTI
- El sistema indexa las publicaciones etiquetadas:
- Publicaciones positivas: venta directa de acceso no autorizado (por ejemplo, «Acceso inicial a RBC Bank disponible»).
- Publicaciones neutras: anuncios generales no relacionados con la venta de acceso (por ejemplo, «Venta de cargador de malware»).
- Publicaciones negativas: servicios no relacionados o fuera de tema (por ejemplo, «Ofrecemos alojamiento VPS»).
Cuando se introduce una publicación sospechosa de IAB, el sistema RAG recupera ejemplos similares de la base de conocimientos. A continuación, el modelo de lenguaje tiene en cuenta esos ejemplos mientras genera su respuesta. Esto ayuda al modelo a evaluar mejor si una publicación indica actividad de IAB.
Ajuste
Mientras que RAG recupera datos externos en el momento de la solicitud, el ajuste es diferente. En el ajuste fino, el modelo se entrena con un conjunto de datos personalizado (como publicaciones etiquetadas) para que el conocimiento se incorpore directamente a los parámetros del modelo. El modelo «aprende» los patrones de los datos durante el proceso de ajuste fino y ya no necesita recuperar ejemplos en el momento de la solicitud, sino que aplica lo que ha aprendido durante el entrenamiento.
Ambos enfoques ayudan a adaptar un modelo a tareas específicas, pero:
- RAG se utiliza normalmente para indexar y recuperar información externa con el fin de ayudar al modelo durante la inferencia (generación de respuestas).
- El ajuste fino adapta el propio modelo para que pueda aplicar los nuevos conocimientos sin necesidad de recuperar información externa.
En este curso, solo utilizaremos el prompting, ya que es el enfoque más sencillo para empezar.
Web scraping avanzado
El web scraping es el proceso de extraer datos de sitios web de forma automática. En lugar de copiar y pegar manualmente la información de las páginas web, el scraping utiliza software (denominado scrapers) para recopilar y estructurar datos de forma eficiente y a gran escala.
El scraping puede dirigirse a muchos tipos de información, como:
- texto de publicaciones, comentarios o artículos
- listados de productos o precios
- imágenes o enlaces
- metadatos como marcas de tiempo o nombres de usuario
El scraping web suele ser sencillo a pequeña escala. El reto comienza cuando necesitas extraer datos a nivel industrial, por ejemplo, recopilar todos los datos de un sitio, desde el día en que se lanzó hasta el momento actual.
Imagina un sitio que lleva activo desde el 19 de enero de 2021. ¿Cómo puedes extraer de forma fiable todas las publicaciones desde esa fecha hasta hoy sin perder ninguna publicación que se publique mientras tu rastreador está en funcionamiento? ¿Y qué pasa con las publicaciones que aparecen después de que tu rastreador termine su escaneo?
Las técnicas de scraping que veremos en este curso van mucho más allá de lo que se suele mostrar en los tutoriales para principiantes o en los vídeos de YouTube. Los sitios con los que trabajarás en nuestras simulaciones tienen funciones de autocompletado, que generan continuamente nuevas publicaciones. Esto supone un reto para los métodos de scraping tradicionales, pero aprenderás a superarlo.
A medida que avances en el curso, verás que utilizamos dos tipos de bots. Un grupo se centra exclusivamente en recopilar títulos y enlaces de publicaciones, moviéndose sistemáticamente entre las páginas para garantizar que no se pierda ningún dato. Su trabajo consiste en garantizar que todo el contenido, antiguo o nuevo, se recopile de forma precisa y eficiente. El otro grupo se encarga de extraer datos de publicaciones individuales.
Terminología
En esta sección, es posible que te encuentres con términos nuevos o desconocidos. Por este motivo, hemos incluido una sección dedicada a toda la terminología clave que se trata en este curso. Es importante que no se salte esta parte, incluso si se considera un experto en la materia.
Siempre hay algo nuevo que aprender. Y no hay por qué sentirse intimidado por términos como web scraping industrial. Estos conceptos se irán aclarando a medida que avance.
En el Módulo 1 le explicaremos todo lo que necesita saber para prepararse para lo que le espera.