Nesta secção, abordaremos alguns tópicos que serão apresentados nas próximas secções. É importante que leia tudo aqui, pois isso ajudará a obter uma visão geral do material do curso.

Os tópicos desta secção incluem o seguinte:

  1. Sites de simulação em várias redes
  2. Utilização de inteligência artificial: prompting, RAG e ajuste fino
  3. Web scraping avançado
  4. Terminologias

Sites de simulação em várias redes

Neste curso, irá trabalhar com dois tipos de mercados de cibercrime de demonstração concebidos para fins de formação. Não podemos realizar scraping ou testes em sites de cibercrime reais, como o darkforums.st, que lhe foi apresentado anteriormente, porque isso pode criar riscos legais em muitas jurisdições. Para garantir um ambiente de aprendizagem seguro e legal, criámos dois sites de simulação:

  • Um hospedado na clearnet (também chamada de web normal ou pública)
  • Um hospedado na rede Tor

Esses sites de simulação foram projetados para imitar fóruns reais de crimes cibernéticos, completos com atividades, publicações e comentários semelhantes aos humanos. Isso proporciona a experiência mais próxima possível da prática de identificação de crimes cibernéticos e scraping de dados em um ambiente controlado e legal.

Clearnet vs Tor: uma breve explicação técnica

  • Clearnet refere-se à parte da Internet acessível ao público que utiliza todos os dias. Sites como google.com ou wikipedia.org são sites clearnet. Podem ser acedidos diretamente através de navegadores padrão (Chrome, Firefox, Edge) utilizando DNS e sem qualquer configuração especial.
  • A rede Tor é uma rede anónima que encaminha o tráfego através de vários nós para ocultar a localização e a identidade do utilizador. Os sites Tor (por vezes chamados de «sites da dark web») utilizam domínios .onion e só podem ser acedidos utilizando um navegador compatível com Tor ou um proxy Tor. Estes sites não são indexados pelos motores de busca tradicionais e são frequentemente utilizados para alojar serviços ocultos ou focados na privacidade.

Neste curso, iremos referir-nos aos sites normais como sites clearnet e aos sites hospedados no Tor como sites tornet.

Esta configuração permite-lhe desenvolver e testar com segurança as suas competências em inteligência de ameaças sem interagir com infraestruturas criminosas reais.

No Módulo Um, irá aprender toda a terminologia essencial necessária para compreender os tópicos, ferramentas e infraestruturas com os quais iremos trabalhar ao longo do curso. Nos módulos posteriores, você será apresentado aos sites de simulação Tor e clearnet e irá configurá-los localmente usando o Docker. Se ainda não está familiarizado com o Docker ou com o que é um site “local”, não se preocupe, você aprenderá sobre isso também como parte do processo.


Utilização da inteligência artificial: prompting, RAG e ajuste fino

Neste curso, aprenderá como a inteligência artificial (IA) pode ajudar-nos em tarefas de inteligência contra ameaças cibernéticas, como identificar atividades suspeitas ou detectar publicações do Initial Access Broker (IAB). Abordaremos três abordagens principais de IA: prompting, RAG (Retrieval-Augmented Generation) e fine-tuning.

Prompting

Prompting significa usar um modelo de IA pré-treinado, fornecendo-lhe instruções cuidadosamente escritas (prompts) para obter o resultado desejado. Não são necessários dados adicionais ou alterações no modelo. A qualidade do prompt influencia a qualidade do resultado, e o resultado também pode depender das capacidades de raciocínio do modelo que está a ser solicitado.

Exemplo: Você fornece a um modelo de IA como o GPT da OpenAI este prompt:

Given this post, tell me if it offers initial access to a network: 

`Back again, mods nuked my last thread. Selling VPN access to a big EU telecom, one of them household names in Germany (you figure it out). Full internal access, you can pivot to servers, grab call logs, or mess with billing systems. Been stable for a month, no kicks. Asking $4,000 BTC, negotiable for bulk buyers (got 2 more telecoms). I’ll throw in logs or a test connection for proof, but only if you’re serious. Escrow or MM accepted, I’m vouched here. Hit me up in PM, let’s make this quick. No skids, please.`

O modelo analisa o texto e responde com base no seu conhecimento existente.

RAG (Retrieval-Augmented Generation) na inteligência contra ameaças cibernéticas

RAG é uma técnica que combina um modelo de linguagem com uma base de conhecimento externa. Funciona recuperando informações relevantes dessa base de conhecimento quando faz uma pergunta ou fornece um prompt. Essas informações recuperadas são então passadas junto com o prompt para o modelo de linguagem, permitindo que ele dê uma resposta mais informada e precisa.

Na inteligência contra ameaças cibernéticas, o RAG pode ser usado para indexar e armazenar exemplos rotulados de publicações relacionadas a crimes cibernéticos, como publicações positivas, negativas e neutras, e disponibilizar esses exemplos para o modelo no momento do prompt.

Exemplo de uso em CTI

  • O sistema indexa publicações rotuladas:

  • Publicações positivas: venda direta de acesso não autorizado (por exemplo, Acesso inicial ao RBC Bank disponível).

  • Publicações neutras: anúncios gerais não relacionados com vendas de acesso (por exemplo, Venda de carregador de malware).

  • Publicações negativas: serviços não relacionados ou fora do tópico (por exemplo, Oferecendo alojamento VPS).

Quando introduz uma publicação suspeita de IAB, o sistema RAG recupera exemplos semelhantes da base de conhecimento. O modelo de linguagem considera então esses exemplos enquanto gera a sua resposta. Isto ajuda o modelo a fornecer melhores avaliações sobre se uma publicação sinaliza atividade de IAB.

Afinação

Enquanto o RAG recupera dados externos no momento da solicitação, a afinação é diferente. No ajuste fino, o modelo é treinado em um conjunto de dados personalizado (como publicações rotuladas) para que o conhecimento seja incorporado diretamente aos parâmetros do modelo. O modelo “aprende” os padrões nos dados durante o processo de ajuste fino e não precisa mais recuperar exemplos no momento do prompt, aplicando o que aprendeu durante o treinamento.

Ambas as abordagens ajudam a adaptar um modelo a tarefas específicas, mas:

  • RAG é normalmente usado para indexar e recuperar informações externas para auxiliar o modelo durante a inferência (geração de respostas).
  • Ajuste fino ajusta o próprio modelo para que ele possa aplicar o novo conhecimento sem precisar de recuperação externa.

Neste curso, usaremos apenas prompting porque é a abordagem mais fácil para começar.


Web scraping avançado

Web scraping é o processo de extrair automaticamente dados de sites. Em vez de copiar e colar manualmente informações de páginas da web, o scraping usa software (chamado scrapers) para recolher e estruturar dados de forma eficiente e em escala.

O scraping pode ter como alvo muitos tipos de informações, tais como:

  • texto de publicações, comentários ou artigos
  • listas de produtos ou preços
  • imagens ou links
  • metadados como carimbos de data/hora ou nomes de utilizadores

O web scraping geralmente é simples em pequena escala. O desafio começa quando é necessário extrair dados em nível industrial, por exemplo, recolher todos os dados de um site, desde o dia em que foi lançado até o momento atual.

Imagine um site que está no ar desde 19 de janeiro de 2021. Como pode extrair de forma fiável todas as publicações desde essa data até hoje sem perder publicações que são publicadas enquanto o seu scraper está a funcionar? E quanto às publicações que aparecem depois de o seu scraper terminar a sua verificação?

As técnicas de scraping que abordaremos neste curso vão muito além do que é normalmente mostrado em tutoriais para iniciantes ou vídeos do YouTube. Os sites com os quais você trabalhará nas nossas simulações têm recursos de preenchimento automático, gerando novas publicações continuamente. Isso cria desafios para os métodos tradicionais de scraping, que você aprenderá a superar.

À medida que avança no curso, você verá que usamos dois tipos de bots. Um grupo se concentra inteiramente em coletar títulos e links de publicações, movendo-se sistematicamente entre as páginas para garantir que nenhum dado seja perdido. A sua função é garantir que todo o conteúdo, antigo ou novo, seja recolhido com precisão e eficiência. O outro grupo é responsável por extrair dados de publicações individuais.


Terminologias

Nesta secção, poderá encontrar termos novos ou desconhecidos. Por esse motivo, incluímos uma secção dedicada a todos os termos-chave discutidos neste curso. É importante que não ignore esta parte, mesmo que se considere um especialista no assunto.

Há sempre algo novo para aprender. E não há necessidade de se sentir intimidado por termos como web scraping industrial. Estes conceitos tornar-se-ão claros à medida que avança.

Explicaremos tudo o que precisa de saber no Módulo 1 para o preparar para o que está por vir.