Discente: João Guilherme do Nascimento Teles
Orientador: Eliana Pantaleão
Título: Detecção de Ameaças DDoS com Aprendizagem de Máquina
_________________________________________________________________________
O TCC do graduado João Guilherme do Nascimento Teles, no curso de engenharia Eletrônica e de Telecomunicações, pela UFU no campus Patos de Minas, propõe duas abordagens diferentes para a realização da tarefa de detecção de ataques DDoS. A primeira metodologia é baseada na análise de séries temporais utilizando a entropia de certos atributos de fluxo de rede. A segunda abordagem utiliza a análise de componentes principais em conjunto com redes neurais artificiais e máquina de vetores de suporte para a realização da classificação entre situações normais e situações de ataque.
INTRODUÇÃO
Novos avanços em tecnologia geram novos desafios. Entre os novos desafios, um que se destaca entre os demais é o DDoS (Distributed Denial of Service), um tipo de ataque em que os criminosos utilizam um grande volume de dados para causar danos às suas vítimas. Os ataques DDoS têm como principal objetivo inviabilizar o funcionamento do recurso Web da vítima, gerando o que é chamado de “negação de serviço” (em inglês, Denial of Sevice), que deu origem ao nome do tipo de ataque. Esse objetivo é alcançado por meio de múltiplas solicitações para recursos Web enviadas pelo criminoso, que sobrecarregam os servidores da vítima. Por fim, essa sobrecarga pode gerar o mau funcionamento, ou até mesmo a indisponibilidade, do serviço oferecido pela vítima.
Uma vez que a solução preventiva não consegue impedir o ataque, é necessário utilizar recursos para a mitigação do problema. Uma importante abordagem de que se tem conhecimento é a utilização de sistemas inteligentes cujo objetivo é aprender, por meio de métodos de classificação, utilizando os dados de fluxo de rede. Essa abordagem, conhecida como aprendizagem de máquina (ML, do inglês machine learning), tem como característica principal a sua adaptabilidade a problemas de diversas naturezas que possuam dados para o “treinamento” do sistema.
Estrutura Básica de um Ataque DDoS
Uma infraestrutura típica para o lançamento de ataques DDoS é o da Figura a seguir onde o criminoso utiliza máquinas comprometidas como espelho para o ataque, aumentando a eficiência do ataque por meio da repetição de solicitações à vítima do ataque.
Bases de Dados
O principal objeto de estudo dos algoritmos de aprendizagem são os dados. De nada adianta desenvolver o algoritmo perfeito para o reconhecimento de padrões se a base de dados fornecida para o seu funcionamento não fornece quantidade de informação suficiente para a aplicação. Como este trabalho tem como objetivo o desenvolvimento dos modelos de predição e não a captação dos dados de rede que são necessários para o desenvolvimento do modelo, optou-se por utilizar as bases de dados, já utilizadas no meio acadêmico, UNB CIC-IDS 2017 e UNB CIC-DDoS 2019
Redes Neurais Artificiais
As redes neurais artificiais (ANN do inglês Artificial Neural Network) tem o modelo de grafo como característica principal. Nesse modelo os nós são os neurônios artificiais e as arestas são as conexões entre entrada e saída dos neurônios.
Abordagem baseada no método ARIMA
O primeiro passo realizado nessa abordagem diz respeito à implementação de um algoritmo para o janelamento das linhas de dados de acordo com o tempo conforme a Figura a seguir. Estabeleceu-se como padrão utilizar uma janela de cinco minutos para a realização das análises. Além disso, o processo de janelamento implementado não é estático, ou seja, ele possui um fator de deslizamento de um minuto responsável por uniformizar os dados para análise de forma a detectar a ameaça o quanto antes.
Abordagem Supervisionada
Na abordagem supervisionada são implementados os algoritmos de aprendizagem de máquina para o treinamento de um modelo capaz de realizar predições sobre valores futuros. Nessa abordagem a avaliação é feita linha a linha, ou seja, sem a aplicação do janelamento citada na seção anterior. Os algoritmos testados, modelados a partir das informações contidas nas janelas de dados, serão o ANN e o SVM.
Além disso, um outro algoritmo será desenvolvido com o acréscimo de uma etapa anterior ao treinamento do modelo, a etapa PCA, cujo objetivo já descrito anteriormente é reduzir a dimensão dos dados de forma a atribuir peso maior a atributos mais redundantes para a classificação de um determinado dado.
RESULTADOS E CONSIDERAÇÕES FINAIS
A metodologia ARIMA, utilizando a entropia em janelas de tempo como base para o estabelecimento de limiares para casos normais e anormais demonstrou um f-score máximo de 67,04% com acurácia geral de 62,02% e tempo médio de processamento menor que 1 segundo.
Dentre as centenas de testes realizados combinando os parâmetros pré-estabelecidos, a combinação que mais obteve sucesso foi a ANN+PCA, obtendo f-score de 99,99% e acurácia geral de 99,99%. O modelo SVM+PCA obteve métricas significativamente importantes, pois igualou a maioria das métricas, perdendo apenas por um centésimo na medida de acurácia geral do modelo ANN+PCA, mas obteve um tempo de treinamento menor que o modelo.
コメント