Início Tecnologia Segurança da IoT mais rápida e precisa: uma análise quantitativa da estrutura...

Segurança da IoT mais rápida e precisa: uma análise quantitativa da estrutura de Cumad

24
0

 

Autores:

(1) MD Mainuddin, Departamento de Ciência da Computação, Universidade Estadual da Flórida, Tallahassee, FL 32306 ([email protected]);

(2) Zhenhai Duan, Departamento de Ciência da Computação da Florida State University Tallahassee, FL 32306 ([email protected]);

(3) Yingfei Dong, Departamento de Engenharia Elétrica, Universidade do Havaí Honolulu, HI 96822 EUA ([email protected]).

Resumo e 1. Introdução

2. Trabalho relacionado

3. Antecedentes no AutoEncoder e SPRT e 3.1. AutoEncoder

3.2. Teste de razão de probabilidade seqüencial

4. Projeto de Cumad e 4.1. Modelo de rede

4.2. Cumad: detecção cumulativa de anomalia

5. Estudos de avaliação e 5.1. Conjunto de dados, recursos e configuração do sistema Cumad

5.2. Resultados de desempenho

6. Conclusões e referências

5. Estudos de avaliação

Nesta seção, realizamos estudos de avaliação para investigar o desempenho do CUMAD usando o conjunto de dados do PublicDomain N-BAIOT [8]. Para entender melhor os estudos de avaliação, primeiro descreveremos o conjunto de dados, em particular, os recursos dos pontos de dados contidos no conjunto de dados. Também compararemos o desempenho de Cumad com o do esquema N-Baiot (que é o nome do conjunto de dados e do esquema correspondente na detecção de dispositivos IoT comprometidos) [8].

5.1. Conjunto de dados, recursos e configuração do sistema Cumad

” alt=”” aria-hidden=”true” />Tabela 1. N-BAIOT Agregações de extração.Tabela 1. N-BAIOT Agregações de extração.

O N-BAIOT contém o tráfego benigno e (Mirai e Bashlite) de 9 dispositivos de IoT comercial, incluindo duas campainhas (Danmini e Ennio), um termostato ecobee, três monitores de bebês (modelos diferentes de provisões e Philips), duas câmeras de segurança simples e um samsung webcam. O tráfego do dispositivo de IoT benigno foi coletado imediatamente após o dispositivo de IoT correspondente estar conectado ao leado experimental. Foi tomado cuidado para garantir que várias operações e comportamentos normais representativos dos dispositivos IoT fossem coletados no conjunto de dados benignos.

Tabela 2. Resultados de desempenhoTabela 2. Resultados de desempenho

No conjunto de dados N-BAIOT, cada ponto de dados corresponde a um pacote chegada e contém 115 recursos estatísticos, que juntos representam um instantâneo comportamental que descreve o contexto do pacote correspondente quando chegar ao ponto de coleta de dados. O instantâneo contém as informações do dispositivo de origem e destino, as informações do protocolo, entre outras. Mais especificamente, os 115 recursos foram extraídos da seguinte maneira. Para cada pacote que chegou, um total de 23 recursos foram coletados em diferentes níveis de agregação (consulte a Tabela 1), incluindo recursos agregados no nível de endereço IP da fonte, no nível de endereços MAC e IP de origem, no nível de canal (endereços IP de origem e destino) e no nível do soquete (endereços IP de origem e destino e números de porta). Esses 23 recursos foram extraídos de maneira deslizante, mais de 5 janelas de 100ms, 500ms, 1,5 segundos, 10 segundos e 1min, respectivamente, gerando um total de 115 recursos para cada ponto de dados.

Usamos o modelo sequencial de Keras como base para o nosso desenvolvimento do AutoEncoder [12]. A dimensão de entrada do modelo está definida para corresponder ao número de recursos no conjunto de dados (ou seja, 115). Para garantir uma compactação eficaz, implementamos três camadas ocultas dentro do codificador. Essas camadas reduzem progressivamente as dimensões para 87, 58, 38 e 29, respectivamente, com a última (29) sendo a dimensão da camada de saída do codificador, ou seja, a dimensão do código obtido. Por outro lado, o componente decodificador reflete as dimensões das camadas do codificador na ordem inversa, a partir de 38. Ao empregar compressão e descompressão nas camadas de codificador e decodificador, eliminamos efetivamente informações redundantes dos recursos dos pontos de dados de entrada. Para otimizar o desempenho do treinamento, utilizamos o otimizador Adam e o erro quadrado médio é usado como erro de reconstrução (função objetiva do modelo).

O SPRT requer quatro parâmetros definidos pelo usuário para calcular os limites superior e inferior A e B (consulte a Eq. (3)), bem como a função de etapa para calcular λn após cada observação (consulte a Eq. (1)). Os valores desejados para a taxa de falsos positivos e a taxa falsa negativa (representada por α e β, respectivamente) são tipicamente muito pequenos. Neste estudo, definimos α e β a 0,01. Idealmente, o parâmetro θ indica a verdadeira probabilidade de uma observação ser classificada como uma anomalia, de um dispositivo de IoT benigno ou comprometido. Determinamos os valores para θ0 e θ1 através de nossos estudos preliminares e os colocamos como 0,2 e 0,8, respectivamente.

5.2. Resultados de desempenho

A Tabela 2 mostra o desempenho do CUMAD na detecção de dispositivos IoT, em termos de precisão, recall e pontuação de F1 [12]. Da tabela, podemos ver que Cumad alcança desempenho superior nas três métricas. Por exemplo, para 5 dos dispositivos IoT, a Cumad é capaz de detectar todos os casos comprometidos (consulte a coluna de recall). Cumad também é capaz de detectar a grande maioria dos casos comprometidos para os dois dispositivos restantes da IoT, com escores de recall de 0,999 e 0,994. Considerando a precisão da detecção de ataque e tráfego benigno, podemos ver que o CUMAD também tem um desempenho muito bom, com uma pontuação de precisão que varia de 0,955 a 0,995 para todos os 7 dispositivos de IoT. As pontuações F1, que é uma média ponderada dos escores de precisão e recall de um modelo, também confirmam que o CUMAD tem um bom desempenho na detecção de casos comprometidos.

A Figura 4 mostra as taxas falsas positivas de um esquema de detecção de anomalia baseado em autoencoder e cumad. Conforme mostrado na figura, as taxas falsas positivas do esquema de detecção de anomalias baseadas em autoencoder para os 7 dispositivos de IoT variam de 0,77% a 11,22%, enquanto as taxas falsas positivas de Cumad variam de 0,014% a 2,067%. Em média, o esquema de detecção de anomalia baseado em autoencoder tem cerca de 3,57% de taxa positiva falsa, enquanto a taxa falsa positiva de Cumad é de cerca de 0,5%, o que representa cerca de 7 vezes a melhoria do desempenho em termos de taxa de falsos positivos para CUMAD sobre o esquema de detecção de anomalia baseado em autoencoder.

Figura 4. Taxas falsas positivas.Figura 4. Taxas falsas positivas.

Para comparação de desempenho, também incluímos na tabela os resultados de desempenho do esquema N-BAIOT, com a mesma configuração de estudos de avaliação. Podemos ver na tabela que Cumad e N-Baiiot desempenham comparativamente em termos de todas as métricas de três desempenho. No entanto, o N-BAIOT funciona em um tamanho de janela fixa. A Tabela 2 mostra que o N-BAIOT requer um tamanho de janela relativamente grande, variando de 20 a 82 (coluna com tamanho de janela de nome). Por outro lado, Cumad funciona de maneira on -line e não requer um tamanho de janela fixo. A Tabela 2 mostra o número médio de observações necessárias para o CUMAD atingir uma detecção (coluna com o tamanho médio do nome); Podemos ver na tabela que leva em média menos de 5 observações para Cumad fazer uma detecção de um caso comprometido, muito mais rápido que o NBAIOIOT. Para ter uma melhor compreensão do número de observações para Cumad fazer uma detecção de um caso comprometido, a Figura 5 mostra a função de distribuição cumulativa (CDF) das observações necessárias para Cumad fazer uma detecção para todos os 7 dispositivos de IoT. Podemos ver pela figura que a grande maioria da detecção requer menos de 10 observações para todos os 7 dispositivos de IoT.

Figura 5. # de observações para detecção em Cumad.Figura 5. # de observações para detecção em Cumad.

Em resumo, comparado aos esquemas simples de detecção de anomalia, como os baseados apenas em autoencoders, o CUMAD pode reduzir bastante as taxas de falsas positivas, tornando o CUMAD muito mais atraente do que os simples esquemas de detecção de anomalias na implantação do mundo real. Comparado com esquemas baseados em janelas, como o N-BAIOT, o Cumad requer muito menos observações para atingir uma detecção e, portanto, pode detectar dispositivos de IoT comprometidos muito mais rápidos.

6. Conclusões

Neste artigo, desenvolvemos Cumad, uma estrutura cumulativa de detecção de anomalia para detectar dispositivos IoT comprometidos. A Cumad emprega um autoencoder de rede neural não supervisionada para classificar se um ponto de dados de entrada individual é anômala ou normal. O CUMAD também incorpora um teste de razão de probabilidade seqüencial da ferramenta estatística (SPRT) para acumular evidências suficientes para detectar se um dispositivo de IoT está comprometido, em vez de depender diretamente dos pontos de dados de entrada anômalos individuais. O CUMAD pode melhorar bastante o desempenho na detecção de dispositivos IoT comprometidos em termos de taxa falsa positiva em comparação com os métodos apenas dependendo de pontos de dados de entrada anômalos individuais. Além disso, como método seqüencial, o CUMAD pode detectar rapidamente dispositivos IoT comprometidos. Os estudos de avaliação baseados no conjunto de dados de IoT do domínio público N-BAIOT confirmaram o desempenho superior do CUMAD.

Referências

[1] Yin Minn Pa Pa, Shogo Suzuki, Katsunari Yoshioka, Tsutomu Matsumoto, Takahiro Kasama e Christian Rossow. IOTPOT: Analisando o ascensão dos compromissos da IoT. Em Anais da 9ª Conferência Usenix sobre Tecnologias Ofensivas, Páginas 9–9, 2015.

[2] Michael Fagan, Katerina Megas, Karen Scarfone e Matthew Smith. Atividades fundamentais de segurança cibernética para fabricantes de dispositivos de IoT. Relatório Técnico, Instituto Nacional de Padrões e Tecnologia, maio de 2020.

[3] Mohammed Ali al-Garadi, Amr Mohamed, Abdulla Khalid al-Ali, Xiaojiang DU, Ihsan Ali e Mohsen Guizani. Uma pesquisa de Machine e Métodos de Aprendizado Deep para a Segurança da Internet das Coisas (IoT). IEEE Communications Surveys & Tutorials, 22 (3): 1646-1685, 2020.

[4] Andrew um cozinheiro, Goksel Mısırlı e Zhong Fan. Detecção de anomalia ¨ Para dados de séries temporais da IoT: uma pesquisa. IEEE Internet of Things Journal, 7 (7): 6481-6494, 2019.

[5] Varun Chandola, Arindam Banerjee e Vipin Kumar. Detecção de anomalia: uma pesquisa. Pesquisas de computação ACM (CSUR), 41 (3): 1–58, 2009.

[6] Ian Goodfellow, Yoshua Bengio e Aaron Courville. Aprendizado profundo. MIT Press, 2016. http://www.deeplearningbook.org.

[7] Abraham Wald. Análise seqüencial. John Wiley & Sons, Inc, 1947.

[8] Yair Meidan, Michael Bohadana, Yael Mathov, Yisroel Mirsky, Asaf Shabtai, Dominik Breitenbacher e Yuval Elovici. NBAIOT-Detecção baseada em rede de ataques de botnet de IoT usando autoencoders profundos. IEEE Computação Pervasiva, 17 (3): 12–22, 2018.

[9] Pang do Guansong, Chunhua Shen, Longbing Cao e Anton van den Hengel. Aprendizagem profunda para detecção de anomalia: uma revisão. Pesquisas de computação ACM (CSUR), 54 (2): 1–38, 2021.

[10] Erol Gelenbe e Mert Nakıp. Aprendizagem seqüencial baseada em tráfego durante ataques de botnet para identificar dispositivos IoT comprometidos. IEEE Access, 10: 126536-126549, 2022.

[11] Thien Duc Nguyen, Samuel Marchal, Markus Miettinen, Hossein Fereidooni, N Asokan e Ahmad-Reza Sadeghi. Dëıot: Um sistema de detecção de anomalia de auto-aprendizado federado para IoT. Em 2019, a 39ª Conferência Internacional do IEEE sobre Sistemas de Computação Distribuída (ICDCs), páginas 756–767. IEEE, 2019.

[12] François Chollet. Aprendizagem profunda com Python. Simon e Schuster, 2021.

Este artigo está disponível na Licença ARXIV sob CC por 4,0 Deed (Atribuição 4.0 Internacional).

fonte