Aprendizaje automático para cibercriminales

Aprendizaje de máquina para cibercriminales

Machine Learning (ML) e Artificial Intelligence (AI) están tomando la ciberseguridad y otros campos de tecnología por asalto, y puede encontrar fácilmente una gran cantidad de información sobre el uso de ML por los dos campos: defensa y ataques cibernéticos. 19659004] El uso del aprendizaje automático para ataques cibernéticos sigue siendo ambiguo. Sin embargo, en 2016, la comunidad de inteligencia de los EE. UU. Expresó su preocupación por el despliegue de inteligencia artificial, lo que plantea amenazas potenciales para la ciberseguridad. Los hallazgos recientes demuestran cómo los cibercriminales pueden utilizar el aprendizaje automático para ataques más avanzados, mucho más rápidos y más baratos.

Aquí, estoy sistematizando la información sobre posibles o existentes métodos de implementación de aprendizaje automático en el ciberespacio malicioso. El objetivo de este texto es ayudar a los equipos de seguridad de la información a prepararse para amenazas inminentes.

Tareas de los delincuentes cibernéticos

Las actividades de los atacantes se dividen en 5 grupos de tareas de alto nivel que el aprendizaje automático puede resolver.

  1. Recopilación de información – preparación para un ataque;
  2. Suplantación: intentar imitar a un confidente;
  3. Acceso no autorizado: omitir las restricciones para obtener acceso a algunos recursos o cuentas de usuario;
  4. Ataque: realizar un ataque real como malware o DDoS;
  5. Automatización: automatización de la explotación y la postexplotación.

Aprendizaje automático para recopilar información

La ​​recopilación de información es el primer paso de cada ataque cibernético, independientemente del número de víctimas. Cuanto mejor recopile información, mejores posibilidades de éxito tendrá.

La información se puede organizar en grupos según los temas y se puede recopilar en línea y fuera de línea. La información puede referirse a personas o bienes. Veamos todas estas categorías.

ML para la recopilación de información sobre personas en línea

Como en el caso del phishing o la preparación de infecciones, los piratas informáticos pueden usar los algoritmos de clasificación para caracterizar a una víctima potencial como perteneciente a un grupo relevante. Esto significa que después de haber recolectado miles de correos electrónicos, un pirata informático envía malware solo a aquellos que hacen clic en el enlace. Por lo tanto, el atacante reduce las posibilidades de detección temprana del ataque planeado. Numerosos factores pueden ayudar aquí. Por ejemplo, el pirata informático puede separar a los usuarios de los sitios de redes sociales que escriben sobre TI de aquellos que se centran en temas de “comida y gatos”. El último grupo podría desconocer las amenazas.

En este caso, se pueden utilizar varios métodos de agrupación y clasificación de medios K y bosques aleatorios a redes neuronales, además del análisis de la PNL, que debe aplicarse a las publicaciones de las víctimas en las redes sociales.

Otro tipo de clasificación puede estar relacionado con la solvencia de la víctima. El primer algoritmo de detección de víctimas se dirigirá a los usuarios con ropa de marca, por ejemplo, niños que toman fotografías dentro de Jets privados con zapatos Balenciaga y las últimas bolsas de Gucci.

Este fue un ejemplo de recopilación de información donde los ciberdelincuentes no tienen un objetivo en particular. Si un atacante conoce a una víctima y tiene su foto, ML puede ayudarlo más. Es fácil detectar cuentas de redes sociales mediante la aplicación de herramientas de reconocimiento de imagen. Trustwave ya realizó el paso inicial en la automatización con su herramienta llamada Social Mapper diseñada para buscar una persona en diferentes plataformas de redes sociales. Esta solución utiliza la búsqueda de imágenes de Google.

Apuesto a que pronto se desarrollarán capacidades similares al reconocimiento de imágenes reales.

ML para la recopilación de información sobre activos de TI en línea

La ​​recopilación de información para ataques dirigidos se ocupa de una víctima y una infraestructura compleja. El objetivo es obtener la mayor cantidad de información posible sobre esta infraestructura.

La idea es automatizar los controles, incluida la recopilación de información sobre la red. Si bien las herramientas existentes, como los escáneres y rastreadores de red, permiten analizar las redes tradicionales, la nueva generación de redes basadas en redes definidas por software (SDN) es demasiado complicada. Ahí es donde el aprendizaje automático puede ayudar a los adversarios. Un ataque poco conocido pero útil Know Your Enemy (KYE) que permite que la inteligencia oculta recopile información sobre la configuración de una red SDN de destino es un ejemplo relevante de la aplicación del aprendizaje automático a la tarea de recopilación de información. La información, que puede ser recopilada por un pirata informático, abarca desde la configuración de las herramientas de seguridad y los parámetros de virtualización de la red hasta políticas de red generales como la Calidad de servicio (QoS). Un atacante puede inferir información confidencial sobre la configuración de la red analizando las condiciones bajo las cuales una regla de un dispositivo de red se inserta en la red y el tipo de regla.

Durante la fase de sondeo, el atacante intenta disparar La instalación de reglas de flujo en un interruptor particular. Las características específicas del tráfico de sondeo dependen de la información que el pirata informático desea recibir.

En la siguiente fase, el atacante está analizando la correlación entre el tráfico de sondeo generado durante la fase de sondeo y las reglas de flujo correspondientes que se instalan. Él o ella puede deducir de este análisis qué política de red se aplica para tipos específicos de flujos de red. Por ejemplo, el atacante puede darse cuenta de que la política de defensa se implementa filtrando el tráfico de la red si utiliza la herramienta de escaneo de la red en la fase de sondeo. El trabajo manual puede tardar semanas en recopilar datos y aún se requieren algoritmos con parámetros preconfigurados, por ejemplo. cuántos paquetes son necesarios para tomar una decisión, ya que el número depende de varios factores. Con la ayuda del aprendizaje automático, los hackers pueden automatizar este proceso.

En general, todas las tareas de recopilación de información que requieren mucho tiempo también pueden automatizarse. Por ejemplo,

DirBuster una herramienta para escanear en busca de directorios y archivos disponibles, se puede mejorar agregando un tipo de algoritmos genéticos, LSTM o GAN para generar nombres de directorio que son más similar a los existentes.

ML para la recopilación de información sobre personas fuera de línea

Si una actividad de ciberdelincuente implica alguna actividad física como entrar a un edificio protegido, es mejor que un ciberataque tenga la capacidad de rastrear a los guardias de seguridad. Tienen la suerte, ya que ahora hay una solución.

Los investigadores encontraron una manera de monitorear los signos vitales de los pacientes en un hospital o en su hogar, sin dispositivos portátiles ni dispositivos voluminosos y que emiten señales sonoras. Lo que es más importante, este método se puede utilizar para ver a través de las paredes.

Captura los reflejos de señales inalámbricas como Wi-Fi como rebotan en las personas, creando un registro confiable de signos vitales para los trabajadores de la salud y los pacientes. Proporciona datos de seguimiento detallados, no solo si la gente está dormida o despierta, sino que también muestra una fase de sueño. Como la mayoría de los grandes inventos, este dispositivo también puede servir para propósitos maliciosos. Imagine cómo los ciberdelincuentes podrían usar este dispositivo para verificar guardias de seguridad.

ML para recopilar información sobre activos fuera de línea

Mientras piensa en recopilar información sobre activos de TI fuera de línea, la primera idea que brilla es encontrar cámaras de video y otros. Dispositivos de detección dentro del edificio. Todos estos dispositivos producen señales, y si entrenamos algún algoritmo con los ejemplos de tales símbolos, será posible detectarlos.

Protección

¿Cómo puedes protegerte de ser la víctima? No hace falta decir que su información personal no debe estar disponible en fuentes abiertas. Así que no publiques una gran cantidad de información sobre ti en las redes sociales. Esto es algo trivial pero muy importante. En cuanto a los ataques físicos, desafortunadamente, no existen medidas de protección probadas. Actualmente, los tipos de ataques son solo teóricos.

Aprendizaje automático por imitación

La ​​suplantación permite a los ciberdelincuentes atacar a las víctimas de diferentes maneras, según el canal de comunicación y la necesidad. Los atacantes pueden convencer a las víctimas para que hagan clic en el enlace con exploit o malware después de haber enviado un correo electrónico o utilizando ingeniería social. Por lo tanto, incluso una llamada telefónica se considera un medio de suplantación. La suplantación se divide en 3 tipos de actividades cibernéticas: spam, suplantación de identidad y suplantación de identidad.

Aprendizaje automático para suplantación en el spam

El correo electrónico no deseado es una de las áreas más antiguas donde se utilizó el aprendizaje automático en el servicio de la ciberseguridad. Sin embargo, podría ser uno de los primeros campos relacionados con el LD para difundir los ataques cibernéticos. En lugar de generar mensajes de spam de forma manual, los ciberdelincuentes pueden capacitar a una red neuronal para crear correos electrónicos no deseados, lo que no suscitará sospechas.

Sin embargo, es difícil imitar a los usuarios al tratar con correos electrónicos no deseados. Si le pide a los empleados en un correo electrónico que cambien sus contraseñas o descargue una actualización en nombre del administrador de una empresa, puede fallar al escribir exactamente de la misma manera. No podrá copiar el estilo a menos que vea una pila de correos electrónicos escritos por este administrador. En cuanto a los mensajeros que se están volviendo cada vez más populares hoy en día, es aún más fácil imitar a los humanos.

Aprendizaje automático para la suplantación de identidad en el phishing

La ​​mayor ventaja del phishing en las redes sociales sobre el phishing por correo electrónico es la publicidad o el fácil acceso a la información personal. Puedes monitorear y aprender el comportamiento de los usuarios leyendo sus publicaciones. Esta idea se demostró en la investigación más reciente “ Weaponizing Data Science para Social Engineering E2E spear phishing automatizado en Twitter – Automatizado E2E spear phishing en Twitter” que presentó SNAP_R una herramienta automatizada que aumenta significativamente las campañas de phishing. Mientras que el phishing automatizado tradicional proporciona un 5% -14% de precisión y el phishing dirigido manual ofrece un 45%. El método está justo en el medio, con un 30% de precisión y hasta un 66% en algunos casos con el mismo esfuerzo que el automatizado. Los investigadores utilizaron el modelo de Markov para generar tweets basados ​​en los tweets anteriores del usuario y compararon los resultados con la red neuronal recurrente, especialmente LSTM. El LSTM proporciona mayor precisión pero requiere más tiempo para el entrenamiento.

Aprendizaje automático para la suplantación de identidad

En la nueva era de la IA, las empresas pueden crear no solo textos falsos, sino también una voz o videos falsos. Lyrebird una startup especializada en medios y videos que puede imitar voces, demuestra que pueden hacer un bot que habla exactamente como tú. Con la creciente cantidad de datos y las redes en evolución, los hackers pueden mostrar resultados aún mejores. No sabemos cómo funciona Lyrebird, y los piratas informáticos probablemente no pueden usar este servicio para sus propias necesidades, pero pueden descubrir plataformas más abiertas como la WaveNet de Google, que pueden hacer lo mismo. . Aplican redes de confrontación generativa (GAN).

Las imágenes también pueden ser falsificadas. Un artículo reciente de Nvidia presentó una herramienta que puede generar imágenes de celebridades de alta calidad.

Hace solo unos años, los videos e imágenes generados por las redes neuronales tenían una calidad deficiente y solo eran útiles para artículos de investigación. Ahora, casi todo el mundo puede generar un video falso con una celebridad o un político conocido en todo el mundo diciendo cosas que nunca han dicho o haciendo algo que nunca han hecho (por ejemplo, no creerás lo que dice Obama en Esto Video). Se puede lograr con la ayuda de herramientas disponibles públicamente, tales como DeepFake .

 

Fakes están en todas partes, y este problema está empeorando. ¿Que sigue? ¿Empresas falsas? Ya hemos visto el . Un chico creó un restaurante falso con críticas falsas en TripAdvisor. No es tan fácil hacerlo manualmente, pero AI puede ayudar a generar cuentas falsas. Todo lo que necesita es entrenar a AI para automatizar la creación de activos y empresas falsos. Imagine ciudades falsas y sus agencias de noticias utilizando AI para crear ganchos de noticias que mantengan esta o aquella agenda.

Protección

A pesar de lo controvertido que parezca, las falsificaciones son problemas reales. Afortunadamente, hay un número de movimientos prometedores. El Departamento de Defensa presentó la primera herramienta, que es capaz de detectar DeepFakes . Hay una característica interesante: las caras no parpadean en videos falsos.

AI Foundation gestiona otro movimiento en esta área. El proyecto llamado Reality Defender está dirigido a defender a los usuarios de noticias falsas mediante el uso de un complemento del navegador.

En cuanto al phishing, la recomendación más práctica para el phishing en cuentas de redes sociales es verificar y escribir a los usuarios que envían Mensajes sospechosos a través de otros canales y mensajeros. Hay pocas posibilidades de que varias de sus cuentas se vean comprometidas a la vez.

Aprendizaje automático para acceso no autorizado

Obtener acceso no autorizado es un tema amplio, pero hay al menos 2 áreas más comunes donde el aprendizaje automático puede ayudar. Estos son bypass de CAPTCHA y contraseña de fuerza bruta.

Aprendizaje automático para bypass de CAPTCHA

La ​​siguiente fase que sigue a la suplantación o algunos casos es obtener acceso no autorizado a las cuentas de usuario.

Ifcybercriminals necesita obtener acceso no autorizado a una sesión de usuario La forma obvia es comprometer la cuenta. Para la piratería masiva, una de las cosas molestas es un bypass de captcha. Varios programas de computadora pueden resolver pruebas de captcha simples, pero la parte más complicada es la segmentación de objetos.

Hay numerosos artículos de investigación donde se describieron los métodos de derivación de captcha. Uno de los primeros ejemplos de aprendizaje automático fue publicado el 27 de junio de 2012 por Claudia Cruz, Fernando Uceda y Leobardo Reyes. Utilizaron el método de máquinas de vectores de soporte (SVM) para romper el sistema que se ejecuta en imágenes reCAPTCHA con una precisión del 82%. Todos los mecanismos de captcha se mejoraron significativamente. Sin embargo, una ola de artículos apareció después, aprovecharon los métodos de aprendizaje profundo para romper CAPTCHA.

En 2016, un artículo que detallaba cómo romper el captcha simple con el 92% de precisión usando el aprendizaje profundo, fue publicado.

Otra investigación utilizó uno de los últimos avances en reconocimiento de imágenes: redes residuales profundas con 34 capas para romper un CAPTCHA de IRCTC, un sitio web popular de la India, también con 95 –98% de precisión. Estos artículos abarcan principalmente CAPTCHA basados ​​en caracteres.

Uno de los artículos más inspiradores se publicó en la conferencia BlackHat . El trabajo de investigación se llamó “Soy un robot”. Solían romper la última imagen semántica de CAPTCHA y comparaban varios algoritmos de aprendizaje automático. El documento prometió una precisión del 98% para romper reCAPTCHA de Google.

Para empeorar las cosas, un nuevo artículo afirma que los científicos advierten sobre los próximos métodos de desvío de CAPTCHA del 100%.

Otra área donde los ciberdelincuentes pueden encontrar ventajas con la ayuda del aprendizaje automático es la fuerza bruta de las contraseñas.

Los modelos de Markov fueron los primeros en generar “conjeturas” de contraseñas en 2005, mucho antes de que el aprendizaje profundo se convirtiera en un tema de actualidad. Si está familiarizado con las redes neuronales actuales y LSTM, probablemente escuchó acerca de una red que genera un texto basado en el texto entrenado. Si le das a la red un trabajo de Shakespeare, creará un nuevo texto basado en él, y el texto recién generado se verá como escrito por Shakespeare. La misma idea se puede utilizar para generar contraseñas. Si puede entrenar una red con las contraseñas más comunes, generará muchas similares. Los investigadores adoptaron este enfoque, lo aplicaron a las contraseñas y obtuvieron resultados positivos, que fueron mejores que las mutaciones tradicionales para crear listas de contraseñas, como el cambio de letras a símbolos, por ejemplo. de “s” a “$”.

Otro enfoque se mencionó en uno de los artículos “ PassGAN: un enfoque de aprendizaje profundo para adivinar contraseñas ” donde los investigadores usaron GAN para generar contraseñas. Las GAN son tipos especiales de redes neuronales que consisten en dos redes. Uno se llama generalmente generativo y el otro es discriminativo. Mientras que el uno está generando ejemplos contradictorios, otro está probando si este ejemplo es real. La idea central es capacitar a las redes que se basan en los datos reales sobre contraseñas de las que se recopilaron de las recientes violaciones de datos. Después de la publicación sobre la base de datos más grande de 1.4 mil millones de contraseñas de todas las violaciones, la idea parece prometedora para los ciberdelincuentes.

Protección

¿Cómo puede protegerse? Los captchas de reconocimiento de objetos están muertos. Si elige un captcha para su sitio web, es mejor probar MathCaptcha o sus alternativas. En segundo lugar, use contraseñas complicadas y excluya las sencillas. Evita los de la base de datos. Las únicas contraseñas aleatorias seguras son aquellas creadas en oraciones cortas y mezcladas con caracteres especiales, o cadenas completamente aleatorias guardadas en la herramienta de administración de contraseñas.

Aprendizaje automático para ataques

La ​​siguiente área donde los ciberdelincuentes desean usar el aprendizaje automático es atacar a sí mismo. En general, hay 3 objetivos: espionaje, sabotaje y fraude. La mayoría de ellos se realizan con malware, spyware, ransomware o cualquier otro tipo de programas maliciosos, que los usuarios descargan debido a phishing. Los atacantes también los suben debido a vulnerabilidades. Junto con los ataques DoS, hay ataques menos comunes como la multitud de gente. Estos ataques pueden beneficiarse de ML incluso más que los tradicionales.

Aprendizaje automático para el descubrimiento de vulnerabilidades

Uno de los métodos más comunes de descubrimiento de vulnerabilidades es Fuzzing. Implica poner una entrada aleatoria en la aplicación y controlar si se bloqueará. Hay 2 pasos que requieren automatización y ayuda de AI. La primera es la generación de ejemplos. Por lo general, si toma, por ejemplo, un documento PDF, un investigador edita este documento cambiando aleatoriamente algunos campos. El uso de enfoques más inteligentes para la generación de mutaciones puede acelerar significativamente el proceso de encontrar nuevos ejemplos de documentos que podrían fallar en la aplicación.

También se pueden implementar enfoques de aprendizaje de refuerzo como los utilizados por AlphaGo. Si el modelo AlphaGO encontró una falla en el juego, también puede ayudar a encontrar problemas de seguridad. El análisis de colisiones sigue el descubrimiento de la vulnerabilidad. Cada análisis requiere una gran cantidad de trabajo manual. Si es posible entrenar a un modelo para elegir choques más relevantes, ahorrará tiempo y esfuerzo. Además, hace que el descubrimiento de vulnerabilidades sea mucho más barato.

Aquí puede encontrar más información sobre Machine Learning for Fuzzing

Machine Learning para Malware / Spyware / Ransomware

Machine El aprendizaje para la protección contra malware fue probablemente la primera implementación de ML comercialmente exitosa en ciberseguridad. Hay docenas de artículos científicos que describen diferentes técnicas para detectar malware utilizando inteligencia artificial (IA).

¿Cómo pueden los ciberdelincuentes implementar el aprendizaje automático para crear malware?

Uno puede tratar de usar el aprendizaje por refuerzo. Los cibercriminales pueden tomar ejemplos de amalware, cambiarlo, enviarlo a VirusTotal, verificar resultados, realizar otros cambios, etc.

Alternativamente, el reconocimiento facial puede usarse para realizar ataques dirigidos. DeepLocker es un ejemplo de malware, que se oculta hasta que ocurre un evento en particular, por ejemplo, la detección de una cara objetivo por el sistema de reconocimiento.

Máquina Aprendizaje para ataques DoS

¿Cuáles son las formas más comunes de detectar ataques DDoS? Encontrar patrones comunes en los paquetes de red que llevan a cabo este ataque. La protección DDoS siempre se asemeja a un juego del gato y el ratón. Los atacantes intentan hacer que los paquetes DDoS sean diferentes simulando cada campo, y los defensores intentan identificar patrones comunes en las solicitudes falsificadas. Con la ayuda de AI, los atacantes pueden generar paquetes DDoS muy cercanos a las acciones reales del usuario. Pueden oler el tráfico normal y luego entrenar redes neuronales como GAN para enviar paquetes legítimos. El uso de la IA en los ataques DDoS puede traer cambios significativos a esta área.

Aprendizaje automático para atestación de personas

Masa de seguimiento, generación de información falsa, incluidas noticias falsas. Con la ayuda del aprendizaje automático, los ciberdelincuentes pueden reducir los costos de estos ataques y automatizarlos.

En la investigación “Ataques y defensas automáticos en sistemas de revisión en línea” publicada en septiembre de 2017, un ejemplo de Se introdujo el sistema que genera revisiones falsas en Yelp. La ventaja fue no solo las revisiones de 5 estrellas que no se pueden detectar, sino las revisiones con mejores puntajes en comparación con las escritas por humanos.

En pocas palabras, la multitud de visitas es un uso malicioso de los servicios de crowdsourcing. Por ejemplo, un atacante paga por escribir reseñas negativas en línea de una empresa competidora. Estas revisiones a menudo pasan desapercibidas porque las personas reales las escriben y las herramientas automatizadas están buscando atacantes de software.

Fake News es solo un ejemplo de la multitud de personas. El libro de Max Tagmark “ Life 3.0 ” menciona otro ejemplo. Hubo una historia de ficción en la que un equipo de hackers creó AI, que pudo realizar tareas sencillas en Amazon Mechanical Turk (MTurk). Lo más importante fue que el costo de pagar por este hardware de AI en los servicios web de Amazon fue menor al que podría ganar en Amazon Mturk. Les tomó un corto período de tiempo llevar a Amazon casi en bancarrota.

Aprendizaje automático para la automatización de los delitos informáticos

Los piratas informáticos experimentados pueden usar el aprendizaje automático para automatizar tareas en diversas áreas. Es casi imposible predecir cuándo y qué será exactamente automatizado, pero saber que las organizaciones de delitos informáticos tienen cientos de miembros requiere diferentes tipos de software, como portales de soporte o robots de soporte.

A partir de tareas específicas de delito informático, existe una nueva término – Hivenet – representando botnets inteligentes. La idea es que si los ciberdelincuentes gestionan botnets manualmente, los hivenets pueden tener una especie de cerebro para alcanzar un evento particular y cambiar el comportamiento dependiendo de ellos. Múltiples bots se ubicarán en los dispositivos y decidirán según la tarea quién usará los recursos de la víctima. Es como una cadena de parásitos que viven en el organismo.

Conclusión

Las ideas anteriores son solo algunos ejemplos de las formas en que los hackers pueden usar el aprendizaje automático.

Además de usar contraseñas más seguras y Teniendo más cuidado al seguir sitios web de terceros, solo puedo recomendar prestar atención a los sistemas de seguridad basados ​​en ML para estar por delante de los perpetradores.

Hace un año o dos, todos tenían una actitud escéptica hacia el uso del aprendizaje automático. . Los hallazgos de la investigación de hoy y su implementación en productos demuestran que ML realmente funciona y que está aquí para quedarse. De lo contrario, los hackers comenzarán a mirar hacia adelante y se beneficiarán de ML.

Aplauda si disfrutó de mi artículo y suscríbase para obtener más información sobre los diferentes aspectos del aprendizaje automático y la ciberseguridad.

Dejá un comentario