Predicción del cáncer con aprendizaje automático

Los modelos de Machine Learning están mejorando que los patólogos para predecir con precisión el desarrollo del cáncer.

Cada año, patólogos diagnostican a 14 millones de nuevos pacientes con cáncer en todo el mundo. Eso es millones de personas que enfrentarán años de incertidumbre.

Los patólogos han estado realizando diagnósticos y pronósticos de cáncer durante décadas. La mayoría de los patólogos tienen una tasa de éxito del 96 al 98% para diagnosticar el cáncer. Son bastante buenos en esa parte.

El problema viene en la siguiente parte. Según el Hospital de la Universidad de Oslo la precisión de los pronósticos es solo del 60% para los patólogos. El pronóstico es la parte de una biopsia que se realiza después de que se diagnostica el cáncer; predice el desarrollo de la enfermedad. [19659004] Es hora de dar el siguiente paso en patología.

Presentación del Aprendizaje automático

El siguiente paso en patología es el Aprendizaje automático.

Máquina El aprendizaje (ML) es una de las ramas centrales de la Inteligencia Artificial. Es un sistema que toma datos, encuentra patrones, se entrena usando los datos y produce un resultado.

Entonces, ¿qué hace que una máquina sea mejor que un profesional capacitado?

ML tiene ventajas clave sobre los patólogos.

En primer lugar, las máquinas pueden trabajar mucho más rápido que los humanos. Una biopsia por lo general toma un patólogo 10 días. Una computadora puede hacer miles de biopsias en cuestión de segundos.

Las máquinas pueden hacer algo en lo que los humanos no son tan buenos. Pueden repetir miles de veces sin agotarse. Después de cada iteración, la máquina repite el proceso para hacerlo mejor . Los humanos también lo hacen, lo llamamos práctica. Si bien la práctica puede ser perfecta, ninguna cantidad de práctica puede poner a un ser humano incluso cerca de la velocidad computacional de una computadora.

Otra ventaja es la gran precisión de las máquinas. Con el advenimiento de la tecnología de Internet de las cosas, hay tanta información en el mundo que es posible que los humanos no puedan analizarlo todo. Ahí es donde las máquinas nos ayudan. Pueden trabajar más rápido que nosotros y realizar cálculos precisos y encontrar patrones en los datos. Es por eso que se llaman computadoras.

Breve explicación técnica del aprendizaje automático

Para comenzar, hay dos categorías amplias de Aprendizaje automático,

  1. Aprendizaje supervisado
  2. Aprendizaje no supervisado

El aprendizaje supervisado está etiquetado como Fed Datos

El aprendizaje supervisado tal vez se describe mejor por su propio nombre. Un algoritmo de aprendizaje supervisado es un algoritmo que es “enseñado” por los datos que se le dan.

El modelo se entrena a sí mismo usando datos etiquetados y luego se prueba a sí mismo. Esto se repite hasta lograr el resultado óptimo. Una vez hecho esto, puede hacer predicciones sobre instancias futuras.

El aprendizaje no supervisado extrae conclusiones de datos no etiquetados

En el aprendizaje no supervisado los conjuntos de datos no están etiquetados. En cambio, el trabajo del modelo es crear una estructura que se ajuste a los datos encontrando patrones (como agrupaciones y agrupaciones).

Piense en el aprendizaje no supervisado como un bebé. Los bebés nacen en este mundo sin ningún conocimiento de lo que es “correcto” o “incorrecto” aparte de los instintos. A medida que crecen, ven, tocan, escuchan y sienten (ingresan datos) y prueban (comprueban los datos) hasta que aprenden qué es.

Bien, ya sabes las dos categorías principales de ML. Guay. Ahora profundicemos un poco más en algunas de las técnicas que usa ML.

La regresión hace que el resultado sea más preciso

El objetivo principal de la regresión es minimizar la función de costo del modelo.

¿Qué es la función de costo?

La función de costo es una función que calcula la distancia entre la hipótesis para el valor x y el valor real de x. Básicamente, le muestra qué tan lejos está el resultado de la respuesta real.

El punto central de la regresión es encontrar un hiperplano (palabra elegante para una línea multidimensional) que minimice la función de costo para crear la mejor relación posible entre puntos de datos.

Regresión lineal que hace que la relación sea más precisa

Comienza con una línea aleatoria sin correlación que reitera el uso del gradiente descendente para convertirse en la relación óptima.

La regresión se realiza mediante un algoritmo llamado Gradiente Descendencia. En este algoritmo, la función de costo se reduce cuando el modelo ajusta sus parámetros.

Piensa en el descenso mientras corres por una colina, tratando de llegar al punto más bajo.

Mientras tanto, el descenso del degradado reduce el la función de costo es cada vez más baja, el resultado también se vuelve más preciso.

Así es como su modelo se vuelve más preciso, al usar la regresión para ajustarse mejor a los datos dados.

Clasificación Clasifica los puntos de datos en grupos

Los modelos de aprendizaje supervisado pueden hacer más que solo regresión. Una de las tareas más útiles de ML es la clasificación.

Los algoritmos de clasificación establecen límites entre los puntos de datos clasificándolos como un grupo determinado, según las características que coincidan con los parámetros del modelo.

En este modelo, datos Los puntos se clasifican como ovejas o cabras. Esto depende de sus pasos por día dependiendo de la temperatura diaria promedio.

El límite entre las clases se crea mediante un proceso llamado regresión logística.

Un hecho importante a recordar es que el límite no depende de los datos .

¿Recuerda la función de costo? ¡Sorpresa! también se usa en la clasificación.

En la clasificación, se usa de manera similar a la regresión para encontrar el mejor ajuste posible a los datos.

Máquinas de vectores compatibles

Los SVM son algoritmos de aprendizaje supervisado que se utilizan tanto en la clasificación como en la regresión. 19659053] El objetivo de un algoritmo SVM es clasificar los datos mediante la creación de un límite con el margen más amplio posible entre sí y los datos.

Árboles de decisión se reducen a un resultado

Un árbol de decisión es un modelo similar a un árbol (i los árboles crecieron al revés) representación de probabilidad y toma de decisiones en ML.

El proceso de decidir qué comerás

Como se ve en la figura de arriba , DT usa sentencias condicionales para reducir la probabilidad de que cierto valor tenga lugar en una instancia. Utiliza el modelo DT para predecir la probabilidad de que una instancia tenga un determinado resultado.

Los DT continúan dividiéndose en nodos adicionales hasta que cada entrada tenga un resultado.

Básicamente, nodos internos se dividen Además, mientras que los nodos son como una señal de stop.

Probabilidad de estimación de redes bayesianas

BN es un clasificador similar a un árbol de decisión. La diferencia es que los clasificadores BN muestran estimaciones de probabilidad en lugar de predicciones.

El conjunto de datos de las variables y sus dependencias condicionales se muestran en una forma visual llamada gráfica acíclica dirigida.

En el ejemplo arriba, las dos razones por las cuales el pasto está mojado son la lluvia o el aspersor. Usando un modelo de BN, se pueden encontrar las probabilidades de cada escenario posible.

Redes neuronales artificiales Aprender de los datos

ANN aprende de los datos que se proporcionan. Se inspira en nuestros propios sistemas neuronales, aunque no funcionan de la misma manera.

Los modelos ANN reciben una gran cantidad de datos en una capa que llamamos la capa de entrada. A partir de estos datos, se hacen comparaciones y el modelo identifica automáticamente las características de los datos y los etiqueta.

¿Son similares a los que supongo?

Hay tres tipos de capas en las ANN.

  • Entrada Capa
  • Capas ocultas
  • Capa de salida

Así es como funciona una ANN. Primero, a cada neurona en la capa de entrada se le asigna un valor, llamado función de activación. Luego, se le asigna un peso aleatorio, mientras que a las neuronas de la capa oculta se les asigna un valor de sesgo aleatorio. En la capa oculta, un algoritmo llamado función de activación asigna un nuevo peso a la neurona de la capa oculta, que se multiplica por un valor de sesgo aleatorio en la capa de salida.

El primer modelo con sesgo y pesos aleatorios. La red esencialmente está adivinando en este punto.

Esta función de activación se multiplica por un peso aleatorio, que mejora con más iteraciones a través de un proceso llamado backpropagation.

A través de esto, el modelo desarrolla una predicción aleatoria sobre su salida en La instancia dada. Usando la propagación hacia atrás, el modelo ANN ajusta sus parámetros para que la respuesta sea más precisa.

Las máquinas piensan que este gato también es muy adorable.

Por ejemplo, si un modelo era clasificar gatos en una gran base de datos de imágenes, Aprendería reconociendo los bordes que conforman rasgos como los ojos y las colas y eventualmente se ampliará para reconocer gatos enteros. Piensa en este proceso como construir Lego. Identificas diferentes partes, juntas diferentes secciones y finalmente juntas todas las diferentes secciones para hacer tu obra maestra.

Back To Machine Learning Cancer Pronnoses

Ok, así que ahora sabes bastante sobre el aprendizaje automático.

Ahora, a la buena parte. Ahora aprenderá sobre algunos de los modelos que se han desarrollado para las biopsias y los pronósticos del cáncer.

El modelo que predice la susceptibilidad al cáncer

Este primer modelo que le mostraré fue creado para discriminar tumores como malignos o benigno entre los pacientes con cáncer de mama.

En este modelo, se utilizaron las ANN para completar la tarea. Este modelo fue construido con un gran número de capas ocultas para generalizar mejor los datos. Miles de registros mamográficos se incluyeron en el modelo para que pudiera aprender a distinguir entre tumores benignos y tumores malignos. Antes de ser ingresados, todos los datos fueron revisados ​​por los radiólogos.

Un ejemplo de lo que podrían ser las entradas de una red neuronal de predicción de cáncer.

El modelo fue en gran parte exitoso, con una precisión de AUC 0.965 (AUC, o área debajo del curva es una forma de verificar el éxito de un modelo). Aunque este modelo es preciso, la principal ventaja que tiene sobre los patólogos es que es más consistente, efectivo y menos propenso a errores.

El modelo que predice la recurrencia del cáncer

Bien, predecir el cáncer es ordenado. Pero predecir la recurrencia del cáncer es una tarea mucho más compleja para los humanos. Afortunadamente, las máquinas se están volviendo buenas en eso. Permítanme explicar cómo.

Este modelo usó una variedad de técnicas de LD para aprender cómo predecir la recurrencia del cáncer oral después de la remisión total de los pacientes con cáncer. Se recogieron fuentes de datos clínicos, de imágenes y genómicas de 86 pacientes para este modelo. Los algoritmos de selección de características redujeron las características del modelo de más de 110 a menos de 30. Esto hizo que el modelo fuera más eficiente y redujo considerablemente el sesgo. El modelo probado utilizando los BN, los ANN, los SVM, los DT y los RF para clasificar los datos de los pacientes en aquellos con recaídas de cáncer y sin.

Este modelo BNN predice la recurrencia del cáncer de mama.

Al final, el modelo predijo correctamente todos los pacientes que utilizan datos seleccionados de características y BN. Aunque este fue un modelo realmente preciso, tenía un conjunto de datos realmente pequeño de solo 86 pacientes.

En otro estudio similar, los investigadores hicieron un modelo de ML que probó el uso de SVM, ANN y regresión para clasificar a los pacientes en bajo riesgo y alto riesgo. Grupos de riesgo para la recurrencia del cáncer. El modelo SVM superó a los otros dos y tuvo una tasa de precisión del 84%. Esto fue innovador, ya que fue significativamente más preciso que los patólogos.

El modelo que predice las tasas de supervivencia del cáncer

Este modelo incorporó un conjunto de datos de 162,500 registros y 16 características clave. Usando características tales como el tamaño del tumor y la edad del paciente, el modelo creó un modelo de clasificación para si el paciente sobrevivió o no. El modelo se probó utilizando SVM, ANN y el aprendizaje semi-supervisado (SSL: una combinación de aprendizaje supervisado y no supervisado). Encontró que los SSL eran los más exitosos con una tasa de precisión del 71%.

Otro estudio utilizó los AN para predecir la tasa de supervivencia de los pacientes con cáncer de pulmón. Tenía una tasa de precisión del 83%. Este estudio se considera en gran parte exacto, aunque no tomó en cuenta otros factores relacionados con la muerte, como los coágulos de sangre.

¿Cómo se ve el futuro del pronóstico del cáncer?

La IA está destinada a cambiar la industria médica en el décadas venideras: no tendría sentido que la patología no se interrumpiera también.

En la actualidad, los modelos de ML están todavía en la fase de prueba y experimentación para los pronósticos de cáncer. A medida que los conjuntos de datos son cada vez más grandes y de mayor calidad, los investigadores están construyendo modelos cada vez más precisos.

A continuación se muestra el aspecto que podría tener una futura biopsia de cáncer:
Realiza pruebas clínicas, ya sea en una clínica o en casa. Los datos se ingresan en un sistema patológico de LD. Unos minutos más tarde, recibe un correo electrónico con un informe detallado con una predicción precisa sobre el desarrollo de su cáncer.

Si bien es posible que no vea a Amnistía Internacional haciendo el trabajo de un patólogo hoy, puede esperar que el ML reemplace a sus agentes locales. Patólogo en las próximas décadas, ¡y es bastante emocionante!

Los modelos ML aún tienen un largo camino por recorrer, la mayoría de los modelos aún carecen de datos suficientes y sufren sesgos. Sin embargo, algo de lo que estamos seguros es que ML es el siguiente paso de la patología y interrumpirá la industria.

“Ciertamente habrá interrupciones en el trabajo. Porque lo que va a pasar es que los robots podrán hacer todo mejor que nosotros. … Me refiero a todos nosotros “, – Elon Musk

Conclusiones clave

  • El aprendizaje automático es una rama de la IA que usa numerosas técnicas para completar tareas, mejorando después de cada iteración.
  • Los patólogos son precisos en el diagnóstico de cáncer, pero tienen un índice de precisión de solo 60% al predecir el desarrollo de cáncer.
  • El aprendizaje automático es el siguiente paso para que podamos superar este obstáculo y crear un sistema de patología de alta precisión.

Gracias ¡para leer! Si te ha gustado este artículo:

  • Asegúrate de mostrar apoyo compartiendo
  • Mantente actualizado conmigo a través de Linkedin
  • ¡Sígueme en Medium para más artículos como este!

Dejá un comentario