¿Filosofía y aprendizaje automático?

Un viaje de Sócrates a la IA a través de la ciencia cognitiva

De Sócrates a la ciencia cognitiva

Como Sócrates le pidió a Thrasymachus una definición del concepto de justicia, la filosofía planteó por primera vez una de las preguntas filosóficas más desafiantes: ¿qué es un concepto ? ?

Durante muchos cientos de años, las consultas sobre la naturaleza y estructura de los conceptos llamaron la atención de las mentes más brillantes del mundo; sin embargo, no fue hasta los siglos xvi y xvii cuando esas investigaciones florecieron completamente de la mano de dos tradiciones filosóficas rivales: el empirismo y el racionalismo.

Los empiristas argumentaron que los conceptos son una especie de imágenes o imágenes en la mente. Según este punto de vista, el concepto de perro equivale a una imagen mental o imagen de un perro prototípico.

El concepto de justicia, a su vez, equivale a una combinación de imágenes mentales o imágenes que típicamente asociamos con las cosas y eventos que consideramos justos.

En el lado opuesto, los racionalistas argumentaron que los conceptos no deben entenderse como Imágenes mentales aisladas. Por el contrario, afirmaron que los conceptos son más como nodos interconectados en una red inferencial masiva.

La rivalidad entre empiristas y racionalistas se deriva de un desacuerdo anterior y más fundamental sobre la naturaleza misma del pensamiento y el conocimiento. Para los empiristas, tener un concepto equivale a tener la capacidad de reconocer y clasificar perceptualmente los objetos en virtud de computar mentalmente todas las características perceptivas que tienen dichos objetos.

Por ejemplo, tener el concepto de perro –y, por lo tanto, tener pensamientos y conocimiento acerca de ellos– equivale a tener la capacidad de discriminar a los perros de las cosas que no son perros en función de las características perceptivas que tales objetos tienen típicamente, de ahí su nombre (‘ Empiria significa experiencia en griego antiguo.

Para los racionalistas, en contraste, tener un concepto implica una capacidad cognitiva más exigente, es decir, la capacidad de extraer racionalmente todas las conclusiones que inferencialmente se derivan de él.

Entonces, por ejemplo, tener el concepto de perro –y, por lo tanto, tener pensamientos y conocimientos sobre ellos– implica poder inferir que los perros son mamíferos, que los mamíferos son animales y que los perros son diferentes, que los animales son diferentes de las plantas y también lo son. los perros, que las plantas y los animales son seres vivos y también lo son los perros, etc.

Actualmente, la mayoría de las discusiones sobre conceptos se enmarcan dentro del enfoque de la ciencia cognitiva. Según este enfoque, las mentes son análogas a las computadoras. Por lo tanto, el pensamiento se entiende en términos de cálculos sobre las estructuras representativas en la mente (ver Thagard, 2018).

El enfoque de la ciencia cognitiva heredó muchos conceptos de la filosofía moderna primitiva. De hecho, el empirismo y el racionalismo sentaron las bases de la revolución cognitiva.

Por lo tanto, no es sorprendente que, durante años, muchos científicos cognitivos hayan participado en un largo debate entre dos marcos teóricos rivales: por un lado, el llamado concepto-empirismo, concepto-atomismo, solo de la visión representativa de los conceptos.

Entonces, la llamada semántica del rol conceptual, el inferencialismo o simplemente la visión pragmática de los conceptos (ver Margolis y Laurence, 1999). El primero sostiene que los conceptos son conjuntos de características semánticas basadas en la percepción (imágenes mentales) o algún tipo de palabras mentales de tipo lingüístico.

En ambos casos, los conceptos se conciben como representaciones mentales aisladas. El último, en contraste, argumenta que los conceptos no son representaciones mentales sino conjuntos de capacidades inferenciales. Según este punto de vista. El significado de un concepto radica en sus relaciones inferenciales con muchos otros conceptos.

No hace falta decir que el desacuerdo entre los dos partidos reproduce el mismo desacuerdo entre el empirismo y el racionalismo. Porque, lo que realmente está en juego aquí es un desacuerdo sobre la naturaleza misma de la cognición, i. e., un desacuerdo entre los que piensan que la arquitectura cognitiva completa depende en última instancia de los cálculos sobre conjuntos aislados de características, y los que piensan que el pensamiento es fundamentalmente una cuestión de computación sobre una red masiva de nodos interconectados inferencialmente.

Robert El diagrama de microcosmos de la mente de Fludd, en su obra “Utriusque cosmi maioris scilicet et minoris metaaphysica, physica atqve technica historia” (1619) .

De la ciencia cognitiva al mecanizado

Lo que todo esto tiene que ver con el aprendizaje automático y la IA. Bueno, en realidad hace mucho. Las redes neuronales artificiales son sistemas conexionistas. El conexionismo es un marco dentro de la ciencia cognitiva que apunta a modelar fenómenos mentales completamente en términos de patrones de activación neural. A pesar de separarse de los primeros modelos computacionales de la mente para los cuales el pensamiento es simplemente computar sobre estructuras mentales simbólicas, el modelo conexionista tomó prestadas muchas ideas de la teoría representacional de la mente, incluyendo la visión de los conceptos empiristas (atomistas o simplemente representativos) (ver Fodor & Pylyshyn, 1988).

Entonces, para los conexionistas los conceptos son representaciones de vectores de características. Una representación de vector de entidad es un vector que representa un objeto o clase en particular en un espacio de característica. Así, por ejemplo, el concepto de perro no es más que el vector de actividades de características que representan a la clase ‘perro’.

Aunque el enfoque conexionista de los conceptos ha demostrado Para ser muy poderoso, también tiene sus limitaciones. Los algoritmos actuales de aprendizaje automático son realmente buenos para realizar muchas tareas cognitivas que normalmente asociamos con conceptos como reconocer cosas, encontrar correlaciones, clasificar objetos, memorizar patrones, codificar y recuperar información, etc. Sin embargo, generalmente sentimos que, en gran medida , estos algoritmos no sirven para modelar la cognición humana real. Según lo sugerido por D’Mello et al. (2006):

El aprendizaje automático a menudo requiere conjuntos de entrenamiento grandes y precisos, muestra poca conciencia de lo que se sabe o se desconoce, integra los conocimientos nuevos de forma pobre, aprende solo una tarea a la vez, permite poca transferencia de conocimientos aprendidos a nuevos Tareas … En contraste, el aprendizaje humano ha resuelto muchos de estos problemas, y es típicamente continuo, rápido, eficiente, preciso, robusto, flexible y sin esfuerzo.

Creo que muchas de las limitaciones que enfrentan los algoritmos de aprendizaje automático en este momento son Causado, en parte, por la ausencia de una concepción integrada de la cognición conceptual.

Dirigido por el espíritu del empirista que se encuentra en la parte inferior de la teoría representacional de la mente, que es la posición predeterminada en la ciencia cognitiva.

Los modelos conexionistas (o red neuronal) han prestado demasiada atención a las actividades de vectores de características, dejando lo inferencial. relaciones entre conceptos completamente fuera de la discusión.

Aunque ha habido algunos intentos serios de explicar el conocimiento conceptual en términos de representaciones de gráficos relacionales, se ha hecho muy poco para implementar tales estructuras en redes neuronales.

Afortunadamente, en los últimos años, varios estudios que relacionan la teoría de grafos con redes neuronales han arrojado resultados muy interesantes. Estos estudios vienen en diferentes sabores.

Actualmente, dos de los proyectos más importantes en la materia son Redes Neuronales Relacionales (RNN) (ver Battaglia et al., 2018) y Graph Convolutional Networks (GCNs) (ver Kipf & Welling, 2017). Ambas líneas de investigación son prometedoras, pero aún queda mucho camino por recorrer.

Ilustración de una red de convolución de gráficos de varias capas (GCN). Fuente: “REDES CONVOLUCIONALES GRAFICAS DE THOMAS KIPF”, URL = < https://tkipf.github.io/graph-convolutional-networks/ >

From Machine Learning Back to Philosophy

Cuando se enfrentaron Con dos o más teorías rivales, normalmente sentimos la necesidad de elegir entre una de ellas. Aunque muchas veces esto es lo correcto, no es tan correcto cuando se trata de teorizar sobre la cognición.

La supuesta rivalidad entre los que piensan en los conceptos como representaciones de vectores de características y los que piensan que los conceptos son nodos en un gráfico relacional es engañosa.

En mi opinión, ambas teorías no son rivales pero, de hecho, deben trabajar juntas para alcanzar un modelo más rico y más realista de la cognición humana.

En 1781, Immanuel Kant publicó uno de los libros filosóficos y científicos más notables de la historia. escrito: el “ Kritik der reinen Vernunft ” (KrV). Entre muchas otras cosas, Kant se dio cuenta de que los empiristas y los racionalistas eran correctos e incorrectos al mismo tiempo.

De acuerdo con Kant, el conocimiento conceptual es el resultado de ambas experiencias (o intuiciones en el vocabulario de Kant) y reglas de inferencia (o conceptos en las palabras de Kant) trabajando mano a mano. Ni las intuiciones ni los conceptos por sí mismos pueden llevar a nadie a aprender nada sobre el mundo. Citando una línea muy famosa de Kant Kritik :

Los conceptos sin intuiciones están vacíos. Las intuiciones sin conceptos son ciegas.

Realmente creo que la teoría de la cognición de Kant puede arrojar algo de luz sobre los debates actuales en los campos de la ciencia cognitiva y la inteligencia artificial.

En particular, creo que la cita citada anteriormente puede aplicarse perfectamente al debate entre el enfoque del vector de características y los enfoques inferencialistas de los conceptos.

Para, las redes inferenciales sin representaciones de vectores de características están vacías, y las representaciones de vectores de características sin redes inferenciales están ciegas. Permítanme ampliar más esta idea.

Fuente: < https://medium.com/@rgrydns/kant-how-is-a-synthetic-a-priori-judgment-possible-45af58688600 >. Original de “ Filosofía para principiantes” de Richard Osborne, ilustrado por Ralph Edney (Nueva York: Writers and Readers Publishing, 1992), p. 104.

Como se indicó anteriormente, la gran mayoría de los algoritmos de aprendizaje automático actuales se basan únicamente en vectores de actividades de características. Estos algoritmos se han utilizado en gran medida para reconocer, clasificar y memorizar patrones a partir de lo que se proporciona como entrada.

Sin embargo, para hacerlo deben recibir capacitación con grandes cantidades de datos precisos y, una vez que han aprendido de un conjunto de capacitación, muestran poca capacidad para descubrir e integrar nuevos conocimientos de lo que han aprendido anteriormente.

Parece como si las máquinas fueran cognitivamente ciegas. No pueden evitar reinventar la rueda cada vez que aprenden algo nuevo. Estos son problemas graves.

Ahora, supongamos que lo que una máquina requería para realizar tareas cognitivas complejas solo se estaba computando sobre grandes gráficos relacionales que contenían miles y miles de nodos interconectados de manera inferencial.

Es fácil imaginar cómo sería para una máquina descubrir e integrar nuevos conocimientos a partir de lo que aprendió anteriormente. Solo requiere calcular las conexiones inferenciales apropiadas que se sostienen entre un concepto dado, digamos “perro”, y muchos otros conceptos como “mamífero”, “animal”, etc.

Sin embargo, la máquina aún no habría aprendido nada sobre perros. Para, sin algoritmos de vectores de características que funcionen en el fondo, no podría reconocer, clasificar ni memorizar nada cuando se les proporcione perros reales (imágenes, palabras o cualquier otro) como entradas.

Es cierto que, eventualmente, la máquina aprenderá que los perros son mamíferos, que los mamíferos son animales, que los animales son seres vivos, etc .; pero al mismo tiempo, realmente no habría aprendido nada sobre ninguna de esas cosas. Sus conceptos serían simplemente vacíos.

Wilfrid Sellars (1974), un eminente filósofo estadounidense y defensor prominente de un enfoque neokantiano de la cognición, solía distinguir tres tipos diferentes de respuestas conceptuales:

  1. Respuestas de entrada de concepto: las entradas perceptivas activan respuestas conceptuales discriminatorias / clasificatorias / reconocibles apropiadas.
  2. Respuestas intra-conceptuales: las respuestas conceptuales de entrada activan patrones de inferencia válida con respecto a otros conceptos.
  3. Concepto -exitar respuestas: las respuestas intra-conceptuales desencadenan nuevas respuestas conceptuales discriminatorias / clasificatorias / reconocibles.

De acuerdo con esta imagen, en el nivel de entrada, las entradas se procesan, reconocen y clasifican según los conceptos. Esas respuestas conceptuales provocan, a su vez, respuestas inferenciales con respecto a otros conceptos, muchos de los cuales pueden no haberse procesado en el nivel de entrada.

Finalmente, tales transiciones inferenciales pueden desencadenar nuevas respuestas reconocibles / clasificatorias hacia aquellos conceptos que no se han procesado en el nivel de entrada, lo que permite que los sistemas aprendan cosas nuevas sin estar completamente capacitados en el nivel de entrada.

No hace falta decir que esta entrada es intra. La imagen de salida es una simplificación excesiva de la cognición humana. Algunas respuestas de entrada de conceptos pueden conducir directamente a las respuestas de salida de conceptos.

Las respuestas de salida de concepto pueden funcionar como entradas para nuevas respuestas de entrada de concepto. Las inconsistencias entre la entrada de conceptos y las respuestas de salida de conceptos pueden llevar al sistema cognitivo a cambiar o ajustar los patrones de inferencia entre nodos, etc.

Lo que quiero llamar la atención aquí es el hecho de que la cognición conceptual es un fenómeno complejo que resulta de una muy interacción sutil entre diferentes tipos de respuestas.

Conclusión

Entonces, ¿qué puede enseñar la filosofía al aprendizaje automático? Entre otras cosas, puede enseñarle que no se puede lograr un aprendizaje profundo real sin integrarse en una imagen unificada (a) con representaciones vectoriales de características y (b) redes inferenciales.

La inteligencia artificial y el aprendizaje automático no progresarán mucho en el modelado de la cognición humana hasta que esto se reconozca por completo.

Referencias

Dejá un comentario