Los puntos débiles del conexionismo

J.A. Fodor y Z.W. Pylyshyn,

Connectionism and Cognitive Architecture

Iintroducción

.............

Los sistemas conexionistas son redes de gran número de "unidades", simples pero sumamente conectadas entre sí. Se hacen generalmente ciertos supuestos sobre la unidades y sus conexiones: cada unidad se supone que recibe por sus líneas de entrada una activación con valores reales (excitatoria, inhibitoria, o ambas). Típicamente las unidades hacen poco más que sumar esta activación y cambiar su estado como función (usualmente un umbral) de esa suma. Cada conexión puede modular la activación que trasmite como una función de una propiedad intrínseca (pero modificable) llamada "peso". Entonces, la activación en una línea de entrada es típicamente una cierta función no lineal del estado de activación de sus fuentes. El comportamiento de la red como un todo es una función del estado inicial de activación de las unidades y de los pesos de sus conexiones, los cuales sirven como de una especie de memoria.

...............

El estudio de las máquinas conexionistas ha llevada a un número de notables y no esperados hallazgos; es sorprendente cuánta computación puede hacerse con una red uniforme de elementos simples interconectados. Además, estos modelos tienen una apariencia de plausibilidad neuronal de la que las arquitecturas clásicas a veces se dice que carecen. Tal vez, entonces, una nueva ciencia cognoscitiva basada en redes conexionistas debiera suplantar la ciencia cognoscitiva antigua basada en las computadoras clásicas. Por supuesto esto es una propuesta que debe ser considerada seriamente: si se justifica, implica una redirección de la investigación de grandes proporciones.

...............

Niveles de explicación

Existen dos tradiciones principales en la teorización moderna sobre la mente, una que podemos llamar "representacionista" y otra que podemos llamar "eliminacionista". Los representacionistas mantienen que es esencial postular estados representacionales (o "intensionales" o "semánticos"); de acuerdo con ellos existen estados de la mente que codifican estados del mundo. Los eliminacionistas, por el contrario, piensan que las teorías psicológicas pueden prescindir de nociones semánticas tales como la representación. De acuerdo con ellos, el vocabulario apropiado para la teoría psicológica es neurológica o quizás conductista o sintáctica; en todo caso, no un vocabulario que caracterice los estados mentales en términos de lo que representan....

Los conexionistas están del lado de los representacionistas en esta cuestión.

...............

A veces, sin embargo, los conexionistas parecen vacilar entre el representacionismo y la tesis de que el "nivel cognoscitivo" puede ceder en favor de un nivel teórico más preciso y motivado biológicamente. En particular, se habla mucho en la literatura conexionista sobre procesos que son "subsimbólicos" –y por ello presumiblemente no representacionales–. Pero esto es desorientador: el modelaje conexionista es consistentemente representacionista en la práctica, y el representacionismo es endosado por los mismos teóricos que también gustan de la idea de una cognición "emergente de lo subsimbólico" NOTA 1....

La naturaleza de la disputa

Los simbolistas y los conexionistas asignan ambos contenido semántico a algo. En líneas generales, los conexionistas asignan contenido semántico a los "nodos" (unidades o agregados de unidades) –a saber, a la suerte de cosas que típicamente reciben una etiqueta en los diagramas conexionistas–; mientras que los simbolistas asignan contenido semántico a las expresiones –es decir, a la suerte de cosas que se escriben en cintas en las máquinas de Turing NOTA 2 y se guardan en direcciones de memoria en las máquinas de Von Neumann NOTA 3–. Pero las teorías simbolistas no están de acuerdo con las teorías conexionistas sobre qué relaciones primitivas existan entre estas entidades que soportan contenido....

Subyacente a este desacuerdo ... tenemos dos diferencias arquitecturales entre las teorías:

Tomamos a (1) y (2) como las tesis que definen los modelos simbólicos y las tomamos literalmente; ellas constriñen la realización física de las estructuras simbólicas. En particular, las estructuras simbólicas de un modelo clásico se suponen estar en correspondencia con una estructura física en el cerebro y la estructura combinatoria de una representación se supone que tiene una contraparte en relaciones estructurales entre propiedades físicas del cerebro. Por ejemplo, la relación "parte de", que rige entre un símbolo relativamente simple y uno más complejo, se supone que corresponde a una relación física entre estados cerebrales. Por esto es que Newell denomina a sistemas computacionales como el cerebro y las computadoras clásicas "sistemas de símbolos físicos" NOTA 4.

Esto merece ser enfatizado porque la teoría clásica está comprometida no solamente con que haya un sistema de símbolos ejemplificados físicamente, sino también con la tesis de que las propiedades físicas sobre las cuales la estructura de los símbolos se mapea son las propiedades mismas que causan que el sistema se comporte como lo hace. En otras palabras, las contrapartes físicas de los símbolos y sus propiedades estructurales causan el comportamiento del sistema....

[Por lo demás] la arquitectura clásica es neutral sobre la cuestión de si las operaciones sobre los símbolos están constreñidas para ocurrir una después de otra o por el contrario pueden ocurrir en paralelo.

...............

El papel de las etiquetas en las teorías conexionistas

...............

Es importante comprender la diferencia entre las etiquetas conexionistas y los símbolos sobre los cuales se definen las computaciones clásicas. La diferencia es esta: estrictamente hablando, las etiquetas no juegan ningún papel en determinar las operaciones de una máquina conexionista; en particular, la operación de las máquinas queda inafectada por las relaciones sintácticas y semánticas que rijan entre las expresiones usadas como etiquetas. En otras palabras, las etiquetas de nodo en una máquina conexionista no son parte de la estructura causal de la máquina.... En cambio, por contraste, las transiciones de estado de las máquinas clásicas están determinadas causalmente por la estructura –incluyendo la estructura de los constituyentes– de los arreglos de símbolos que la máquina transforma: cámbiense los símbolos y el sistema se comporta de manera diferente.... Así pues, aunque tanto las etiquetas conexionistas como las estructuras de datos clásicas constituyen lenguajes, solo el lenguaje de las segundas constituye un medio de computación.

Las redes conexionistas y las estructuras de grafos

[Una] razón por la cual la falta de estructura sintáctica y semántica de las representaciones conexionistas ha sido normalmente pasada por alto puede ser porque las redes conexionistas se suelen presentar como grafos generales; y es, por supuesto, perfectamente posible usar grafos para describir la estructura interna de un símbolo complejo. Eso es precisamente lo que los lingüistas hacen cuando emplean "árboles" para exhibir la estructura constitutiva de las oraciones. Correspondientemente, uno puede imaginar una notación de grafos para expresar la estructura interna de las representaciones mentales, usando arcos y nodos etiquetados. Así por ejemplo, podemos expresar la sintaxis de la representación mental que corresponde al pensamiento de que Juan ama a la chica en la siguiente forma:

Bajo la interpretación que se busca, esta sería la descripción estructural de una representación mental cuyo contenido fuera que Juan ama a la chica y cuyos constituyentes serían: una representación mental que se refiera a Juan, una representación mental que se refiera a la chica, y una representación mental que exprese la relación diádica representada por ama .

Pero aunque los grafos pueden sustentar una interpretación que especifique la sintaxis lógica de una representación mental compleja, esta interpretación es inapropiada para los grafos de las redes conexionistas. Los grafos conexionistas no son descripciones estructurales de representaciones mentales: son especificaciones de relaciones causales. Todo lo que un conexionista quiere decir por un grafo de la forma X Y es: los estados del nodo X afectan causalmente los estados del nodo Y. En particular, el grafo no puede significar X es un constituyente de Y o X está gramaticalmente relacionado con Y, etc., puesto que esta suerte de relaciones no están, en general, definidas para las clases de representaciones mentales que los conexionistas reconocen.

...............

Representaciones distribuidas

[Otro factor] que puede llevar a pasar por alto que las representaciones mentales en los modelos conexionistas carecen de estructura sintáctica y semántica combinatorias es el hecho de que muchos conexionistas ven las representaciones como neurológicamente distribuidas; y presumiblemente lo distribuido debe tener partes. No se sigue, sin embargo, que lo distribuido deba tener constituyentes; estar neurológicamente distribuido es muy diferente de tener estructura constitutiva semántica o sintáctica.

Tenemos estructura constitutiva cuando (y solo cuando) las partes de entidades semánticamente evaluables son ellas mismas semánticamente evaluables. Las relaciones constitutivas, entonces, rigen entre objetos todos los cuales existen en el nivel representacional; existen, en ese sentido, dentro de las relaciones de nivel. En contraste, la distributividad neuronal –la suerte de relación que suponemos rige entre los "nodos" y las "unidades" por medio de las cuales estos se realizan– es una relación entre niveles: los nodos, pero no las unidades, cuentan como representaciones. Pretender que un nodo está neurológicamente distribuido es presumiblemente pretender que sus estados de activación corresponden a patrones de actividad neuronal –a agregados de "unidades" neuronales– en vez de a activaciones de neuronas singulares. El punto importante es que los nodos distribuidos en este sentido pueden perfectamente bien ser sintáctica y semánticamente atómicos: por más compleja que sea, una realización espacialmente distribuida no implica necesariamente una estructura constitutiva.

...............

Representaciones de microaspectos

...............

Uno de los infortunios de la literatura conexionista es que la cuestión sobre si los conceptos de sentido común deberían ser representados por conjuntos de microaspectos se ha enredado con la cuestión sobre la estructura combinatoria de las representaciones mentales. La médula de la confusión es el hecho de que los conjuntos de microaspectos pueden traslaparse, de modo que, por ejemplo, si un microaspecto correspondiente a "* tiene-asa" es parte de un arreglo de nodos sobre los cuales se distribuye el concepto de sentido común TAZA, entonces podemos considerar que la teoría representa "* tiene-asa" como un constituyente del concepto TAZA; de lo cual podríamos concluir que los conexionistas tienen, después de todo, una noción de constitución, contrariamente de que el conexionismo no es una arquitectura de lenguaje del pensamiento.

Un momento de consideración hará claro que, sin embargo, incluso bajo la suposición de que los conceptos estén distribuidos sobre microaspectos, "* tiene-asa" no es un constituyente de TAZA ni lejanamente en el sentido en que "María" (la palabra) es un constituyente de (la oración) "Juan ama a María". En el primer caso, "constituyente" se (mal) emplea para referirse a una relación semántica entre predicados: en términos generales, la idea es que los predicados del macronivel como TAZA están definidos por conjuntos de microaspectos como "* tiene-asa", de modo que es en cierto modo una verdad semántica que TAZA se aplica a un subconjunto de aquello a lo que "* tiene-asa" se aplica. Nótese que mientras las extensiones de estos predicados están en una relación de conjunto/subconjunto, los predicados mismos no están en ninguna clase de relación parte-a-todo. La expresión "tiene-asa" es tan parte de la expresión TAZA como la frase "es hombre no casado" es parte de la frase "es soltero".

La constitución real tiene que ver con partes y todos; el símbolo "María" es literalmente parte del símbolo "Juan ama a María". Es porque los símbolos entran en relaciones de constitución real que los lenguajes naturales tienen tanto símbolos atómicos como complejos. Por contraste, la relación de definición puede mantenerse en un lenguaje donde todos los símbolos son sintácticamente atómicos.... La cuestión de si un sistema representacional tiene constitución real es independiente de la cuestión del análisis en microaspectos; surge tanto para sistemas en los cuales TAZA sea semánticamente primitiva como para sistemas en los cuales las primitivas semánticas sean cosas como "* tiene-asa" y TAZA y sus similares sean definidos en esos términos primitivos. Es verdaderamente muy importante no confundir la distinción semántica entre expresiones primitivas y expresiones definidas con la distinción sintáctica entre símbolos atómicos y símbolos complejos.

...............

Operaciones sensibles a la estructura

...............

El tratamiento clásico de los procesos mentales descansa en dos ideas, cada una de las cuales corresponde a un aspecto de la teoría clásica de la computación. Juntas explican por qué la visión clásica postula por lo menos tres distintos niveles de organización en los sistemas computacionales: no solamente un nivel físico y un nivel semántico (o de "conocimiento"), pero también un nivel sintáctico.

La primera idea es que es posible construir lenguajes en los cuales ciertos aspectos de las estructuras sintácticas de las fórmulas correspondan sistemáticamente a ciertos de sus aspectos semánticos. Intuitivamente, la idea es que en tales lenguajes la sintaxis de una fórmula codifica su significado; más especialmente, aquellos aspectos de su significado que determinan su papel en la inferencia. Todos los lenguajes artificiales usados para la lógica poseen esta propiedad, y el lenguaje natural la posee más o menos. Los simbolistas creemos que es una propiedad crucial del lenguaje del pensamiento.

Un ejemplo simple de cómo un lenguaje puede usar estructura sintáctica para codificar roles inferenciales y relaciones entre significados puede ayudar a ilustrar el punto. Así, consideremos la relación entre los siguientes enunciados:

Por un lado, desde el punto de vista semántico, (1) implica (2) (y en consecuencia, por supuesto, las inferencias de (1) a (2) preservan el valor de verdad). Por otro lado, desde el punto de vista sintáctico, (2) es un constituyente de (1). Estos dos hechos pueden ser puestos en fase explotando el principio de que los enunciados con una estructura sintáctica "(S1 y S2)" implican a sus enunciados constituyentes. Nótese que este principio conecta la sintaxis de estos dos enunciados con sus roles inferenciales. Nótese también que el truco está en hechos sobre la gramática del lenguaje natural [español o inglés]; no funcionaría en un lenguaje donde la fórmula que expresara el contenido conjuntivo Juan fue a la tienda y María fue a la tienda fuera sintácticamente atómica.

...............

La segunda idea que subyace al tratamiento simbólico de los procesos mentales es que es posible diseñar máquinas cuya función sea la transformación de símbolos y cuyas operaciones sean sensibles a la estructura sintáctica de los símbolos sobre los que opere. Esta es la concepción clásica de una computadora: es lo que varias arquitecturas que derivan de las máquinas de Turing y Von Neumann tienen en común.

Quizás es obvio cómo las dos "ideas principales" se relacionan entre sí. Si, en principio, las relaciones sintácticas se pueden poner en paralelo con las relaciones semánticas y si, en principio, podemos tener un mecanismo cuyas operaciones sobre fórmulas sean sensibles a su sintaxis, entonces puede ser posible construir una máquina conducida sintácticamente cuyas transiciones de estado satisfagan criterios semánticos de coherencia. Tal máquina sería justamente lo que se requiere para un modelo mecánico de la coherencia semántica del pensamiento; correspondientemente, la idea de que el cerebro es tal máquina es una hipótesis fundacional de la ciencia cognoscitiva clásica.

Baste esto en relación con el punto de vista clásico de los procesos mentales. El punto de vista conexionista tiene, por supuesto, que ser muy diferente: puesto que los conexionistas evitan postular representaciones mentales con estructura sintáctica/semántica combinatoria, están impedidos de postular procesos mentales que operen sobre representaciones mentales de una manera sensible a su estructura....

...............

Resumiendo: las teorías simbólica y conexionista se oponen sobre la naturaleza de las representaciones mentales; para la primera, pero no para la segunda, las representaciones mentales exhiben característicamente una estructura constitutiva combinatoria y una semántica combinatoria. Las teorías simbólica y conexionista también discrepan sobre la naturaleza de los procesos mentales; para la primera, pero no para la segunda, los procesos mentales son característicamente sensibles a la estructura combinatoria de las representaciones sobre las cuales operan.

Tomamos estas dos cuestiones como las que definen la actual disputa sobre la naturaleza de la arquitectura cognoscitiva. Nuestra argumentación va en el sentido de demostrar que los conexionistas están en el lado equivocado de ambas contiendas.

Productividad, composicionalidad y coherencia inferencial

Las teorías psicológicas clásicas apelan a la estructura constitutiva de las representaciones mentales para explicar tres aspectos cercanamente relacionados de la cognición: su productividad, su composicionalidad y su coherencia inferencial. El argumento tradicional ha sido que estos aspectos de la cognición son, por un lado, omnipresentes y, por el otro, explicables solo sobre el supuesto de que las representaciones mentales tienen estructura interna....

Productividad del pensamiento

Existe un argumento clásico ... en favor de la existencia de una estructura combinatoria en cualquier sistema representacional rico (incluyendo los lenguajes naturales y el lenguaje del pensamiento). Las capacidades representativas de un tal sistema son por hipótesis ilimitadas bajo la idealización apropiada: en particular, existen indefinidamente muchas proposiciones que el sistema puede codificar. Sin embargo, este ilimitado poder expresivo debe ser alcanzado por medios finitos. La manera de hacer esto es tratar el sistema de representaciones como expresiones que pertenecen a un conjunto generado NOTA 5. Más precisamente, la correspondencia entre una representación y la proposición que expresa, en un número arbitrariamente grande de casos, se construye recursivamente con base en correspondencias entre partes de la expresión y partes de la proposición. Pero, desde luego, esta estrategia solo puede operar cuando un ilimitado número de expresiones son no atómicas. Por ello las representaciones lingüísticas (y mentales) deben constituir sistemas de símbolos NOTA 6. Así pues, la mente no puede ser un sistema conexionista.

...............

Chomsky ha pretendido (a nuestro modo de ver muy convincentemente) que el conocimiento que subyace en la competencia lingüística es generativo –es decir, nos permite en principio generar (o entender) un número ilimitado de oraciones–. De más está advertir que uno no podría de hecho emitir o comprender expresiones de más de un número finito de oraciones tipo: esto es una consecuencia trivial del hecho de que nadie puede emitir o comprender más que un número finito de elementos lingüísticos. Pero hay un número de consideraciones que sugieren que, a pesar de esos constreñimientos de facto en nuestro rendimiento, el conocimiento que tenemos del lenguaje apoya una capacidad productiva ilimitada, de la misma manera que nuestro conocimiento aritmético apoya la producción de un número ilimitado de sumas o restas....

Las teorías simbólicas pueden acomodar estas consideraciones porque suponen arquitecturas en las cuales existe una distinción funcional entre memoria y programa. En un sistema como una máquina Turing, donde el largo de la cinta no se fija de antemano, se pueden efectuar cambios en la disponibilidad de memoria sin cambiar la estructura computacional de la máquina; por ejemplo, poniéndole más cinta. Por el contrario, en un autómata de estado finito o una máquina conexionista, agregar memoria (por ejemplo, añadiendo unidades a la red) altera las relaciones de conectividad entre los nodos y así afecta ciertamente la estructura computacional de la máquina. Las arquitecturas cognoscitivas conexionistas no pueden, por su propia naturaleza, apoyar una memoria expandible, y en consecuencia no pueden apoyar capacidades cognoscitivas productivas.... De ahí que, definitivamente, la arquitectura de la mente no puede ser conexionista....

...............

Composicionalidad de las representaciones

La habilidad para producir/comprender ciertas oraciones está intrínsecamente conectada con la habilidad de producir/comprender ciertas otras.... Cuáles oraciones estén sistemáticamente relacionadas no es arbitrario, desde un punto de vista semántico. Por ejemplo, ser capaz de entender "Juan ama a la chica" va de la mano de entender "la chica ama a Juan", y existen relaciones semánticas correspondientemente cercanas entre estos enunciados: a fin de que la primera sea verdad, Juan debe mantener con la chica la misma clase de relación que la verdad de la segunda requiere que la chica mantenga con Juan. Al contrario, no hay conexión intrínseca entre entender cualquiera de las dos oraciones y entender fórmulas semánticamente no relacionadas con ellas, como "los quarks están hechos de gluones" o "el gato está sobre el petate" o "2+2=4"....

...............

Tenemos que suponer algún grado de composicionalidad en las oraciones de lenguaje natural para dar cuenta del hecho de que oraciones sistemáticamente relacionadas están siempre semánticamente relacionadas; y dar cuenta de ciertos paralelismos regulares entre la estructura sintáctica de las oraciones y sus implicaciones. Así, más allá de cualquier duda seria, las oraciones del lenguaje natural deben ser composicionales en grado importante....

...............

Las representaciones mentales deben tener estructura interna, tanto como las oraciones. En particular, las representaciones mentales que corresponden al pensamiento de que Juan ama a la chica contienen, como sus partes, los mismos constituyentes que la representación mental que corresponde al pensamiento de que la chica ama a Juan.... Por esta cadena de argumentación puede llegarse a que la composicionalidad de las oraciones es prueba de la composicionalidad de los estados representativos de los hablantes/escuchantes.

...............

La coherencia de la inferencia

Es un principio lógico que las conjunciones implican sus constituyentes (y entonces el argumento de P&Q a P y a Q es válido). Correspondientemente, es una ley psicológica que los pensamientos de que P&Q tienden a causar los pensamientos de que P y los pensamientos de que Q, si todo lo demás permanece igual. La teoría clásica explota la estructura constitutiva de las representaciones mentales para dar cuenta de estos dos hechos, el primero suponiendo que la semántica combinatoria de las representaciones mentales es sensible a su sintaxis, y la segunda suponiendo que los procesos mentales se aplican a representaciones mentales en virtud de su estructura constitutiva.

Una consecuencia de estos supuestos es que las teorías clásicas se comprometen con la siguiente aventurada predicción: las inferencias de tipo lógico similar deben, con gran generalidad, ocasionar correspondientemente similares capacidades cognoscitivas. No deberíamos, por ejemplo, poder encontrar una clase de vida mental en la cual tuviéramos inferencias de P&Q&R hacia P pero no inferencias de P&Q a P. Esto es así porque, de acuerdo con la explicación simbólica, esta clase homogénea de inferencias es realizada por una clase correspondientemente homogénea de mecanismos físicos....

...............

Las arquitecturas conexionistas ... no reconocen ninguna noción de sintaxis de acuerdo con la cual los pensamientos similares en rol inferencial (por ejemplo, pensamientos que son todos casos de simplificación de la conjunción) se expresen por representaciones mentales de forma sintáctica parecida (por ejemplo, por representaciones mentales que sean todas sintácticamente conjuntivas). Así, la arquitectura conexionista tolera lagunas en las capacidades cognoscitivas; y no tiene mecanismo para imponer el requisito de que inferencias lógicamente homogéneas deban ser ejecutadas por procesos computacionales correspondientemente homogéneos.

...............

Lo que hay de profundamente equivocado en la arquitectura conexionista es esto: como no reconoce en las representaciones mentales ni estructura sintáctica ni semántica, por fuerza debe tratarlas no como conjuntos generativos sino como listas. Pero las listas, en cuanto tales, no tienen estructura: cualquier colección de ítemes es una lista posible. Y correspondientemente, sobre principios conexionistas, cualquier colección de estados representacionales (causalmente conectados) es una mente posible. Así, por lo que a la arquitectura conexionista respecta, no hay nada que impida que las mentes sean arbitrariamente asistemáticas. Pero este resultado es ridículo. Las capacidades cognoscitivas vienen en racimos estructuralmente relacionados; su sistematismo es omnipresente. Toda la evidencia que poseemos sugiere que no pueden existir mentes puntuales....

...............


NOTA 1 Confróntese el artículo de Rumelhart y McClelland en esta colección. Nota del editor.


NOTA 2 Véase el artículo sobre máquinas de Turing en esta colección. Nota del editor.


NOTA 3 Las computadoras digitales. Nota del editor.


NOTA 4 Confróntese el artículo de Newell y Simon en esta colección, especialmente la nota de pie de página número 1. Aquí Fodor y Pylyshyn usan la expresión inglesa –gramaticalmente incorrecta– physical symbols systems, probablemente para eliminar la interpretación según la cual el sistema y no los símbolos sería físico (la expresión inglesa correcta para dar esta idea debió haber sido physical-symbol systems). Nota del editor.


NOTA 5 Podemos definir, de manera intuitiva, un conjunto generado como una colección de ítemes que se establece no por enumeración sino enunciando una regla cuya aplicación puede generar miembros del conjunto, uno por uno, tantas veces como se quiera. Nota del editor.


NOTA 6 En el sentido del artículo de Newell y Simon de esta colección. Nota del editor.