
Somos naturalmente optimistas sobre el proceso paralelo distribuido
[PPD] como un valioso marco para crear modelos cognoscitivos. Esto no significa,
sin embargo, que no haya problemas muy duros que resolver. En verdad, hemos
gastado mucho esfuerzo convenciéndonos a nosotros mismos que los
modelos PPD podrían formar una base razonable para modelar los procesos
cognoscitivos en general.... Sin embargo, queremos decir desde el comienzo
que no creemos que ninguna consideración general tenga por sí
mucho peso: el movimiento se demuestra andando. Si los modelos PPD son
un modo valioso de proceder, su utilidad será probada por los insights
que brinden en las áreas substantivas particulares a que sean aplicados....
Tales máquinas consisten de lo que se llama generalmente una retina, arreglo de entradas binarias que se consideran ordenadas en un espacio bidimensional; un conjunto de predicados, colección de unidades de umbral binarias con conexiones fijas a un subconjunto de unidades en la retina tales que cada predicado computa alguna función local sobre el subconjunto de unidades al cual está conectado; y una o más unidades de decisión, con conexiones modificables a los predicados. Esta máquina tiene solo un estrato de conexiones modificables; por esta razón la llamamos perceptrón de un estrato.
Minsky y Papert se propusieron demostrar cuáles funciones pueden y cuáles no pueden ser computadas por esta clase de máquinas. Demostraron, en particular, que tales perceptrones son incapaces de calcular funciones matemáticas como la paridad (si un número par o impar de puntos está en la retina) o la función topológica de conectividad (si todos los puntos encendidos están conectados a todos los otros puntos encendidos, bien directamente o por medio de otros puntos encendidos) sin hacer uso de un número absurdamente grande de predicados. El análisis es elegante al extremo y demuestra la importancia del enfoque matemático para analizar sistemas computacionales.
El análisis de Minsky y Papert de las limitaciones del perceptrón de un estrato, en conjunto con algunos éxitos tempranos del enfoque de procesamiento simbólico en inteligencia artificial, fue suficiente para sugerir a un considerable número de trabajadores de este campo que no había futuro para los artificios del tipo del perceptrón en inteligencia artificial y psicología cognoscitiva. El problema es que aunque Minsky y Papert estaban perfectamente en lo correcto en sus análisis, los resultados se aplicaban solo a estos simples perceptrones de un solo estrato y no a la clase más amplia de modelos parecidos a los perceptrones. En particular (como Minsky y Papert ya lo han reconocido) puede mostrarse que un sistema tipo perceptrón con múltiples estratos, que incluya varias capas de predicados entre la retina y el estadio de decisión, puede computar funciones tales como la paridad, usando un número razonable de unidades, cada una capaz de computar un predicado muy local.... Igualmente, no es difícil desarrollar redes capaces de resolver el problema de la conectividad. Hinton y Sejnowsky han analizado una versión de tal red.
..................
Estamos investigando una arquitectura en la cual la computación cooperativa y el paralelismo son naturales. Los sistemas simbólicos seriales tales como los favorecidos por Minsky y Papert tienen un dominio natural de algoritmos que difiere de los de los modelos PPD. No todo puede ser hecho en un solo paso sin retroalimentación o estratificación (y ambas cosas sugieren cierta clase de "serialidad"). Hemos considerado modelos que poseen ambas características. El punto real es que buscamos algoritmos que sean lo más paralelos posibles. Creemos que tales algoritmos serán más cercanos en forma a los algoritmos que pueden ser empleados por la maquinaria del cerebro y que la clase de paralelismo que empleamos permite la explotación de fuentes múltiples de información y de computación cooperativa en una forma natural.
Un argumento presentado por Minsky y Papert contra los modelos tipo perceptrón con unidades ocultas era que no había indicación de cómo tales redes podrían ser adiestradas. Uno de los atractivos del perceptrón de un estrato es la existencia de un poderoso procedimiento de aprendizaje, el procedimiento de convergencia de Rosenblatt. En el tiempo de Minsky y Papert no había tal procedimiento poderoso para los sistemas más complejos de múltiples estratos. Esto ya no es cierto hoy.... [Existe] una generalización directa del procedimiento de aprendizaje del perceptrón que puede aplicarse a redes arbitrarias con estratos múltiples y retroalimentación entre estratos. Este procedimiento puede, en principio, aprender funciones arbitrarias, incluyendo, por supuesto, las de paridad y conectividad.
...................
Tal vez el punto específico esgrimido más comúnmente contra los modelos PPD ... es la sugerencia frecuente de que los mecanismos PPD carecen de la capacidad de realizar computaciones recursivas y por lo tanto son simplemente incapaces de proveer mecanismos para procesar frases y otras estructuras definidas recursivamente.
Como antes, estas sugerencias son simplemente incorrectas. Se puede hacer una máquina computacional arbitraria a partir de unidades con umbrales, incluyendo por ejemplo una máquina que lleve a efecto las operaciones necesarias para implantar una máquina Turing; la limitación aquí es que los sistemas biológicos reales no pueden ser máquinas Turing porque tienen un hardware finito....
No hemos insistido en implantaciones PPD de máquinas Turing y motores recursivos porque no estamos de acuerdo con quienes arguyen que tales capacidades son de la esencia de la computación humana. Como cualquiera que ha intentado procesar frases como "el hombre que el niño que la muchacha golpeó besó se movió" puede atestiguar, nuestra habilidad para procesar estructuras incluso moderadamente anidadas hacia el centro es gruesamente incompetente comparada con un analizador [formal o mecánico]. Y sin embargo, la habilidad humana para usar información contextual semántica y pragmática que facilita la comprensión excede enormemente la de cualquier máquina procesadora de frases que conozcamos.
Lo que se necesita, entonces, no es un mecanismo para procesamiento de construcciones anidadas centralmente que sea impecable y sin esfuerzo. Los compiladores de los lenguajes de computación proveen generalmente tales capacidades, y son poderosas herramientas, pero no han demostrado suficiencia para procesar el lenguaje natural. Lo que se necesita, en cambio, es un analizador construido de la misma clase de mecanismo que facilita la consideración simultánea de un gran número de constreñimientos mutuos e interdependientes. El reto es mostrar cómo esos procesos, que otros han escogido para explicar en términos de mecanismos recursivos, pueden ser mejor explicados por la clase de procesos que son connaturales a las redes PPD.
..................
No pretendemos haber solucionado estos problemas. Nuestros modelos existentes
tienen limitaciones y queda mucho por hacerse. Nuestras exploraciones no
han más que comenzado. La cuestión no es si el trabajo está
terminado –ningún marco computacional puede pretender mucho en este
respecto–. La cuestión es más bien: ¿puede hacerse
más progreso por ulterior exploración de la perspectiva PPD
en la microestructura de la cognición? El descubrimiento de reglas
de aprendizaje de múltiples estratos, el uso de conexiones multiplicativas
para implantar transformaciones de patrones de entrada, la distribución
de información sobre conexiones y una hueste de otros desarrollos
... nos indican que la respuesta a esta pregunta debe ser "sí".
Algunos han visto nuestros argumentos contra las reglas explícitas como un argumento contra el enfoque cognoscitivo en psicología. No estamos de acuerdo. Creemos que estudiamos los mecanismos de la cognición. La aplicación de una regla ... no es ni más ni menos cognoscitiva que la activación de nuestras unidades. El carácter real de la ciencia cognoscitiva es el intento de explicar los fenómenos mentales por medio de la comprensión de los mecanismos que subyacen en esos fenómenos.
Una pretensión relacionada que algunas personas han hecho es
que nuestros modelos parecen compartir mucho con las versiones conductistas
del comportamiento. Aunque ellos implican mecanismos simples de aprendizaje,
existe una diferencia crucial entre nuestros modelos y el conductismo radical
de Skinner y sus seguidores. En nuestros modelos nos preocupamos explícitamente
por el problema de la representación interna y de los procesos mentales,
mientras que el conductismo radical niega explícitamente la utilidad
científica e incluso la validez de la consideración de esas
construcciones. El adiestramiento de unidades ocultas ... es la construcción
de representaciones internas.... En ese sentido, nuestros modelos deben
considerarse totalmente antitéticos de los del programa conductista
radical....
El problema de los niveles de análisis en relación con la teorización es difícil y requiere mucho pensamiento cuidadoso. Es, creamos, en gran medida cuestión de buen criterio científico cuáles aspectos de un nivel inferior de análisis son atinentes para un nivel más alto....
David Marr (1982) ha producido un análisis muy influyente del asunto de los niveles en la ciencia cognoscitiva. Aunque no estamos seguros de estar de acuerdo enteramente con el análisis de Marr, es reflexivo y puede servir de punto de partida.... Propone tres niveles: el computacional, el algorítmico y el mecánico. Creemos que los modelos PPD están generalmente en el nivel algorítmico y se dirigen primordialmente a especificar la representación de la información y los procesos o procedimientos implicados en la cognición....
..................
Como psicólogos estamos comprometidos a elucidar el nivel algorítmico. No nos oponemos al enfoque de arriba para abajo de Marr como una estrategia que lleve al descubrimiento de algoritmos cognoscitivos, aunque hayamos procedido de otra manera. Enfatizamos la perspectiva de que los distintos niveles de descripción se interrelacionan. Claramente, los algoritmos deben, por lo menos en líneas generales, computar la función especificada en el nivel computacional. Con igual claridad, los algoritmos deben ser computables en cantidades de tiempo conmensuradas con la efectividad humana, usando la clase y cantidad de hardware que los humanos puedan razonablemente presumir que poseen. Por ejemplo, un algoritmo que requiriese almacenar separadamente más eventos específicos que las sinapsis que hay en el cerebro debería recibir una calificación muy inferior que aquellos que requieren menos almacenamiento. Similarmente, en el dominio del tiempo, aquellos algoritmos que requiriesen más de un paso serial cada milisegundo serían muy malos candidatos para ser implantados en el cerebro....
En breve, la pretensión de que nuestros modelos se dirigen a un nivel de descripción fundamentalmente diferente que los modelos psicológicos se basa en el fracaso del reconocimiento de cuál sea el nivel primario de descripción al cual se dirige la teorización psicológica. En ese nivel nuestros modelos deben considerarse competidores de otros modelos como medios de explicar los datos psicológicos.
..................
Imaginemos un sistema computacional que tuviera como una primitiva "Relájese en un estado que represente una interpretación global óptima de los datos de entrada". Esto sería, desde luego, un lugar extremadamente poderoso donde comenzar a construir nuestra teoría de computaciones de alto nivel. Primitivas relacionadas serían cosas como "Recobre la representación en memoria que mejor se adecúe con los datos de entrada, agregándole los detalles que falten con material de la traza de memoria original" y "Construya una configuración dinámica de estructuras cognoscitivas que capture la situación presente, con las variables ejemplificadas adecuadamente". Esta clase de primitivas serían impensables en la mayoría de los enfoques tradicionales de alto nivel, pero serían los tipos de propiedades emergentes que los mecanismos PPD nos den, y parece muy probable que la disponibilidad de dichas primitivas cambiará la forma de la teoría de alto nivel considerablemente.
..................
Los lenguajes de alto nivel a menudo preservan algo del carácter de los mecanismos de nivel inferior que los implantan y los recursos y requisitos de tiempo de los algoritmos dependen drásticamente de la naturaleza del hardware subyacente. Todavía no tenemos lenguajes de alto nivel que preserven el carácter de los mecanismos PPD y que exploten los algoritmos que sean descripciones efectivas de redes paralelas, pero esperamos tales cosas para el futuro. Esto sería un desarrollo muy bien recibido, pues algunos aspectos de la teoría cognoscitiva han sido demasiado fuertemente influenciados por los algoritmos discretos y secuenciales disponibles para la expresión en la mayor parte de los lenguajes de alto nivel existentes.
Conforme miramos de cerca tanto el hardware en el cual se implantan
los algoritmos cognoscitivos como la estructura fina del comportamiento
que estos algoritmos están diseñados para capturar, comenzamos
a percibir por qué sería apropiado formular modelos más
cercanos de la microestructura de la cognición....
No clasificamos nuestra empresa como reduccionista sino más bien como interaccional. Comprendemos que nuevos y útiles conceptos emergen en diferentes niveles de organización. Estamos simplemente tratando de entender la esencia de la cognición como una propiedad emergente de las interacciones de unidades conectadas en red.
Ciertamente creemos en fenómenos emergentes, en el sentido de fenómenos que nunca podrían ser comprendidos o predichos por un estudio de los elementos de menor nivel en aislamiento. Estos fenómenos son funciones de las clases particulares de agrupaciones de las unidades elementales. En general, un vocabulario es útil para hablar de fenómenos agregados más bien que de las características de elementos aislados. Este es el caso en muchos campos. Por ejemplo, no podemos conocer sobre diamantes por el estudio de átomos aislados; no podemos entender la naturaleza de sistemas sociales por el estudio de individuos aislados; y no podemos entender el comportamiento de redes de neuronas por el estudio de neuronas aisladas. Aspectos como la dureza del diamante se entienden por la interacción de los átomos de carbono y la manera en que están alineados. El todo es diferente que la suma de las partes. Existen interacciones no lineales entre las partes. Esto no sugiere, sin embargo, que la naturaleza de los elementos de nivel inferior sea inatinente al nivel superior de organización –al contrario, el nivel superior es, creemos, entendible primordialmente por medio del estudio de las interacciones entre las unidades de nivel inferior–. Las maneras en que las unidades interactúan no son predecibles desde los elementos del nivel inferior como entidades aisladas. Son, sin embargo, predecibles si parte de nuestro estudio involucra las interacciones entre estas unidades de inferior nivel. Podemos entender por qué los diamantes son duros, no como un hecho aislado, sino porque entendemos cómo los átomos de carbón pueden alinearse para formar un retículo perfecto. Esto es un aspecto del agregado, no del átomo individual, pero los aspectos del átomo son necesarios para comprender el comportamiento agregado. Hasta que lo comprendemos, nos quedamos con el enunciado insatisfactorio de que los diamantes son duros, punto. Un hecho útil, pero no una explicación. Similarmente, en el nivel social, las organizaciones sociales no pueden ser comprendidas sin comprender los individuos que componen la organización. Saber sobre los individuos nos dice poco sobre la estructura de la organización, pero no podemos comprender la estructura de las organizaciones de nivel superior sin conocer un buen poco acerca de los individuos y cómo ellos funcionan. Este es el sentido de emergencia con que nos sentimos cómodos. Creemos que es del todo congruente con el punto de vista PPD de la cognición.
Existe una segunda razón, más práctica, para desechar
el reduccionismo radical como estrategia investigativa. No tiene nada que
ver con la emergencia; tiene que ver con el hecho de que no podemos conocer
todo y averiguar sobre todo al mismo tiempo. El enfoque por el que hemos
estado arguyendo sugiere que entender algo completamente en algún
nivel requiere conocimiento en ese nivel más conocimiento de los
niveles inferiores. Obviamente, esto es impráctico. En la práctica,
aunque pueda haber efectos de los niveles inferiores en los superiores,
no siempre podemos conocerlos. Así, intentar formular una descripción
de este nivel superior como una primera aproximación es una estrategia
investigativa importante. Nos vemos forzados a ella si vamos a investigar
del todo alguna cosa. Es posible aprender mucho sobre psicología
sin ninguna referencia a los niveles inferiores. Esta estrategia práctica
no es, sin embargo, una excusa para ignorar lo que se conoce sobre
los niveles inferiores en relación con la formulación de
nuestras teorías de nivel superior. Así, el economista se
equivocaría al ignorar lo que podemos saber sobre los individuos
cuando formula sus teorías. El químico se equivocaría
si pasa por encima de lo conocido sobre la estructura del átomo
de carbono cuando intenta explicar la dureza de los diamantes.... Conforme
aprendemos más sobre un tópico, y nos fijamos en más
y más detalles de su funcionamiento, nos vemos forzados a considerar
más y más cómo es que puede emerger de las interacciones
entre sus constituyentes.... Las propiedades emergentes ocurren cuando
tenemos interacciones no lineales. En estos casos los principios de interacción
mismos deben ser formulados y la teoría real en el nivel superior
es, como la química, una teoría de interacciones de elementos
sacados de una teoría de nivel inferior.
Estamos de acuerdo con muchos de estos sentimientos.... Sin embargo, no creemos que el conocimiento presente de la neurociencia no provea guía para los que se interesan en el funcionamiento de la mente. No hemos enfocado, en general, las clases de constreñimiento que surgen de un análisis detallado de la circuitería y órganos del cerebro. Más bien, hemos encontrado que información concerniente a procesos al estilo del cerebro es por sí misma provocativa en nuestros esfuerzos por modelar los procesos cognoscitivos.... Nuestros modelos no han dependido fuertemente de los detalles de la estructura del cerebro o de temas controversiales de neurociencia. Más bien hemos descubierto que si tomamos seriamente algunas de las características más obvias de los procesos de estilo cerebral, vamos a postular modelos que difieren en un número importante de vías de aquellos postulados sin referencia al hardware en que estos algoritmos se implantan....
..................