Los sistemas complejos, como un sistema nervioso o un embrión en desarrollo, deben ser analizados y comprendidos a varios distintos niveles. Por supuesto, hay relaciones lógicas y causales entre ellos, pero el punto importante es que estos niveles de descripción se relacionan entre sí solo en forma laxa. La cuestión filosófica subyacente aquí es que reduccionismo no implica construccionismo.
Así pues, la cuestión que nos preguntamos en este ensayo es a qué nivel es necesario y útil estudiar los procesos de información que se ejecutan durante la percepción visual. Para una máquina que resuelve un problema de proceso de información hay cuatro niveles de descripción importantes. En el más bajo, está el componente básico y el análisis de circuitos –como funcionan los transistores, las neuronas, los diodos y las sinapsis–. El segundo nivel es el estudio de mecanismos particulares: sumadores, multiplicadores y memorias a las que tenemos acceso por dirección o por contenido. El tercer nivel es el del algoritmo, y el nivel supremo contiene la teoría de la computación en su globalidad. Por ejemplo, tomemos el caso del análisis de Fourier NOTA 1. La teoría de una transformación Fourier es bien comprendida y se expresa independientemente de las vías particulares por medio de las cuales se computa. Un nivel más abajo se encuentran varios algoritmos para realizar una transformación Fourier –la transformación Fourier rápida, que es un algoritmo secuencial, y los algoritmos paralelos de la holografía que se basan en mecanismos de óptica láser–. Todos estos algoritmos realizan la misma computación, y el escogimiento de cuál deba usarse depende de los mecanismos particulares que estén disponibles. Si tenemos una memoria digital veloz, sumadores y multiplicadores, usaremos la transformación rápida, y si tenemos un láser y placas fotográficas, usaremos el algoritmo óptico. En general, los mecanismos están determinados fuertemente por el hardware y los algoritmos están determinados por la computación y los mecanismos disponibles.
Cada nivel de descripción tiene su lugar en la comprensión eventual del proceso de información perceptual y es importante mantenerlos separados. Muy a menudo, en intentos de relacionar problemas psicofísicos con la fisiología existe confusión sobre el nivel en que surge el problema –¿está relacionado principalmente con la biofísica (como las imágenes remanentes NOTA 2 o primordialmente con el proceso de información (como la ambigüedad del cubo de Necker NOTA 3–? Más inquietante todavía, aunque el nivel máximo es el menos atendido, es también el más importante. Esto es así porque la estructura de las computaciones que subyacen a la percepción dependen más de los problemas computacionales que hay que resolver que del hardware particular en que se realizan las soluciones. Hay un análogo de esto en la física, donde las descripciones globales de la termodinámica representan, por lo menos históricamente, la primera etapa en el estudio de la materia. Una descripción en términos de mecanismos o componentes elementales aparece solo más tarde.
Nuestra tesis principal, entonces, es que nuestro nivel supremo, aquel
en el cual se define la estructura necesaria de la computación,
es un nivel crucial pero descuidado. Su estudio es separado del estudio
de algoritmos particulares, mecanismos o hardware, y las técnicas
necesarias para realizarlo son nuevas. En el resto del artículo
resumimos algunos ejemplos de teorías a los diferentes niveles que
hemos descrito, e ilustramos los tipos de predicciones que pueden emerger
de cada uno.
..............
Supongamos que las imágenes de una escena están disponibles, tomadas desde dos puntos cercanos al mismo nivel horizontal. A fin de computar la disparidad estereoscópica, debemos dar los siguientes pasos: (1) una localización particular sobre una superficie en la escena debe ser escogida de una de las imágenes; (2) esa localización debe ser identificada en la otra imagen; (3) las posiciones relativas de las dos imágenes de tal localización deben ser medidas. Nótese que métodos basados en correlación de niveles de gris entre imágenes no logran satisfacer estas condiciones porque las mediciones de niveles de gris no definen un punto en una superficie física independientemente de la geometría del aparato en que se produce la imagen. El pareo debe estar basado en demarcaciones objetivas que yazcan en una superficie física y así tendríamos que usar predicados que correspondan a cambios en capacidad de reflejar. Una manera de lograr esto es obtener una descripción primitiva de los cambios de intensidad que existen en cada imagen y entonces parear estas descripciones. Segmentos de líneas y aristas, manchas y los puntos terminantes de aristas corresponden bastante cercanamente a fronteras y cambios de capacidad de reflejar en las superficies físicas.
El problema del estéreo puede así ser reducido al de parear dos descripciones primitivas, una de cada ojo. Podemos pensar que los elementos de estas descripciones tienen solo información de posición, como los puntos negros en un esterograma de puntos estocásticos, aunque en la práctica existen algunas reglas sobre cuáles pareos entre elementos descriptivos son posibles y cuáles no lo son. Hay constreñimientos cruciales en la manera en que las descripciones izquierda y derecha pueden combinarse:
(1) La condición de uso único. Cada ítem de cada imagen debe recibir a lo más un valor de disparidad. Esta condición descansa en la premisa de que los ítemes que hay que parear tienen existencia física y solo pueden estar en un lugar a la vez.
(2) Continuidad. La disparidad varía suavemente casi en
todas partes. Esta condición es una consecuencia de la cohesividad
de la materia y significa que solo una fracción relativamente pequeña
del área de una imagen corresponde a fronteras....
Es un lugar común que una escena y un dibujo de la escena son
muy parecidos, a pesar de las imágenes al nivel de gris completamente
diferentes a que ambas dan origen. Esto sugiere que los símbolos
locales del artista corresponden de algún modo con los símbolos
naturales que se computan a partir de la imagen durante el curso normal
de su interpretación. La primera parte de esta teoría de
la información visual afirma que la primera operación en
una imagen es transformarla en su esquema primordial crudo, que
es una descripción primitiva pero rica de los cambios de
intensidad que están presentes.... A fin de obtener esta descripción,
se miden aproximaciones de la primera y segunda derivadas direccionales
de la intensidad con distintas orientaciones y escalas por todo en la imagen,
y estas medidas se combinan para formar asertos descriptivos locales. El
proceso de computar el esquema primordial envuelve cinco pasos importantes,
el primero de los cuales puede compararse con las medidas que son evidentemente
hechas por las células de la corteza visual. Una predicción
hecha por esta parte de la teoría es que un cambio de intensidad
dado determina por sí mismo cuáles medidas de celda
NOTA
4 simple se usen para describirlo. Esto va en contraste directo con
teorías que afirman que cada simple célula actúa como
un "detector de aspecto", cuyo producto está libremente disponible
para los procesos subsiguientes. Otra predicción es que una interacción
bien definida debe ocurrir entre medidas celuliformes hechas con las mismas
posición y orientación en el campo visual pero con diferentes
tamaños de campos receptivos.
Es importante darse cuenta de que los ítemes descriptivos que
pueden ser agrupados aquí pueden ser muy abstractos –como marcadores
para el final de una línea, una mancha, o una línea construida
que junta dos manchas–. Los marcadores se crean para cada nuevo grupo y
ellos mismos llegan a ser objeto de la operación del propio proceso
de agrupamiento o de uno similar, tal como se aplica a los elementos del
esquema primordial crudo. Los procesos de agrupamiento son muy conservadores.
Satisfacen el principio, que parece tener aplicación general en
los problemas de reconocimiento, llamado principio de compromiso mínimo.
Solo se hacen agrupamientos "obvios", y donde hay duda entre dos posibles,
se construyen ambos y se deja pendiente la selección subsecuente....
(a) La estructura profunda de la representación tridimensional de un objeto consiste de una figura de barras, donde en términos formales cada barra representa uno o más ejes en la representación de cilindro generalizado del objeto. En efecto, existe una jerarquía de figuras de barras que nos permite describir un objeto en varias escalas y con grados variados de detalle.
(b) Cada figura de barras se define por una base de datos proposicional llamada un modelo 3-D. La estructura geométrica de un modelo 3-D se especifica guardando las orientaciones relativas de los ejes conectores. Esta especificación es local en vez de global y contrasta con esquemas en los cuales la posición de cada eje es especificada en aislamiento, por medio de algún marco de referencia que los circunscriba.
(c) Cuando un modelo 3-D se usa para interpretar una imagen, las relaciones geométricas en el modelo son interpretadas por un mecanismo esencialmente analógico llamado el procesador imagen-espacio. Este mecanismo es computacionalmente muy simple y puede concebirse como un artificio de resolución limitada para representar las posiciones de dos vectores en el espacio 3, y para computar sus proyecciones en la imagen.
(d) Durante el reconocimiento tiene lugar una interacción muy elaborada entre la imagen, el modelo 3-D y el procesador imagen-espacio. Esta interacción relaja gradualmente el modelo 3-D almacenado sobre los ejes computados de la imagen. Algunas facetas de este proceso se parecen a la computación de una rotación 3-D, pero una metáfora simple de gráfica computacional puede ser desorientadora. En efecto, las rotaciones tiene lugar en vectores abstractos (los ejes) que ni siquiera están presentes en la imagen original; y en cualquier momento, solo dos de tales vectores pueden ser representados explícitamente.
Lo esencial de esta parte de la teoría es un método para
representar la disposición espacial de las partes de un objeto y
su relación con el observador.
Quizás valga la pena mencionar un punto interesante que ha surgido de esta manera de reconocer y representar formas 3-D. Warrington & Taylor (1973) describen pacientes con lesiones parietales derechas quienes tenían dificultad en reconocer objetos vistos desde ángulos "no convencionales" –como un balde de agua visto desde arriba. Ni siquiera intentaban definir cuáles vistas eran no convencionales. De acuerdo con nuestra teoría, las vistas más problemáticas de un objeto serán aquellas en las cuales los ejes de figuras de barras no puedan ser fácilmente recobradas de la imagen. La teoría, entonces, predice que las vistas no convencionales en el sentido de Warrington & Taylor corresponderán a aquellas vistas en las cuales un eje importante en la representación de cilindros generalizados del objeto está acortado en su dimensión de profundidad....
..............
NOTA 1 Método matemático inventado por el matemático francés José Fourier (1768-1830) que consiste básicamente en representar por aproximación una función arbitraria como la suma de un número infinito de funciones trigonométricas (senos y cosenos). En la práctica se usa sólo un número limitado de sumandos para aproximar la función tan cercanamente como se necesite. El método es muy usado en la produción de vista artificial para obtener por convergencia el perfil de los objetos que un robot dotado de inteligencia artificial necesita reconocer. No es indispensable conocer los detalles del método para seguir el razonamiento que hacen aquí los autores. Nota del editor.
NOTA 2 Nuestra traducción de la palabra inglesa after-image. Denota las imágenes que permanecen en la percepción después de bajar los párpados cuando hemos mirado por un rato un objeto brillante. Nota del editor.
NOTA 3 Un dibujo de un cubo transparente, del cual se ven todas las aristas como líneas rectas de igual intensidad: lo interpretamos alternativamente como un cubo en dos posiciones diferentes, dependiendo del punto de fijación de la vista. Nota del editor.
NOTA 4 En inglés su usa la misma palabra, "cell", para las significaciones castellanas "celda" y "célula". Nos parece que en este párrafo el autor juega con esta ambigüedad sistemática. Nota del editor.