NIVELES DE DESCRIPCIÓN EN EL ESTUDIO DE LA VISTA

Los sistemas complejos, como un sistema nervioso o un embrión en desarrollo, deben ser analizados y comprendidos a varios distintos niveles. Por supuesto, hay relaciones lógicas y causales entre ellos, pero el punto importante es que estos niveles de descripción se relacionan entre sí solo en forma laxa. La cuestión filosófica subyacente aquí es que reduccionismo no implica construccionismo.

Así pues, la cuestión que nos preguntamos en este ensayo es a qué nivel es necesario y útil estudiar los procesos de información que se ejecutan durante la percepción visual. Para una máquina que resuelve un problema de proceso de información hay cuatro niveles de descripción importantes. En el más bajo, está el componente básico y el análisis de circuitos –como funcionan los transistores, las neuronas, los diodos y las sinapsis–. El segundo nivel es el estudio de mecanismos particulares: sumadores, multiplicadores y memorias a las que tenemos acceso por dirección o por contenido. El tercer nivel es el del algoritmo, y el nivel supremo contiene la teoría de la computación en su globalidad. Por ejemplo, tomemos el caso del análisis de Fourier NOTA 1. La teoría de una transformación Fourier es bien comprendida y se expresa independientemente de las vías particulares por medio de las cuales se computa. Un nivel más abajo se encuentran varios algoritmos para realizar una transformación Fourier –la transformación Fourier rápida, que es un algoritmo secuencial, y los algoritmos paralelos de la holografía que se basan en mecanismos de óptica láser–. Todos estos algoritmos realizan la misma computación, y el escogimiento de cuál deba usarse depende de los mecanismos particulares que estén disponibles. Si tenemos una memoria digital veloz, sumadores y multiplicadores, usaremos la transformación rápida, y si tenemos un láser y placas fotográficas, usaremos el algoritmo óptico. En general, los mecanismos están determinados fuertemente por el hardware y los algoritmos están determinados por la computación y los mecanismos disponibles.

Cada nivel de descripción tiene su lugar en la comprensión eventual del proceso de información perceptual y es importante mantenerlos separados. Muy a menudo, en intentos de relacionar problemas psicofísicos con la fisiología existe confusión sobre el nivel en que surge el problema –¿está relacionado principalmente con la biofísica (como las imágenes remanentes NOTA 2 o primordialmente con el proceso de información (como la ambigüedad del cubo de Necker NOTA 3–? Más inquietante todavía, aunque el nivel máximo es el menos atendido, es también el más importante. Esto es así porque la estructura de las computaciones que subyacen a la percepción dependen más de los problemas computacionales que hay que resolver que del hardware particular en que se realizan las soluciones. Hay un análogo de esto en la física, donde las descripciones globales de la termodinámica representan, por lo menos históricamente, la primera etapa en el estudio de la materia. Una descripción en términos de mecanismos o componentes elementales aparece solo más tarde.

Nuestra tesis principal, entonces, es que nuestro nivel supremo, aquel en el cual se define la estructura necesaria de la computación, es un nivel crucial pero descuidado. Su estudio es separado del estudio de algoritmos particulares, mecanismos o hardware, y las técnicas necesarias para realizarlo son nuevas. En el resto del artículo resumimos algunos ejemplos de teorías a los diferentes niveles que hemos descrito, e ilustramos los tipos de predicciones que pueden emerger de cada uno.

EJEMPLOS DE TEORÍAS COMPUTACIONALES

..............

Estereopsis

Supongamos que las imágenes de una escena están disponibles, tomadas desde dos puntos cercanos al mismo nivel horizontal. A fin de computar la disparidad estereoscópica, debemos dar los siguientes pasos: (1) una localización particular sobre una superficie en la escena debe ser escogida de una de las imágenes; (2) esa localización debe ser identificada en la otra imagen; (3) las posiciones relativas de las dos imágenes de tal localización deben ser medidas. Nótese que métodos basados en correlación de niveles de gris entre imágenes no logran satisfacer estas condiciones porque las mediciones de niveles de gris no definen un punto en una superficie física independientemente de la geometría del aparato en que se produce la imagen. El pareo debe estar basado en demarcaciones objetivas que yazcan en una superficie física y así tendríamos que usar predicados que correspondan a cambios en capacidad de reflejar. Una manera de lograr esto es obtener una descripción primitiva de los cambios de intensidad que existen en cada imagen y entonces parear estas descripciones. Segmentos de líneas y aristas, manchas y los puntos terminantes de aristas corresponden bastante cercanamente a fronteras y cambios de capacidad de reflejar en las superficies físicas.

El problema del estéreo puede así ser reducido al de parear dos descripciones primitivas, una de cada ojo. Podemos pensar que los elementos de estas descripciones tienen solo información de posición, como los puntos negros en un esterograma de puntos estocásticos, aunque en la práctica existen algunas reglas sobre cuáles pareos entre elementos descriptivos son posibles y cuáles no lo son. Hay constreñimientos cruciales en la manera en que las descripciones izquierda y derecha pueden combinarse:

(1) La condición de uso único. Cada ítem de cada imagen debe recibir a lo más un valor de disparidad. Esta condición descansa en la premisa de que los ítemes que hay que parear tienen existencia física y solo pueden estar en un lugar a la vez.

(2) Continuidad. La disparidad varía suavemente casi en todas partes. Esta condición es una consecuencia de la cohesividad de la materia y significa que solo una fracción relativamente pequeña del área de una imagen corresponde a fronteras....

El esquema primordial

Es un lugar común que una escena y un dibujo de la escena son muy parecidos, a pesar de las imágenes al nivel de gris completamente diferentes a que ambas dan origen. Esto sugiere que los símbolos locales del artista corresponden de algún modo con los símbolos naturales que se computan a partir de la imagen durante el curso normal de su interpretación. La primera parte de esta teoría de la información visual afirma que la primera operación en una imagen es transformarla en su esquema primordial crudo, que es una descripción primitiva pero rica de los cambios de intensidad que están presentes.... A fin de obtener esta descripción, se miden aproximaciones de la primera y segunda derivadas direccionales de la intensidad con distintas orientaciones y escalas por todo en la imagen, y estas medidas se combinan para formar asertos descriptivos locales. El proceso de computar el esquema primordial envuelve cinco pasos importantes, el primero de los cuales puede compararse con las medidas que son evidentemente hechas por las células de la corteza visual. Una predicción hecha por esta parte de la teoría es que un cambio de intensidad dado determina por sí mismo cuáles medidas de celda NOTA 4 simple se usen para describirlo. Esto va en contraste directo con teorías que afirman que cada simple célula actúa como un "detector de aspecto", cuyo producto está libremente disponible para los procesos subsiguientes. Otra predicción es que una interacción bien definida debe ocurrir entre medidas celuliformes hechas con las mismas posición y orientación en el campo visual pero con diferentes tamaños de campos receptivos.

Agrupamiento y visión de textura

El esquema primordial de una imagen es en general una colección de datos grande e inmanejable. Esto es una consecuencia inevitable de la irregularidad y complejidad de las imágenes naturales. El próximo problema computacional importante es cómo descodificar el esquema primordial. Para la mayoría de las imágenes es innecesario invocar hipótesis específicas sobre qué es lo que hay, hasta considerablemente más tarde en el proceso. La teoría enseguida aplica un número de procesos de selección y agrupamiento muy generales a los elementos del esquema primordial. El propósito de estos procesos es organizar los elementos descriptivos locales en formas y regiones, los cuales son grupos de contornos cerrados que se obtienen de diversas maneras. Las regiones pueden definirse por sus fronteras, las cuales deben haberse formado por agrupamiento de una colección de aristas, líneas o marcadores de lugar; o pueden ser definidas por un predicado de primer orden que opere sobre los elementos del esquema primordial dentro de la colección. Este segundo método corresponde a la definición de una región por una textura y lleva a una teoría de los procesos sobre los que se basa la discriminación de textura.

Es importante darse cuenta de que los ítemes descriptivos que pueden ser agrupados aquí pueden ser muy abstractos –como marcadores para el final de una línea, una mancha, o una línea construida que junta dos manchas–. Los marcadores se crean para cada nuevo grupo y ellos mismos llegan a ser objeto de la operación del propio proceso de agrupamiento o de uno similar, tal como se aplica a los elementos del esquema primordial crudo. Los procesos de agrupamiento son muy conservadores. Satisfacen el principio, que parece tener aplicación general en los problemas de reconocimiento, llamado principio de compromiso mínimo. Solo se hacen agrupamientos "obvios", y donde hay duda entre dos posibles, se construyen ambos y se deja pendiente la selección subsecuente....

Representación de formas en 3-D

Los dos últimos componentes de la teoría tienen que ver con la representación de formas tridimensionales. Un componente lidia con la naturaleza del sistema de representación que se usa y el otro con cómo obtenerlo a partir de los tipos de descripción que pueden producirse con el esquema primordial. Los ingredientes claves del sistema de representación son:

(a) La estructura profunda de la representación tridimensional de un objeto consiste de una figura de barras, donde en términos formales cada barra representa uno o más ejes en la representación de cilindro generalizado del objeto. En efecto, existe una jerarquía de figuras de barras que nos permite describir un objeto en varias escalas y con grados variados de detalle.

(b) Cada figura de barras se define por una base de datos proposicional llamada un modelo 3-D. La estructura geométrica de un modelo 3-D se especifica guardando las orientaciones relativas de los ejes conectores. Esta especificación es local en vez de global y contrasta con esquemas en los cuales la posición de cada eje es especificada en aislamiento, por medio de algún marco de referencia que los circunscriba.

(c) Cuando un modelo 3-D se usa para interpretar una imagen, las relaciones geométricas en el modelo son interpretadas por un mecanismo esencialmente analógico llamado el procesador imagen-espacio. Este mecanismo es computacionalmente muy simple y puede concebirse como un artificio de resolución limitada para representar las posiciones de dos vectores en el espacio 3, y para computar sus proyecciones en la imagen.

(d) Durante el reconocimiento tiene lugar una interacción muy elaborada entre la imagen, el modelo 3-D y el procesador imagen-espacio. Esta interacción relaja gradualmente el modelo 3-D almacenado sobre los ejes computados de la imagen. Algunas facetas de este proceso se parecen a la computación de una rotación 3-D, pero una metáfora simple de gráfica computacional puede ser desorientadora. En efecto, las rotaciones tiene lugar en vectores abstractos (los ejes) que ni siquiera están presentes en la imagen original; y en cualquier momento, solo dos de tales vectores pueden ser representados explícitamente.

Lo esencial de esta parte de la teoría es un método para representar la disposición espacial de las partes de un objeto y su relación con el observador.

El análisis de 2½ dimensiones de una imagen

En imágenes simples, las formas producidas a partir del esquema primordial corresponden a los contornos de los objetos físicos. Finalmente, pues, necesitamos tender un puente sobre el abismo entre tales formas y los comienzos del análisis 3-D descrito en el párrafo anterior. Llamamos a esto análisis de 2½ dimensiones y consiste básicamente en asignar etiquetas a los contornos que reflejen aspectos de su configuración tridimensional, antes de que tal configuración se haga explícita. La idea singular más poderosa aquí es la distinción entre aristas cóncavas y convexas, y segmentos de contorno. Se puede mostrar que estas distinciones se preservan al través de proyecciones ortogonales y pueden tomarse como base para una técnica de segmentación que descomponga la figura en regiones 2-D que correspondan a la descomposición apropiada 3-D para un amplio rango de ángulos de visión. La teoría asigna muchos efectos de figura alternativa, como el cubo de Necker, a la existencia de dos maneras alternativas de poner etiquetas autocongruentes computadas en este estadio.

Quizás valga la pena mencionar un punto interesante que ha surgido de esta manera de reconocer y representar formas 3-D. Warrington & Taylor (1973) describen pacientes con lesiones parietales derechas quienes tenían dificultad en reconocer objetos vistos desde ángulos "no convencionales" –como un balde de agua visto desde arriba. Ni siquiera intentaban definir cuáles vistas eran no convencionales. De acuerdo con nuestra teoría, las vistas más problemáticas de un objeto serán aquellas en las cuales los ejes de figuras de barras no puedan ser fácilmente recobradas de la imagen. La teoría, entonces, predice que las vistas no convencionales en el sentido de Warrington & Taylor corresponderán a aquellas vistas en las cuales un eje importante en la representación de cilindros generalizados del objeto está acortado en su dimensión de profundidad....

..............


NOTA 1 Método matemático inventado por el matemático francés José Fourier (1768-1830) que consiste básicamente en representar por aproximación una función arbitraria como la suma de un número infinito de funciones trigonométricas (senos y cosenos). En la práctica se usa sólo un número limitado de sumandos para aproximar la función tan cercanamente como se necesite. El método es muy usado en la produción de vista artificial para obtener por convergencia el perfil de los objetos que un robot dotado de inteligencia artificial necesita reconocer. No es indispensable conocer los detalles del método para seguir el razonamiento que hacen aquí los autores. Nota del editor.


NOTA 2 Nuestra traducción de la palabra inglesa after-image. Denota las imágenes que permanecen en la percepción después de bajar los párpados cuando hemos mirado por un rato un objeto brillante. Nota del editor.


NOTA 3 Un dibujo de un cubo transparente, del cual se ven todas las aristas como líneas rectas de igual intensidad: lo interpretamos alternativamente como un cubo en dos posiciones diferentes, dependiendo del punto de fijación de la vista. Nota del editor.


NOTA 4 En inglés su usa la misma palabra, "cell", para las significaciones castellanas "celda" y "célula". Nos parece que en este párrafo el autor juega con esta ambigüedad sistemática. Nota del editor.