Poder computacional de las redes nueronales

Guillermo Choque Aspiazu gchoque@umsa.bo

En los escritos realizados por el científico español Santiago Ramón y Cajal, acerca del cerebro hacia el año 1899, el cerebro es un órgano de menos de un kilogramo y medio de peso y con más de cien mil millones de células, cada una de las cuales establece como media un millar de conexiones con sus vecinas, a través de múltiples prolongaciones, de un diámetro inferior a una diezmilésima de milímetro y que pueden llegar a medir más de un metro de longitud. Y todo este complejo entramado da como resultado la capacidad de un ser biológico como puede ser un humano de razonar, sentir, aprender, escapar de una casa en llamas o llegado el caso entrar en ella para salvar a otra persona, emocionarse, comunicarse con sus semejantes o quizá uno de los rasgos, junto con el del lenguaje, más distintivos del ser humano: la capacidad de ser conscientes de uno mismo y de su propia muerte.

Así, en una neurona se puede distinguir un cuerpo celular o soma, que actúa como centro metabólico de la célula, y dos tipos de prolongaciones, unas generalmente más largas llamadas axones y otras más cortas y numerosas, en forma de ramificaciones llamadas dendritas. Además de las neuronas, y mucho más numerosas que éstas, existen otro tipo de células nerviosas llamadas células glía. Su función no es la de transmitir impulsos nerviosos, sino la de envolver a las neuronas proporcionándoles aislamiento eléctrico, servir como soporte físico que permita el crecimiento de éstas, la captación de neurotransmisores y actuar como barrera para protegerlas de los elementos tóxicos de la sangre.

Ramón y Cajal formuló dos hipótesis fundamentales para el desarrollo de lo que luego se conoció como neurociencia. La primera era que existían lo que él llamaba “ondas nerviosas” que viajaban desde las dendritas al cuerpo neuronal, y de éste al axón, y la otra era que las neuronas se comunicaban entre sí por contigüidad y no por continuidad a través de unas conexiones especializadas llamadas sinapsis. Fue a comienzos del siglo veinte cuando se pudo registrar la entrada de señales eléctricas que viajaban a través del axón a gran velocidad, y se supo que estos impulsos eléctricos que se llamaron potenciales de acción o impulsos nerviosos los usaba el sistema nervioso para la transmisión de información. Estos potenciales pueden repetirse dentro de una misma célula, llegando a frecuencias de mil segundos, y ésta información es función de la intensidad de la señal eléctrica y de la frecuencia de disparo, por ejemplo se comprobó que a mayor intensidad de un estímulo se correspondía una mayor frecuencia de impulsos nerviosos dentro de la neurona registrada.

El artículo de McCulloch y Pitts, escrito el año 1943 acerca de “un cálculo lógico de las ideas inmanentes en la actividad neuronal”, se considera como el punto de arranque de la investigación en redes neuronales; este trabajo introdujo también la teoría de autómatas finitos como modelo computacional. McCulloch y Pitts propusieron un modelo simplificado de la actividad nerviosa real en el que cada neurona de una red neuronal podía activarse o desactivarse en función de lo que hicieran las neuronas conectadas a ella. Debido a que una neurona solo podía estar activada o desactivada, la capacidad computacional de la red completa se define en términos del conjunto de predicados lógicos que es capaz de calcular. En este artículo, McCulloch y Pitts toman como objeto de estudio al cálculo realizado por las neuronas, es decir, no se ocupan de los aspectos fisiológicos y morfológicos de las neuronas, a pesar de que McCulloch tiene una serie de artículos donde estudia los aspectos fisiológicos de las neuronas, sino que se abocan a estudiar las características y capacidades computacionales del modelo que proponen, caracterizándolo como un dispositivo lógico; es decir, el área en la que se desarrolla este artículo es la lógica. De esta forma, el modelo neuronal es planteado a través de un modelo matemático. Esto se puede verificar fácilmente a partir de las referencias que ocupan, las cuales todas caen dentro de la lógica matemática. Esto trae como consecuencia que el lenguaje que ocupan para las descripciones de las características de su neurona sea totalmente matemático, siguiendo un gran formalismo en sus demostraciones y con una notación poco común, lo que hace muy complejo el entender los planteamientos del artículo.

Unos años después, el investigador Kleene, en el articulo escrito el año 1956 acerca de la “representación de eventos en redes de nervios y autómatas finitos”, reformuló algunos de estos resultados e introdujo una notación más compacta y general. En su artículo se define el concepto de expresión regular, denominado evento regular al interior del artículo, tan importante para la teoría de lenguajes actual y sus aplicaciones. A partir de ahí, el campo de las redes neuronales y el de la teoría de lenguajes comienzan a tomar caminos separados. De hecho, el segundo acaparó una creciente atención desde entonces hasta nuestros días, mientras que el primero quedó prácticamente olvidado a raíz del trabajo realizado por Minsky y Papert, el año 1969 acerca de los “perceptrones: una introducción a la geometría computacional”, salvo algunos trabajos aislados, las redes neuronales quedaron relegadas a un segundo plano hasta la llegada de los años ochenta.

Según Pérez Ortiz, en el trabajo de grado escrito el año 2002 acerca de “modelos predictivos basados en redes neuronales recurrentes de tiempo discreto”, las redes neuronales destacan por su estructura fácilmente paralelizable y por su elevada capacidad de generalización, o la capacidad de producir salidas correctas para entradas no vistas durante el entrenamiento. Otras propiedades interesantes son: (1) No linealidad. Una red neuronal puede ser lineal o no lineal. Esta última característica es muy importante, especialmente si se intenta modelar sistemas generados mediante pautas no lineales. (2) Adaptabilidad. Las redes neuronales son capaces de reajustar sus pesos para adaptarse a cambios en el entorno. Esto es especialmente útil cuando el entorno que suministra los datos de entrada es no estacionario, es decir, algunas de sus propiedades varían con el tiempo. (3) Tolerancia ante fallos. Una red neuronal es tolerante ante fallos en el sentido de que los posibles fallos operacionales en partes de la red solo afectan débilmente al rendimiento de esta. Esta propiedad es debida a la naturaleza distribuida de la información almacenada o procesada en la red neuronal.

El poder computacional de una única neurona es bastante limitado. Si se considera una neurona con función de activación escalón, este poder de computación puede estudiarse desde dos puntos de vista equivalentes: el de la clasificación y el de la representación lógica. (1) Clasificación. Dado un conjunto de P vectores de entrada, cada uno de n componentes, clasificados como pertenecientes a una de entre dos clases, una neurona puede, mediante la asignación correcta de valores a sus pesos y a su sesgo, clasificarlos de manera correcta únicamente si se cumple la condición de separabilidad lineal: los conjuntos de vectores pertenecientes a cada clase deben ser separables por un hiperplano en el espacio P-dimensional. (2) Representación lógica. La fracción de funciones lógicas de n variables que pueden representarse mediante una neurona con función de activación escalón decrece con n. Por ejemplo, cuando n tiene en valor de uno, las cuatro posibles funciones: identidad, negación, siempre cierto y siempre falso son computables a través de una neurona. Sin embargo, cuando n tiene el valor dos ya existen dos funciones no computables, la o exclusiva y su negación.

Según Hopcroft y Ullman, en el libro escrito el año 1979 titulado “Introducción a la teoría de autómatas, lenguajes y computación”, las limitaciones anteriores se cumplen independientemente de la función de activación utilizada. Si se interconecta un conjunto de neuronas formando una red de manera que la salida de algunas de ellas sea entrada de otras y se utilizan funciones de activación no lineales, pueden superarse estas limitaciones y las redes neuronales resultantes son capaces de emular la máquina universal de Turing y de computar, por tanto, cualquier función computable. La salida de algunas de esas neuronas se convierte en la salida de la red neuronal y al resto de neuronas se las denomina unidades ocultas o de estado. El problema que surge entonces es cómo determinar el valor de los pesos y sesgos de la red para calcular de manera efectiva una función determinada. Dado que el espacio de exploración puede ser enorme, se hace necesario el uso de heurísticas a través de algoritmos de entrenamiento, que no siempre logran dar con una solución adecuada.

Finalmente es destacable que las redes multicapa se forman por un conjunto de redes de capa simple en cascada unidas por pesos, donde la salida de una capa es la entrada de la siguiente capa. Generalmente son capaces de aprender funciones que una red de capa simple no puede aprender, por lo que ofrecen mejores capacidades computacionales. Para que este incremento en poder computacional sea tal, tiene que existir una función de activación no lineal entre las capas, por lo que generalmente se utiliza una función de activación sigmoidea en detrimento de la lineal o umbral. La función usada para la capa de salida es la lineal. La elección de las funciones de las capas ocultas y de salida, es el resultado de diversas pruebas realizadas.