05/07/2019 | Hubert Krivine
El ámbito de la inteligencia artificial (IA) es un poco como el Universo: se halla en expansión acelerada y llena de agujeros negros… La IA es una disciplina totalmente nueva, como lo fue en su tiempo la imprenta a mediados del siglo XV. ¿Quién habría podido anticipar entonces que su desarrollo iría mucho más allá de su propósito inicial, a saber, la propagación de las sagradas escrituras? Más recientemente, ¿quién habría podido imaginar las consecuencias de internet, creada originalmente para facilitar los intercambios entre físicos de laboratorios alejados entre sí? Por consiguiente, hay que ser extremadamente prudentes con respecto a las potencialidades de la IA, sobre todo porque, a diferencia de esas dos innovaciones, no se sabe por qué funciona tan bien. Al fin y al cabo, el nombre es jactancioso: la inteligencia artificial no es a la inteligencia humana lo que la insulina artificial es a la insulina animal, es decir –potencialmente al menos–, lo mismo pero mejor.
No pretendemos hablar aquí de los éxitos y los peligros de la IA en todos los terrenos, sino fundamentalmente de lo que nos parecen ser sus limitaciones actuales. Es evidente que ignoramos lo que vaya a suceder en los próximos siglos.
Comprender para prever
La humanidad tiene desde siempre la necesidad de prever. Lo ha hecho a través de la magia (auspicios, augurios y pitonisas) o bien mediante la observación de correlaciones regulares. Se trataba de la previsión del movimiento de los astros, de las mareas, de la acción medicamentosa de determinadas plantas, de las propiedades de las aleaciones metálicas, de las ventajas del cruce de plantas y de animales, etc. De ahí la importancia de la tradición en las sociedades primitivas.
En el Renacimiento surgió la idea de que existen leyes impersonales y universales que gobiernan el mundo y que la tarea de los sabios es descubrirlas. Galileo, quien afirmaba que el “libro del Universo está escrito en lengua matemática”, es su precursor más famoso. Claro que Dios no es abandonado, digamos más bien que relegado. Estas leyes no solo explicarán los fenómenos observados, sino que también preverán otros nuevos. La teoría de la gravitación de Newton es emblemática: no solo dio cuenta con precisión del movimiento elíptico de los planetas, sino que además previó el retorno del cometa Halley, el valor del ensanchamiento de la Tierra en el ecuador y un siglo y medio después el descubrimiento de Neptuno gracias a los cálculos de Le Verrier. Las ondas de radio se descubrirán veinte años después de que hubieran sido previstas por las ecuaciones de Maxwell. La teoría general de la relatividad no se basó en la observación de que la presencia de masas desvía la trayectoria de la luz, sino, por el contrario, previó esta (minúscula) desviación, que Eddington medirá efectivamente cuatro años más tarde. Podríamos multiplicar las previsiones de fenómenos inéditos, en el sentido literal del término, causados por el conocimiento de estas leyes.
Por desgracia, esta vía luminosa de entendimiento, que podríamos resumir en comprender para prever, acabará oscureciéndose por (al menos) dos razones:
1- Aunque se conozcan las leyes de un fenómeno, estas pueden ser tan numerosas y/o complicadas e intrincadas que su aplicación resulte prácticamente imposible. Entonces hay que recurrir a leyes estadísticas, que solo preverán medias.
2- Puede ocurrir que una sola ley simple y bien conocida gobierne un fenómeno y que a pesar de ello seamos incapaces de anticipar más allá de cierto horizonte de tiempo. Esto es lo que se denomina caos determinista. Determinista porque hay una ley, caos porque a pesar de ello no se puede concluir nada para dentro de cierto plazo. Se debe al hecho de que pequeñísimas variaciones de las condiciones iniciales o del entorno pueden generar una divergencia exponencial de las soluciones. Muchos fenómenos conocen este caos: las trayectorias de las moléculas de un gas, el desarrollo de especies en competición, la meteorología, el movimiento de los planetas del sistema solar. Por supuesto, este horizonte de impredecibilidad depende del sistema, puede variar de la millonésima de segundo en el primer ejemplo a los miles de millones de años en el último.
El caos determinista –bello oxímoron– no pone en duda la causalidad, sino que interroga, inclusive en las llamadas ciencias duras, nuestra capacidad de evidenciarla. La conclusión general es que la comprensión –e incluso el conocimiento de la ley cuando se conoce– no permite necesariamente prever.
Prever sin comprender (¿el retorno?)
Nuestros ancestros, sobre la base de miles (¿millones?) de observaciones, conseguían extraer algunas lecciones. Pero ahora disponemos de infinitivamente más datos (en cifras, imágenes, sonidos, vídeos); son los datos masivos (big data). Se trata de cantidades inimaginables: por ejemplo, cada día se generan ¡2,5 trillones (2.500.000.000.000.000.000) de octetos! 1/. Añadamos que la acumulación de informaciones es tal que el 90 % de los datos en el mundo se han creado en el transcurso de tan solo los dos últimos años. Es imposible que estas inmensas bases de datos sean leídas directamente por personas. Deben ser almacenadas inteligentemente y después analizadas por la máquina. Este es uno de los objetos de la mal llamada inteligencia artificial.
Muy esquemáticamente, la IA moderna se caracteriza por el aprendizaje máquina, es decir, la máquina, instruida por una base de datos, extrapola a partir de la información que tiene sobre datos nuevos. Estos datos de aprendizaje pueden suministrársele etiquetados, es decir, por ejemplo, en forma de miles de caracteres manuscritos previamente catalogados como a, b, c… z o millones de imágenes de animales catalogados como gatos, perros, tigres, etc. Este es el aprendizaje supervisado. Incluso se puede no etiquetar a priori las imágenes, que la máquina se las arreglará para realizar reagrupamientos ad hoc y crear así nuevas categorías; este es el aprendizaje no supervisado, más selectivo en recursos, pero más fácil de aplicar (no hace falta etiquetar, que es un proceso largo y complejo). En fin, la máquina misma puede procurarse los datos de aprendizaje, que comprobará in situ proponiéndose experiencias; es el aprendizaje por refuerzo. Un poco como un niño que habla sin conocer la gramática. Con este último modo de aprendizaje funcionó la máquina AlphaZero, que derrotó al campeón del mundo del juego de go, Ke Jie, en mayo de 2017 2/. En tres días jugó millones de partidas contra sí misma y en cierto modo comprendió cómo jugar. Las cursivas son importantes: puede que ella lo haya comprendido, ¡pero nosotros no! Nadie sabe explicar el camino que ha seguido para obtener esta victoria.
Pero ¿sirve de algo comprender o todavía necesitamos demostraciones?
A diferencia del espíritu humano, la máquina que utiliza las redes neuronales artificiales carece de un instrumento para distinguir las correlaciones causales de las no causales; y, a fortiori, no da explicaciones. Pero, ¿es eso tan grave? Después de todo, con una base de datos extremadamente limitada y sin teoría real, la humanidad del homo sapiens se desarrolló muy bien durante más de 150.000 años. ¿No cabría pensar con mayor razón que, con la gigantesca base moderna de datos masivos correctamente explotada, podrá continuar igual o incluso infinitamente mejor que antes? De todas maneras, incluso las correlaciones no causales pueden ser predictivas: no es la caída del barómetro la que causa la tormenta.
Cito la posición extremista y sin embargo popular de un Chris Anderson. El título de su célebre artículo 3/ es elocuente: La fin de la théorie : le déluge de données rend la méthode scientifique obsolète (El fin de la teoría: el diluvio de datos vuelve obsoleto el método científico). Allí podemos leer esto: “Con datos suficientes, los números hablan por sí mismos”, y más adelante: “la correlación suplanta la causalidad, y la ciencia puede avanzar incluso sin un modelo coherente, sin teoría unificada e incluso sin ninguna explicación mecanicista.” Para él, la idea es que todos los modelos son falsos y a menudo están contaminados de ideas preconcebidas, mientras que las bases de datos, a condición de que sean suficientemente gigantescas, no pueden mentir.
¿Cabe pensar que Deng Xiaoping ya anticipó en 1960 esta filosofía cuando afirmó eso de que “poco importa que un gato sea blanco o negro, si caza ratones, es un buen gato”? Se trataba de introducir más pragmatismo (en el sentido de más mercado) en la economía, sin prestar atención a las objeciones teóricas que pudieran oponerse.
Hay quien es menos extremista en el abandono de la teoría 4/: “La ciencia vive así una revolución epistemológica con la aplicación desde hace tan solo una decena de años de un ‘cuarto paradigma’ del descubrimiento científico, a partir del análisis y de la explotación intensiva de los datos, sin necesidad a priori de un modelo que describa la realidad. Esta revolución afecta a todos los sectores científicos, sobre todo a los ámbitos de la biología-salud y las ciencias humanas y sociales.”
No hay inteligencia, solo hay pruebas de inteligencia
¿Cómo definir la inteligencia de la máquina sin haber definido la de los humanos? 5/ Turing 6/ escamotea hábilmente esta cuestión proponiendo tan solo compararlas mediante una prueba. Un experimentador conversa a través de un teclado (u hoy incluso de viva voz) con un interlocutor oculto. Si el hombre es la mayoría de las veces incapaz de saber si ha conversado con una máquina o no, se dirá que la máquina ha superado la prueba de Turing. Claro que la duración de la prueba es importante y hasta hoy ninguna máquina lo ha conseguido dentro de un tiempo razonable. A pesar (¿o tal vez a causa?) de su gran simplicidad, determinados especialistas de IA consideran que el test de Turing es poco interesante. Por lo demás, se puede pensar que las máquinas lograrían superar el test de Turing si no comportara más que pruebas convencionales del tipo de las que se utilizan para determinar el cociente intelectual de los individuos.
La inteligencia de la IA procede básicamente por inducción. Esto quiere decir que la máquina solo puede prever sobre la base (gigantesca, sin duda) de lo ya conocido o sucedido. Caricaturizando un poco, para la máquina lo que sucederá ya ha sucedido o está a punto de suceder, pero sin los datos masivos, los humanos nunca lo habríamos adivinado. Salvo que en situaciones políticas, financieras y económicas inéditas, las previsiones de los datos masivos fracasan. Véanse por ejemplo las previsiones de la crisis de las hipotecas basura que partió de EE UU en 2007. Nate Silver 7/ demuestra cómo la singularidad absoluta del cuadro económico de EE UU en aquella época hacía que toda extrapolación resultara inoperante.
En el fondo, el razonamiento por inducción supone que cuando un acontecimiento se repite n veces, se repetirá una (n + 1)-ésima vez, y esto con tanta más seguridad, cuanto mayor sea n; pero en esto no se tienen en cuenta las condiciones, eventualmente cambiantes, que han permitido esta continuidad; hace falta una hipótesis implícita de uniformidad. Con esta hipótesis, ¡ni tú ni tus padres morirán jamás! (Porque si constatas que han vivido todos los días sin interrupción desde hace 25.000 jornadas, seguirán viviendo el día siguiente.) El razonamiento por inducción, corriente en la vida cotidiana, puede por tanto sugerir una hipótesis, pero en ningún caso la demuestra.
No existen los datos brutos
No hay datos inocentes; la noción de datos brutos es un oxímoron, como ha escrito con toda la razón la historiadora de medios norteamericana Lisa Gitelman. Los datos son producciones humanas que pueden estar social o técnicamente sesgadas, no necesariamente de manera voluntaria. Se toman y se mezclan los datos allí donde uno los encuentra, como un borracho que busca la llave que ha perdido tan solo donde llega la luz de la farola. Son numerosos los ejemplos del peligro de analizar los datos brutos sin reflexionar sobre su producción y cuyo aumento de volumen no reducirá su sentido falseado. De hecho, la IA no hace más que multiplicar los peligros de sesgo inherentes a todos los análisis clásicos.
¿Se puede digitalizar el Universo?
El ser humano interactúa –al menos potencialmente- con toda la Naturaleza (¡que no es poco!), no la máquina, que no conoce de ella más que una pequeña parte, y además digitalizada, es decir, en última instancia, representada tan solo por una sucesión –gigantesca, sin duda, pero finita– de 0 y 1. Sin embargo, el mapa (digital) no es el terreno. Creer que la Naturaleza suficientemente digitalizada es la Naturaleza nos parece ser una ilusión total, al margen del grado de digitalización. Este es, sin embargo, el credo de algunos ayatolás de los datos masivos. Extrapolando los éxitos espectaculares de la IA, imaginan que mañana se podrá hacer física sin físicos, o medicina sin médicos y, por qué no, sentencias sin jueces.
Ilusión total, ¿verdad? Pero el ser humano tampoco tiene acceso directamente a toda la Naturaleza. Solo interactúa con ella a través de sus sentidos y por tanto no puede ver –ni sentir, ni tocar– todo el terreno. Lo que ve, por ejemplo, está pixelado entre los 120 millones de células fotosensibles (conos y bastones) que pueblan su retina. Ahora bien, hoy en día las fotos digitalizadas pueden alcanzar o incluso superar esta resolución. Los receptores artificiales no tienen nada que envidiar a nuestros receptores naturales, pero el terreno no se limita tan solo a la imagen que percibe nuestra retina. Hay que tener en cuenta todo lo que lo constituye, con su geología, su historia, sus millones de especies vivas y muertas, sus olores, su precio por metro cuadrado, su belleza, la poesía que se asocia con él, etc.
De una manera u otra, el cerebro humano es sensible a ello, aunque no se sepa cómo ni hasta qué punto; esto abarca prácticamente una infinitud de elementos (que interactúan). Creer que el terreno, en el pleno sentido del término, es pixelable, es decir, representable mediante una serie finita (aunque muy grande) de 0 y 1, parece igual de demencial que pensar que, al estar compuestos los seres humanos (y los demás) de moléculas que interactúan, se llegará a la explicación de la toma de la Bastilla en 1789 mediante el estudio (¡muy!) profundo de las fuerzas entre átomos. Sería lo que podemos denominar un reduccionismo disparatado. Nunca estará de más recordar este título de un artículo tan lapidario como profundo de Philip Waren Anderson: More is different. Hay que cambiar de teoría cuando se cambia de escala de tiempo, de volumen o de complejidad. Es bien sabido que el todo no es lo mismo que la suma de sus partes. Esto es lo que caracteriza el fenómeno de la emergencia.
La ciencia no progresa por acumulación de datos
La ciencia no progresa por acumulación de datos. Si los descubrimientos del bosón de Higgs o de las ondas gravitacionales solo pudieron producirse manipulando miles de millones de datos masivos, tales descubrimientos son, por su génesis, clásicos: se sabía lo que se buscaba. Miles de científicos y técnicos, con la ayuda de cientos de millones de dólares, etc., tuvieron que imaginar dispositivos diabólicamente astutos para detectar los efectos extraordinariamente débiles, que habrían pasado desapercibidos si no los hubieran buscado allí donde lo preveía la teoría. Se trata, en el ejemplo de las ondas gravitacionales, de una variación de longitud de menos de una milmillonésima de milmillonésima de metro de un brazo de interferómetro de 3 km. Ninguna base de datos masivos habría podido hallarlas.
Esto no es nuevo; sucedió lo mismo con el neutrino. Previsto en 1930 por Wolfgang Pauli, es una partícula neutra que no interactúa prácticamente con la materia y por tanto es muy difícil de detectar (¡habrá que esperar a 1956!). No está claro cómo los datos masivos, por muy masivos que sean, sin guía teórica de investigación, habrían permitido estos descubrimientos. Más en general, los avances que han revolucionado la física (e incluso la filosofía), a saber, la teoría atómica, la mecánica cuántica y la relatividad, no tienen nada que ver con una acumulación intensiva de datos. Einstein elaboró la relatividad especial sobre la base de las contradicciones lógicas internas de las ecuaciones de Maxwell (que rigen las corrientes eléctricas y explican las ondas de radio) y la relatividad general a causa de las contradicciones teóricas aparecidas en el seno de la relatividad especial. Newton no vio caer más manzanas que sus predecesores para elaborar su teoría de la gravitación.
Los datos –por supuesto indispensables para la verificación de la teoría– solo vendrán después. Son estas teorías, que permiten una nueva auscultación del cielo, las que situarán el punto de partida para la creación de los datos masivos y no a la inversa. Por ejemplo, la teoría de la relatividad (enunciada por Einstein en 1915) prevé una curvatura de los rayos luminosos que pasan cerca de una estrella masiva (fenómeno que será verificado en 1919 por Eddington). Se trata del fenómeno de lentilla gravitacional, nueva fuente de información sobre la distribución de las masas del universo. Ocurre lo mismo con las ondas gravitacionales, que enriquecerán todavía más nuestros datos masivos.
En resumen, la ciencia no procede por acumulación y sistematización de datos –aunque esta sea una etapa que puede ser importante–, sino mediante la resolución de problemas 8/. Problemas que pueden ser internos de la teoría existente o resultar de contradicciones entre teoría y experiencias (u observaciones). Es todo el problema abierto de la creatividad.
Hay finalmente otra diferencia de calibre: la máquina está dedicada. Debe resolver, permaneciendo todo lo demás invariable, una tarea que se le marca. Vive dentro de un mundo pequeño. Aunque el número de partidas de go fuera miles de millones de veces superior al número total de átomos del universo, la máquina solo interactuaría muy débilmente con todo el universo (responde únicamente a las jugadas del adversario). En estos sentidos, es un juego simple. Una rata robot se manejará mucho mejor que una rata de carne y hueso en un laberinto, pero si aparece un olor a quemado, la rata de carne y hueso tratará de huir, el robot no. La rata de verdad posee en cierto modo una cultura, fruto de un proceso de evolución darwiniana de interacciones con el resto del mundo, que habrá durado miles de millones de años. Este proceso es copioso, es decir, sin objetivo. Es mucho más lento que un proceso pilotado por un objetivo, pero a largo plazo es mucho más eficaz. Es el que está en el origen del sentido común, lo más difícil de adquirir –si es que esto resulta posible un día– por parte de una máquina 9/.
¿En conclusión?
He aquí el extracto de la entrevista de Antoinette Rouvroy publicada con el título Mais pourquoi faudrait-il s’en inquiéter si l’on gagne en efficacité ? (¿Por qué inquietarse si se gana en eficacia?) en Le Monde del 30 de diciembre de 2017:
Vamos hacia un cambio epistemológico de calibre. Basarnos en este tipo de cálculo supone una renuncia a las ambiciones de la razón moderna, que asociaba los fenómenos a sus causas. Estas ambiciones de la razón permitían abordar la prevención, actuar sobre las causas para cambiar los efectos. En vez de ello, nos dirigimos a un sistema de puras correlaciones. Ya no se intenta comprender el medioambiente, sino predecirlo. Nuestra relación con el saber cambia, pero también nuestra relación con el mundo: nos centramos más que antes en los riesgos. Ver y comprender son sustituidos por detectar y prevenir. Pasamos de una civilización del signo, que era portador de sentido, a una civilización de la señal, que es un dato que no significa nada en sí mismo.
En otras palabras, con la ciencia se trata de actuar sobre el mundo, con la IA fetichizada, es el mundo el que actúa sobre nosotros, lo cual es muy distinto. Esto vuelve a poner de actualidad a un Marx que afirmaba en sustancia que no había que interpretar el mundo, sino que se trataba de transformarlo.
Traducción: viento sur
Notas
1/ Un octeto está formado por 8 cifras binarias (bits), es decir, una secuencia de 8 ceros o unos. Permite codificar 28=256 caracteres, o sea, mucho más que todo un alfabeto con mayúsculas, acentos y signos de puntuación.
2/ Cosa que parecía totalmente fuera del alcance cinco años antes…
3/ Consultable en línea en https://www.wired.com/2008/06/pb-theory/ (en inglés)
4/ Jedan-Philippe Bourgoin, Voyage au cœur du big data, Clefs CEA, n.º 64, junio de 2017.
5/ Se conocen las numerosas polémicas en torno al significado del CI (el cociente intelectual).
6/ Alan Turing (1912-1954), genial matemático inglés que logró descubrir el código secreto alemán durante la segunda guerra mundial. Perseguido por su homosexualidad, se suicidó comiéndose una manzana envenenada.
7/ The signal and the noise: The art of science and prediction, Penguin, 2012.
8/ Profecía atribuida a Einstein: un día, las máquinas podrán resolver todos los problemas, pero ninguna de ellas podrá jamás plantear uno.
9/ Por ejemplo, la minúscula modificación de algunos píxels en una foto de una oveja que pasta en un prado puede hacer que la máquina la identifique como una mesa, cosa que el sentido común, evidentemente, no lo permitiría.