El blog de Julián Alberto Martín

9 de abril de 2019

Inteligencia Artificial en educación

En los últimos tiempos es muy habitual encontrar expresiones como “los datos son el nuevo oro”, “las empresas más importantes son las que tienen los datos”, etc. Se puede decir que el dato está de moda y que hay una cierta erótica del dato. Parece que todo el mundo busca los datos.

Además, y por lo que parece en el ambiente, este creciente interés por los datos no solamente está basado en el interés por los datos en sí mismos, sino que además se mezcla también con el interés por la Inteligencia Artificial que, según como se interpreta últimamente, tiene mucha relación con los datos. De esto ya hablamos en esta entrada anterior.

¿Por qué se produce este interés por los datos?

Desde los pitagóricos, hace 2.500 años, ya sabemos que si miramos a fondo los números podemos encontrar ciertas curiosidades y patrones. Hasta hace poco esta característica de los números no dejaba de ser una cierta curiosidad matemática, pero con la aparición de los ordenadores y su enorme fuerza de cómputo se ha desarrollado toda una nueva disciplina: la ciencia de datos, que se dedica a extraer estos patrones existentes en cualquier conjunto de números y datos.

Ya vimos en esta entrada anterior cómo la ciencia de datos está creando recientemente una línea de trabajo muy interesante, que suele denominarse habitualmente con términos ingleses como Machine Learning, Neural Networks o Deep Learning. Lo interesante de esta línea de trabajo es que está produciendo resultados prácticos bastante llamativos, como el hecho de que los ordenadores, gracias a ella, están “aprendiendo” a distinguir razas de perros o gatos en imágenes, están “aprendiendo” a jugar al ajedrez o al juego oriental Go, o incluso a videojuegos complejos, mejor que cualquier humano. Los ordenadores ya son mejores que nosotros en algunos aspectos. Esas mismas técnicas se están utilizando también para otras cuestiones más prácticas, como pueden ser identificar lesiones cancerígenas en imágenes médicas, o incluso mantener determinadas conversaciones prácticas con humanos, como las llamadas que hace Google para pedir cita en una peluquería, por ejemplo. Ejemplos de inteligencias artificiales específicas basadas en ciencia de datos.

Todo esto está creando una gran expectación y muchos tienden a no comprender bien qué procesos y actividades son susceptibles de ser abordadas con las técnicas de Machine Learning, con lo que en muchas ocasiones se sobrevaloran las posibilidades de la Inteligencia Artificial. Incluso se oye hablar a veces de robots con inteligencias generales superiores a las humanas, o similares a las humanas, como en la película Blade Runner. Algo de lo que estamos ciertamente muy muy lejos…

En este contexto, ¿qué está sucediendo en la educación?

La ciencia de datos y su línea de trabajo de Machine Learning quiere también utilizarse en educación. Lo más habitual en que se piensa es en capturar la mayor cantidad posible de información sobre las interactuaciones de los estudiantes con los contenidos educativos digitales, para de ahí extraer mágicamente alguna información nueva que hasta ahora desconocíamos sobre cómo aprendemos los humanos y quizá supuestamente podamos con ello mejorar los productos educativos digitales.

De hecho, hay iniciativas muy grandes para integrar los datos de los estudiantes en todas sus vertientes: desempeño escolar, datos sociales y demográficos, datos administrativos, etc. Los informes PISA no dejan de ser un esfuerzo en esta línea. En Estados Unidos ya hay algún gran plan para hacer “fontanería de datos” educativos de tal manera que los datos que aportan muchas herramientas propias del sector puedan complementarse. Si hiciéramos lo mismo en España, por ejemplo, se trataría de cruzar los datos de los estudiantes que se producen en los grandes Entornos Virtuales de Aprendizaje públicos y privados, con los de los ERPs públicos y privados, con los de las grandes editoriales y generadores de contenidos interactivos, o los que recogen los sistemas de las grandes empresas tecnológicas. Todo junto. Esa sería la consecuencia lógica del planteamiento que se suele adoptar habitualmente. ¿Por qué? Porque muchos suponen que, de esta manera, y con técnicas de Machine Learning, “algo aprenderemos de esas máquinas tan listas que nos ganan jugando al ajedrez”, si se nos permite la broma. En realidad, no se sabe muy bien del todo qué se quiere obtener exactamente. Se avanza a ciegas, guiados por intuiciones.

La perspectiva de iteNlearning

Nuestra perspectiva en la empresa iteNlearning es diferente. Pensamos que el Machine Learning es desde luego una técnica muy interesante, y que está dando unos frutos muy prácticos. Pero no tiene una aplicación demasiado interesante en educación. Frente al Machine Learning, nosotros proponemos el “Student learning”. No es la máquina la que tiene que aprender, sino los estudiantes.

En este punto es importante volver a insistir en uno de nuestras líneas fundamentales de pensamiento, y es la que distingue entre distintos acercamientos a la relación entre tecnología y educación:

Aprender SOBRE tecnología. Necesario en nuestro mundo tecnológico.
Aprender CON tecnología. Algo que no mejora los resultados de los estudiantes.
Aprender GRACIAS A la tecnología. Este es un gran campo de investigación.

En iteNlearning nos dedicamos a la línea de investigación de “aprender GRACIAS A la tecnología”. Para ello, nos basamos necesariamente en un paradigma de la Educación Basada en Evidencias, igual que sucede por ejemplo en Medicina. Es fundamental dejar atrás una educación basada en opiniones y creencias, y utilizar únicamente modelos científicos. En esta línea de trabajo de iteNlearning, en consecuencia, resultan fundamentales los conceptos de validación científica, y también de eficacia y eficiencia.

La actividad principal de la empresa es consecuencia de todo esto: la creación de INSTRUMENTOS EDUCATIVOS PROFESIONALES. De la misma manera que los médicos tienen herramientas para el diagnóstico y para el tratamiento sin las cuales hoy en día no podrían sacar adelante su trabajo, los docentes deben contar también con herramientas similares. Esto es lo que venimos haciendo desde el año 1995.

Por eso nuestra estructura como empresa tiene varias partes, cada una de las cuales cumple su función:

Comité científico. Formado por personas de muy alta cualificación y gran prestigio en sus respectivas disciplinas, que nos orientan sobre qué dice la ciencia con relación a cómo aprendemos los humanos la lectoescritura, las matemáticas, etc.
Base de Datos del Conocimiento Científico. Donde todo ese saber se almacena objetivado y de manera práctica. Este es un componente valiosísimo de la estructura empresarial de iteNlearning.
Laboratorio de Desarrollo. Donde se plantean inicialmente como prototipo diversos artefactos interactivos que buscan mejoras objetivas en el aprendizaje humano.
Centro de Pedagogía Terapéutica. (Fonos Salud). Donde se comprueba la eficacia de los artefactos interactivos creados en el Laboratorio de Desarrollo, en pruebas de caso con estudiantes que presentan dificultades de aprendizaje.
Durante unos años tuvimos en propiedad un centro educativo propio, aunque desde hace unos años probamos no ya la eficacia, sino también la eficiencia, de los desarrollos de iteNlearning, en una pequeña red de centros con los que venimos colaborando. Nunca son más de 40-50 al año.

El proceso vuelve una y otra vez a producirse, buscando una mejora continua, en un proceso recurrente.

En los últimos años, estamos elevando el alcance de nuestra investigación. Especialmente gracias al proyecto que ejecutamos para el Ministerio de Industria, a través de Red.es, donde hemos trabajado con más de 15.000 estudiantes a lo largo de varios años, con unos resultados que han sido puestos en valor en numerosas ocasiones (ver por ejemplo aquí y aquí). La más reciente es esta de la Consejería de Educación donde se llevó a cabo el proyecto. O incluso en la propia sede del Ministerio de Educación.

De esta manera, nuestro planteamiento en relación a los datos y a la Inteligencia Artificial es diferente del que habitualmente se da en el sector. El estándar es lo que en este artículo de Harvard viene a llamarse “bottom-up machine learning”, donde los ordenadores “aprenden” a partir de una serie de datos más o menos grande. Con ese planteamiento, y en el mejor de los casos, se puede hacer un aprendizaje adaptativo limitado a una propuesta de selección de contenidos (similar a lo que hacen por ejemplo Amazon o Netflix) o una gestión ligera de las curvas de memoria, como en este celebradísimo artículo científico que publicó la empresa Duolingo recientemente.

Nosotros en iteNlearning no nos centramos en el Machine Learning sino en el “Student Learning”. Seguimos lo que en el anteriormente citado artículo de Harvard han venido a llamar “top-down models for mimicking human intelligence”. Es decir, crear modelos computables de los modelos neuropsicológicos o cognitivos del aprendizaje, que conocemos gracias a las Ciencias y Tecnologías del Conocimiento: psicología cognitiva, neurociencias, lingüística, epistemología e Inteligencia Artificial. De ello nos informa y actualiza nuestro comité científico.

Con esto, siguiendo reiteradamente el proceso de mejora continua descrito más arriba, somos capaces de producir Instrumentos Educativos Profesionales, que tienen las siguientes características:

Evidencia científica. Parten siempre y necesariamente de ella. Es nuestro principal valor.
Validación. Necesario igual que sucede por ejemplo con los avances médicos.
Aprendizaje adaptativo. En tres niveles:
- Nivel 1. Tratamiento del error. En tiempo real.
- Nivel 2. Gestión inteligente de las curvas de aprendizaje y de las curvas de memoria de los estudiantes.
- Nivel 3. Selección inteligente de los contenidos.
Analíticas de aprendizaje. Mucho más allá de los estándares tipo SCORM. Con especial atención a las funciones cognitivas generales (atención, memoria, velocidad de procesamiento, etc.) y sobre todo a los procesos cognitivos específicos de cada área curricular.
Metacognición gamificada.

Por eso somos diferentes.

Este texto es el resumen de una presentación en formato de Pecha-Kucha que ofrecimos recientemente en una actividad de la Asociación Educación Abierta que puede consultarse aquí.

14 de octubre de 2018

¿Por qué Google ha matado esta semana un servicio que hace muy poco era casi lo más importante?

Esta semana hemos vivido cómo Google ha decidido "matar" su red social, Google+. Fue una iniciativa que nació con mucha fuerza por razones que ahora explicaremos, pero que poco a poco dejó de recibir interés por parte de Google porque la empresa consiguió su objetivo por otras vías, que además han pasado más desapercibidas y resultan mucho más interesantes. Lo explicaremos en este post.

Google es una empresa que busca ordenar toda la información disponible. Además, obtiene un rendimiento económico de ese orden. El ejemplo más claro, que además coincide con el núcleo de su negocio, es su buscador. El buscador de Google, en realidad, tiene un funcionamiento muy sencillo. Tiene tres partes:
1.- Los servidores de Google almacenan todas las páginas web que despliegan información sobre un término de búsqueda dado. Por ejemplo: ¿qué páginas hablan sobre el término "jirafas"? Todas ellas están almacenadas por Google, y este almacén está en permanente revisión y actualización. Con esto la empresa tiene toda esta información, pero es una información sin ordenar. ¿Cómo ordenarla?
2.- Google examina cuántas páginas tienen un enlace a cada una de sus páginas indexadas. Si muchas páginas tienen enlaces a una página que habla sobre el término "jirafa", esta página será más importante que otras páginas que hablan sobre el término "jirafa" que no tienen tantas páginas con enlaces hacia ella. Así ya sí se puede ordenar la relevancia de cada una de las páginas de Internet. Este es básicamente el funcionamiento del algoritmo de Google. Y es lo que llamaremos "el grafo informativo" de Internet.
3.- Pero unos enlaces no son iguales que otros. El algoritmo de Google no da el mismo valor a que una página sobre el término "jirafa" sea enlazada desde una pequeña página personal a que sea enlazada desde un gran medio de comunicación internacional, por ejemplo. Tampoco es lo mismo que una página sobre el término "jirafa" sea enlazada por páginas que también hablan sobre jirafas, lo que indicaría un cierto prestigio dentro de ese conjunto de páginas concretas. Hay otras variables a considerar: que sea una página segura o una página no segura, que se vea bien en móvil o que no se vea bien en móvil, que el término aparezca muchas veces dentro de la página o pocas, que se incluyan fotografías o vídeos con ese término o no, etc. Estas variables son muchas, y el distinto peso que les da Google es el "secreto" que tiene la empresa. De hecho, cada vez que Google cambia la ponderación de los distintos elementos, las páginas cambian el orden en los resultados de búsqueda, y subir o bajar puestos en ellos puede suponer enormes cantidades de dinero para los que los experimentan, en positivo si suben o en negativo si bajan.

Esto es lo que hace Google con la información disponible en Internet. Lo que hemos llamado "el grafo informativo" de Internet.

Pero la red social de Google respondía a otro objetivo de ordenación. Lo que se quería con Google+ era ordenar no la información, sino las relaciones entre las personas. Es "el grafo social": cómo se relacionan unas personas con otras. Si os fijáis, las redes sociales como Facebook o Twitter pueden hacer con las personas lo que el buscador de Google hace con las páginas web. Esto es, pueden saber cuántas personas hay, cuántos "amigos" o relaciones tiene cada persona, y cuán importantes son esas relaciones. Hasta podrían hacer rankings de personas en función de todo eso. Y esta es una información interesante.

Esto es lo que quería hacer Google cuando lanzó su red social: conocer las relaciones entre las personas. Era el momento de mayor fuerza de Facebook, y Google quería igualar su poder en este terreno. Por eso, como decíamos al principio de este texto, la empresa de Mountain View puso su red social preponderante en todos y cada uno de sus servicios. Desde el momento en el que utilizabas cualquier servicio de Google, pasabas a formar parte de su red social, y se te "empujaba" a que hicieras uso de ella. Esta era la idea.

Sin embargo, a partir de ese momento sucedieron dos cosas al mismo tiempo:
1.- A pesar de que Google+ era una red social bien concebida y era interesante como concepto, no tuvo interés para el público. La gente no la utilizaba. Esto es algo que pasa a veces: buenos productos, lanzados por empresas punteras, no son necesariamente un éxito garantizado.
2.- Android, el sistema operativo móvil de Google, consiguió una cuota de mercado aplastante en un mercado inmenso y creciendo sin parar.

Y la clave para lo que estamos explicando aquí está en una de las características que tiene Android y que parece relativamente pequeña. El sistema operativo de Google para los teléfonos inteligentes permite de una manera muy sencilla obtener copias de seguridad de la agenda de contactos de los usuarios. Además esta copia de seguridad se incentiva. De esta manera, un número altísimo de usuarios de Android, que son miles de millones en todo el mundo, utiliza esta funcionalidad. Con esto, lo que sucede es que Google ya tiene el grafo social que buscaba.

Además, ese grafo social es mucho más valioso que el que produce una red social. Esto se debe a que la relación entre las personas es más "real" si las dos están en sus agendas mutuas que si son "amigos" en una red social. El grafo social de Google a través de los contactos del teléfono que maneja Android es más valioso que el que maneja Facebook. La empresa de Mark Zuckerberg ha intentado contrarrestar esta diferencia sumando a su portfolio otras redes sociales, como Instagram y, sobre todo, WhatsApp; con ello, puede ver la calidad e intensidad de las relaciones humanas sumando los datos de las tres simultáneamente. Y por eso muchas aplicaciones tienen tanto interés en recabar información sobre nuestros contactos del teléfono.

En este panorama general, Google+ fue un intento de Google para conseguir un objetivo que logró de manera más interesante por otras vías. Era cuestión de tiempo que desapareciera.

12 de octubre de 2018

Superman: La película (1977)

Revisitar como padre cuarentañero la vieja película de Superman (1977) con Christopher Reeve es un soplo de aire fresco. Frente a la parafernalia de efectos digitales que inundan las películas de superhéroes actualmente, aquí vemos una historia sencilla y efectiva, visualmente interesante con técnicas que hoy en día siguen llamando la atención, una música estratosférica a cargo de John Williams y un tono general más que notable.

Desde el primer momento, además, surge la comparación con La guerra de las galaxias, porque ambas son del mismo año y comparten muchos elementos. Frente a ella, la película de Superman ha permanecido más setentera, más pura y original, ya que en estos momentos es prácticamente imposible encontrar la versión antigua de lo que ahora se llama Episodio IV.

En Superman podemos disfrutar con la actuación de los carismáticos Marlon Brando o Glenn Ford, como padres de Superman en Krypton y la Tierra, o de un divertido Gene Hackman como Lex Luthor. Pero es la figura de Christopher Reeve la que más llama la atención, con ese cambio creíble entre el tímido Clark Kent y el poderoso Superman. Todo funciona. Incluso el traje que, lejos de parecer un pijama, resulta adecuado. Las escenas de acción también impresionan en los dos planetas, y la fotografía, especialmente en la primera mitad, resulta fabulosa. Las tomas de Smallville parecen cuadros.

Los niños de la familia, mellizos de seis años, también disfrutan de la magia. Ellos también se imbuyen de esa atmósfera setentera que les resulta peculiar ("¿esta película es antigua, papá?"), pero interesante. Ven algo distinto en ella. Y la magia del personaje les llega como a los espectadores originales. Es curioso que la niña sintió una fascinación mayor que el niño, sobre todo en las escenas "de amor" entre Superman y Lois Lane, como el vuelo que hacen sobre Nueva York en éxtasis. Probablemente Superman es uno de los "príncipes azules" más logrados de la cultura occidental. Y este Superman tiene un carisma especial.

Les llamó mucho la atención la parte donde el héroe pierde su fuerza por la acción de la kryptonita, y no se aburrieron en ningún momento de la película, que tiene una duración bastante larga para los estándares infantiles actuales. Seguramente hoy en día los cineastas habrían abreviado las partes de Krypton y Smallville, para ir más directamente a la acción de Metrópolis y California. Pero esa es precisamente la diferencia entre una historia escrita por Mario Puzo (el autor original de El Padrino) y la urgencia actual: con esta película comprendemos al personaje y su pensamiento. No hay superficialidad.

En definitiva, una película recomendada para ver en familia. Disfrute intergeneracional.

Podéis verla en Google Play aquí.

18 de septiembre de 2018

¿Qué es el Big Data? ¿Qué es la Inteligencia Artificial? ¿Por qué están relacionados?

Comenzaremos con la ciencia de los datos. Big Data, Data Mining, etc. Aunque estos tres términos en realidad no son del todo equivalentes, a los efectos de esta explicación diremos que, básicamente, todos ellos consisten en analizar conjuntos de datos más o menos grandes, y extraer de ese análisis varios tipos de resultados, los más importantes de los cuales son patrones y modelos.

Los análisis de datos también pueden generar otros resultados, como por ejemplo alertas, recomendaciones al usuario, o incluso podrían llegar a activar un actuador, como los frenos de un coche con un sistema de conducción automática. Estos aspectos más operacionales son los frutos de los esfuerzos de modelización o aprendizaje y son el principal aspecto de la definición que daban los analistas de mercado al término "análisis predictivo", es decir, tratar de orientar el análisis al futuro, pero con resultados tangibles más allá del mero ejercicio analítico.

Sobre esto volveremos más adelante a propósito de la Inteligencia Artificial. De momento, volvemos a los dos conceptos clave de patrón y modelo.

Un patrón (o feature en inglés) dentro de un conjunto dado de datos es una relación que se encuentra entre algunos de ellos. Tenemos la capacidad de encontrar algo, ese patrón o feature, que es relevante para una investigación o problema que estemos estudiando, ya que los datos no se estudian en abstracto normalmente, sino con algún tipo de finalidad. La finalidad del análisis de datos suele ser dar respuesta a algún problema que nos hayamos planteado, y encontrar algún tipo de relación relevante o, al menos, las variables de entrada adecuadas, como una de las claves para poder crear un sistema que sirva para algo.

Es habitual citar el ejemplo de los supermercados que analizaron la venta de productos y encontraron que aquellas personas que compraban pañales para bebés también muy habitualmente compraban cerveza. Esto es un análisis puramente matemático, basado en estadística y probabilidad (estocástica), y que puede realizarse de forma directa incluso con una herramienta como Excel de Microsoft. Este tipo de relación puede resultar interesante, y supone un conocimiento empírico nuevo, pero realmente no parece que sea muy útil. En el caso anterior, por ejemplo, ¿podría pensarse que colocar cervezas cerca de los pañales hará que aumenten las ventas de las cervezas? Seguramente no.

Un modelo es un paso más, en el sentido de que es realmente lo que casa las entradas (datos de partida organizados en variables que codifican features o patrones) con el objetivo a estudiar. Es una relación entre unas variables y un resultado interesante. Pero no es una relación de causalidad. En algunos casos específicos (pocos) se trata de modelar explícitamente una relación de causalidad. Los modelos de causalidad son complejos. Es más sencillo ver que ciertas circunstancias se dan conjuntamente (tienen una cierta relación) que demostrar con un modelo matemático que una causa la otra. Muchas veces, en términos prácticos, nos conformamos con ver que la relación existe y mentalmente simplificamos y aceptamos una cierta causalidad implícita, aunque no la hayamos establecido con un estudio más complejo.

Por ejemplo: podemos detectar que existe la relación entre que ciertos clientes se hayan quejado el mes anterior por el canal de atención telefónica y que el mes siguiente se den de baja. Ambos hechos pueden estar relacionados, pero eso no significa que el hecho de llamar al centro de atención telefónica cabreado sea necesariamente la causa de un abandono: podrían ser muchas otras razones (muerte natural, otras ofertas, etc.). Cada cliente sería algo distinto.

Desde luego para poder demostrar que simplemente existe una relación, y mucho más para demostrar causalidad, es posible que se necesite estudiar un número muy elevado de casos o de experimentos. Un ejemplo de experimento pueden ser las pruebas de Testing A/B, cambiando algunos parámetros y observando los resultados.

En todo caso, si lo que se pregunta es si con una gran cantidad de datos se puede establecer causalidad con certeza absoluta, la respuesta al menos en estos momentos es que no. Puede suceder que una gran cantidad de datos puede ayudarnos a idear un modelo que sugiera una relación de causalidad, pero lo mismo podría suceder en algunos casos con una pequeña cantidad de datos. Una gran cantidad de datos tal que todos ellos satisfagan nuestro modelo aumentará nuestra confianza en el mismo, pero en este grado de confianza siempre habrá un elemento subjetivo y un cierto componente de duda sobre la veracidad del modelo.

Resumiendo: una gran cantidad de datos no tiene por qué ser muy útil en la creación de un nuevo modelo, aunque sí para mejorar nuestra confianza en un modelo existente (o descartarlo).

¿Por qué se suele relacionar el Big Data con la Inteligencia Artificial?

La Inteligencia Artificial es una disciplina que tiene como objetivo replicar aspectos del pensamiento humano mediante hardware y software. Por ejemplo, hay programas informáticos que “saben” jugar al ajedrez muy bien. ¿Significa esto que son inteligentes? Ciertamente no: solamente significa que “saben” jugar al ajedrez muy bien. Y nada más que eso. En realidad, no “saben” jugar al ajedrez: un programa de ajedrez recibe unas entradas y produce unas salidas. El significado de “partida de ajedrez” a una secuencia de dichas entradas/salidas se lo otorgamos los espectadores.

En cualquier caso, este es un ejemplo de una Inteligencia Artificial específica; en este caso, específica del ajedrez.

La Inteligencia Artificial es un campo que está avanzando deprisa, y cada vez hay más cosas que parecían exclusivas de la especie humana y que pueden ser hechas muy bien por programas informáticos, esto es, por inteligencias artificiales específicas. Incluso también puede suceder que algunos paquetes de software sean mejores que los humanos en algunas de esas tareas que parecían exclusivamente humanas. Esto de ninguna manera significa que los ordenadores (o robots) son más inteligentes que las personas: sólo significa que “saben” hacer muy bien esa tarea específica hasta el punto de que consiguen mejores resultados que los humanos. Pero únicamente en esa tarea específica, y en ninguna otra cosa más.

¿Cómo funciona la Inteligencia Artificial? ¿Y el aprendizaje automático? Hay dos tipos de estrategias: las redes neuronales y la computación de un modelo previamente conocido.

En estos momentos, y gracias al aumento en la capacidad de cálculo, se están utilizando mucho, y con gran éxito, las redes neuronales. Las redes neuronales básicamente consisten en “enseñar” a un software una cantidad suficiente de datos etiquetados que consiga que ese software sea capaz de “etiquetar” correctamente y de manera autónoma un dato nuevo con un índice de acierto razonablemente alto. Cuanto mayor sea el índice de acierto, mayor será la fiabilidad de esa red neuronal para la tarea encomendada. A este acercamiento también suele conocérsele como “aprendizaje supervisado”, porque se produce al aportar información de cierta manera a la máquina. Las redes neuronales, en realidad, están basadas en un procedimiento matemático que se parece bastante a cómo la ciencia de los datos encuentra patrones y modelos.

¿Cómo puede una inteligencia artificial específica alcanzar un grado de “conocimiento” interesante sobre un problema determinado? Muchos creen que esto es posible gracias a la sucesiva incorporación de un número muy elevado de capas superpuestas al análisis (Deep Learning) que necesitan, en consecuencia, un número muy elevado de datos para poder operar (Big Data). Con esto, se conseguiría que la máquina haya virtualmente “aprendido” (Machine Learning). Aprendizaje automático.

Para aplicar esta metodología de Machine Learning hace falta un proceso de cálculo muy grande. Y una gran cantidad de datos etiquetados de forma correcta. Por eso se dice mucho actualmente que los datos son “el oro del futuro”. En realidad, los datos no son valiosos en sí mismos: lo son en todo caso si y sólo si están etiquetados correctamente, y ese etiquetado tiene un valor. De lo contrario, los datos no son más que ruido. Muchas empresas que contratan los servicios de especialistas en Big Data para obtener supuesto conocimiento no podrán conseguirlo nunca porque la materia prima que quieren utilizar no son datos etiquetados con etiquetas valiosas, sino simplemente montañas de ruido.

Lo primero que debemos tener, por tanto, para intentar conseguir “conocimiento” a partir de datos es que los datos que utilicemos como materia prima para “enseñar” a las máquinas sean realmente datos etiquetados con etiquetas interesantes para nosotros, y no montañas de ruido.

Ahora bien, en el mejor de los mundos posibles, en el que contemos con una cantidad realmente muy grande de datos (Big Data), bien etiquetados con etiquetas interesantes, que sean procesados por ordenadores con una muy alta potencia de cómputo a través de un número muy elevado de análisis (Deep Learning), ¿tendremos algo valioso? Sí, y esa es precisamente el valor de empresas que son capaces de reunir todos los elementos descritos (Google, Amazon, etc.). Pero este “algo valioso” que se obtiene, ¿es realmente “conocimiento”? La máquina ¿habrá “aprendido”?

Para responder a esta pregunta, lo primero que hay que indicar es que este tipo de procedimientos solamente se dan para tareas específicas. En muchas de ellas, una máquina puede alcanzar un “conocimiento” específico. Sin embargo, este conocimiento tiene un acercamiento asintótico a la verdad (entendida como una adecuación entre una afirmación y la realidad), y nunca será capaz de replicarla con exactitud.

Por lo demás, otro de los problemas que tiene este procedimiento es que es “ciego”: el patrón que ha utilizado el sistema para aprender resulta una caja negra. No podemos saber “cómo” es que una máquina “sabe” algo. Lo único que podemos hacer es validar ese “conocimiento”. La validación inicialmente será para dar por bueno el “aprendizaje” de la máquina y, posteriormente, será para confirmar que después de un uso elevado, el criterio desconocido que utiliza la máquina sigue siendo válido. Cada cierto nivel de uso nuevo, deberíamos volver a evaluar el conocimiento de la máquina, como en un calibrado.

Frente a la pura caja negra, se está trabajando últimamente en técnicas que permiten bucear entre los cálculos efectuados como para permitir extraer una serie de datos que pudieran ser interpretados como una posible "explicación" de lo aprendido. Pero, de momento, este es un campo de futuro dentro de la Inteligencia Artificial, aunque se están produciendo avances continuamente.

Hay otra estrategia para el aprendizaje automático distinta del aprendizaje supervisado, y es la del aprendizaje NO supervisado. Al aprendizaje no supervisado también se le llama muchas veces “reinforcement learning”, aunque no son exactamente lo mismo porque hay técnicas de aprendizaje no supervisado que no se encuadran dentro del reinforcement learning. En el caso del aprendizaje no supervisado, no hay un conocimiento a priori, y por eso este aprendizaje no puede ser “calibrado” sino solamente en función de su utilidad y validez en pruebas para resolver problemas de la vida real bajo ciertas circunstancias.

En el aprendizaje no supervisado, el sistema recibe como input una serie de reglas, con las que puede activar variables aleatorias de forma sistemática y repetida, hasta conseguir optimizar las acciones con una finalidad concreta.

Un buen ejemplo para distinguir el aprendizaje supervisado y el no supervisado es el que se ha seguido para “enseñar” a los ordenadores a “jugar al ajedrez”. Con el aprendizaje supervisado, la estrategia que se sigue es aportar al sistema un número muy elevado de partidas jugadas, así como su desarrollo y desenlace. Gracias a esa información, un software puede identificar dentro de una partida cuáles son los movimientos mejores, esto es, cuáles son los movimientos que le acercarían a la victoria en el juego. En el caso del aprendizaje no supervisado (reinforcement learning), la estrategia es darle al sistema las reglas del ajedrez, así como información sobre cuándo se produce la victoria, y dejar al sistema que, por sí solo, y sin información adicional de ningún tipo, “juegue” muchísimas partidas distintas y, de esa manera, sea capaz de inferir en cada momento la mejor jugada posible.

En el caso concreto de juegos como el ajedrez o el Go, se ha demostrado la superioridad de resultados del aprendizaje no supervisado frente al aprendizaje supervisado. El problema que tiene esta estrategia es que puede darse únicamente en situaciones donde las “reglas del juego” son conocidas en su totalidad. Y esto es algo que no sucede habitualmente en la realidad.

La magia en el caso de la victoria de Deep Mind de Google en el juego Go, que ha tenido tanta repercusión, está fundamentalmente en la técnica de reinforcement learning utilizada, pero también en los detalles de su aplicación: ¿cómo se predice cuál es la posición del oponente más probable?, ¿cómo se asigna una puntuación a las posibles posiciones del juego para guiar el proceso? De todas formas, y viendo siempre la aplicación práctica, lo interesante de Deep Mind de Google es que están extrayendo parte de la lógica del programa que utilizaron para vencer en el Go, y lo están aplicando a otros problemas, como por ejemplo el ahorro de energía en sus centros de servidores, que es un problema económico enorme para ellos.

¿Es posible portar este planteamiento a otros problemas? Esta es la pregunta realmente interesante. ¿A qué tipo de problemas?

Pero volvamos a la segunda estrategia que puede utilizar la Inteligencia Artificial: hacer computables modelos de conocimiento dados.

Cuando disponemos de un modelo de conocimiento sobre un aspecto específico, esto es, cuando hay una serie de datos que nos dan una información no de correlación sino de causalidad, podemos plantearnos la posibilidad de hacer computable el modelo. Hay algunos modelos de conocimiento humano que son computables y otros modelos que no lo son. Distinguirlos es probablemente la tarea más importante para la Inteligencia Artificial desde un punto de vista cualitativo.

Cuando un modelo de conocimiento es computable, es porque hay un conjunto completo y suficiente de reglas o procedimientos que son susceptibles de ser computables. Conociendo ese conjunto completo y suficiente de reglas o procedimientos susceptibles de ser computables podemos ser capaces de hacer también computable un modelo de conocimiento.

Esta segunda estrategia de la Inteligencia Artificial no está basada, como la anterior, en la utilización de una grandísima potencia de cálculo, ni en la necesidad de contar con una grandísima cantidad de datos etiquetados con unas etiquetas interesantes. Su materia prima es otra: el conocimiento previo sistematizado en un modelo. El ámbito del conocimiento humano que opera mediante modelos de conocimiento probados se llama ciencia. El método científico se caracteriza precisamente porque sus conocimientos están “probados”. Al menos hasta que se detecten anomalías en ellos y surja un paradigma nuevo.

Esta estrategia de la Inteligencia Artificial es mucho más interesante que la primera, porque su acercamiento a la realidad no es asintótico, sino que el conocimiento es exacto, en la medida en que lo sea el modelo de conocimiento en el que se basa. En el caso de que en un “calibrado” de los resultados de esta estrategia se detecten errores, lo que habrá que volver a analizar y validar no es el procedimiento de computación, sino el modelo previo utilizado (el conocimiento científico). Con eso se ayudará a que la ciencia sea cada vez más avanzada. Así, esta segunda estrategia de la Inteligencia Artificial supone un instrumento idóneo para el avance del conocimiento científico.

15 de julio de 2018

Telegrama a Didier Deschamps

Destinatario: Didier Deschamps, seleccionador del combinado de Francia en el Mundial de Fútbol de Rusia 2018
Ocasión: triunfo en la Final del Mundial

Estimado señor,

Uno de los equipos más jóvenes del Mundial ha tenido el comportamiento más sereno y firme de la competición. Ha vencido con claridad a selecciones con tanta personalidad y empuje como Argentina, Uruguay, Bélgica y Croacia. En ninguno de esos partidos hubo emoción: Francia siempre se impuso con holgura. Con oficio. Tranquilamente.

Qué diferencia con la Francia de hace solamente ocho años, cuando los Ribery, Evra, Toulalan, Malouda, Gourcuff, Cisse o Anelka, junto a otros grandes jugadores, se despidieron entre la desidia y los escándalos de millonarios que empleaban su tiempo con prostitutas menores de edad. Francia avergonzada.

Parece que la rectitud es importante. Y el estar concentrados. Vio usted conatos de volver a las andadas, con aquello de Benzemá y Valbuena, y lo cortó de raíz. ¿Renunciar al delantero titular campeón de las tres últimas Champions? Sin duda. El equipo es más importante.

Porque los jóvenes galos de ahora forman un grupo de enormes individualidades, pero los de hace ocho años también. La diferencia está en la seriedad. En la pulcritud. El deporte de competición es eso: centrarse. Y usted ha enfocado a un país entero.

Mi enhorabuena.

Justa vencedora del Mundial.

Un abrazo,

Julián Alberto Martín

10 de julio de 2018

Telegrama a Roberto Martínez

Destinatario: Roberto Martínez, seleccionador de la Selección de fútbol de Bélgica en el Mundial de Rusia 2018

Ocasión: primera semifinal del Mundial, donde Bélgica ha caído eliminada

Estimado señor,

Ha conseguido usted que los españoles tengamos cariño a la selección de Bélgica. A pesar del dolor que nos produce a muchos su camiseta, después del partido en el que Jean Marie Pfaff apeó en el penalty de Eloy a la España de Butragueño, el héroe de Querétaro. Venía España de aplastar a la Dinamarca de Morten Olsen, Frank Arnesen, Soren Lerby y un joven Michael Laudrup. Pero se topó con Bélgica. Pfaff.

Muchos españoles supimos lo que era la derrota en el fútbol por aquel partido. Y eso es algo que se arrastra como una cadena al tobillo. Después vinieron los fiascos de Zubizarreta, que nos echó él sólo de dos mundiales. Pero ya estábamos curados de espanto. Por Bélgica.

A pesar de ello, en este mundial, muchos hemos disfrutado con el fútbol de su selección. Hazard, De Bruyne, Courtois, Lukaku... hasta Fellaini nos hace gracia. Pero, sobre todo, usted. El emigrante.

Y es que su figura nos ha despertado una enorme simpatía: la del que no fue apreciado en España y marchó al extranjero para vivir su pasión primero como futbolista y luego como entrenador, que fue capaz de labrarse una carrera prestigiosa desde la nada en un país tan complicado como Inglaterra y que, luego, pasó a una selección para dirigirla con brillantez. El anhelo de cualquier currito patrio: demostrar de lo que uno es capaz, aunque tenga que ser fuera porque aquí no le dejan.

Ya lo decía el Cantar del Mío Cid hace 800 años: qué buen vassallo, si oviesse buen señor!

Es usted otro héroe español. Lástima que, como suele pasar también en España, pase a ser vencedor moral del Mundial.

Un abrazo fraternal,

Julián Alberto Martín

8 de julio de 2018

¿Cómo funciona un coche autónomo?

Un coche autónomo es un vehículo que es capaz de moverse por sí mismo sin intervención humana en cualquier condición de tráfico, y alcanzar su destino sin dificultad. En su versión más natural, un coche autónomo funcionaría sin puesto para el conductor, esto es, sin volante o pedal de freno. Es una de las imágenes que tenemos grabadas en nuestra memoria todos los que nos hemos criado con películas de ciencia ficción.

En realidad deberían llamarse coches "autómatas" y no "autónomos" porque lo que los caracteriza es que se mueven solos, pero no tienen autonomía, ya que hay que indicarles siempre dónde queremos ir. No obstante, en este post seguiremos hablando de coches "autónomos".

Lo interesante es que esa promesa de los cuentos de hadas (o pesadillas) futuristas está empezando poco a poco a ser una realidad. Esto es algo que sucede desde el 7 de noviembre de 2017 en Phoenix. Una fecha a recordar por ser la primera vez que esto sucedió. Pero esta posibilidad se está dando cada vez en más sitios: los vehículos de Waymo (Google) en varias ciudades de Estados Unidos, los de la rusa Yandex en Moscú, los de Intel en Jerusalén, los de la startup de Silicon Valley Drive.ai en Texas, Aptiv (competencia de Uber) en Las Vegas, etc. Hasta Apple está entrando en este campo, con una experiencia en California. Pero esto no sucede solamente en Estados Unidos, Israel o Rusia: en China todas las grandes compañías tecnológicas están con pruebas de vehículos autónomos. Estos ejemplos han sido extraídos del siempre interesante blog de Enrique Dans, en una de sus entradas recientes.

¿Echáis de menos a Tesla y a Uber? En realidad, el modo de "Autopilot" de Tesla podría quizá considerarse como una experiencia de coche autónomo, pero teniendo en cuenta que el conductor debe tomar los mandos ante cualquier situación peligrosa, estamos más bien en la categoría de una ayuda a la conducción. Muy cercano a la conducción autónoma, desde luego, pero aún sin alcanzarla en plenitud, como sí sucede en los casos anteriores. Y en el caso de Uber no hay duda de que tarde o temprano entrará en esta categoría, pero de momento sigue funcionando con conductores humanos. Lo que quizá se esté planteando Uber es utilizar en su flota coches conducidos por Waymo (Google), como alguna vez ha parecido que decían.

¿Cómo es posible que existan los coches autónomos? ¿Cómo funcionan? Para responder a esta pregunta es importante comprender cómo funcionan varios tipos de tecnologías. La mayoría de los coches autónomos utilizan varias de estas técnicas:

Radar. La vieja invención de la Segunda Guerra Mundial, que fue tan decisiva en su desenlace.
Sensores ultrasónicos. Tan habituales en muchos coches como ayuda al aparcamiento.
LIDAR. Es una tecnología avanzada a la que dedicamos una entrada en este blog, que conviene leer para comprender todos sus detalles.
Cámaras y aplicaciones de visión artificial. También hemos explicado hace poco en este blog cómo funcionan.

Básicamente, la idea es que los coches autónomos capturan la información del entorno mediante los datos recogidos simultáneamente y procesados por varias de esas tecnologías. Esto les permite hacerse una idea de la realidad que tienen a su alrededor, y actuar en consecuencia.

Como es fácil de comprender, este proceso de toma de datos y procesado implica la utilización de ordenadores con una gran fuerza de cálculo. Esa es la razón por ejemplo de que Intel sea uno de los actores implicados. También otra gran compañía de procesadores como Nvidia está operando en este terreno. Otra de las líneas de trabajo está en la visión artificial. Los coches autónomos son uno de los grandes campos de futuro para la Inteligencia Artificial. Pero la gran diferencia entre las opciones tecnológicas que están tomando unas compañías y otras en relación con los coches autónomos está en la utilización o no de LIDAR.

¿Por qué el LIDAR es tan importante para los coches autónomos? Analicemos todas las tecnologías implicadas. En primer lugar, los sensores ultrasónicos; se utilizan sobre todo para el aparcamiento y las distancias cortas: hay muchos modelos ya que "aparcan solos", y han demostrado su gran eficacia y eficiencia en esa tarea, pero no funcionan bien fuera de ese uso. En cuanto al radar, han resultado un buen elemento pero su precisión es muy inferior a la de un LIDAR. La desventaja del LIDAR es su muy alto precio. La visión artificial, por último, resulta mucho más fácil de desplegar desde un punto de vista de hardware, porque en realidad para implementarla basta con una cámara digital normal; pero esto tiene sus (grandes) inconvenientes.

La gran lucha que se está dando es entre el modelo que quiere utilizar Tesla y el que plantea Waymo o Intel, entre otros. Es algo que se explica muy bien en este artículo. Tesla plantea un modelo sin LIDAR, basado sobre todo en el uso de visión artificial. Sus ingenieros confían en que la ingente cantidad de datos que están adquiriendo les va a permitir crear un coche verdaderamente inteligente. Los coches de Tesla incorporan ocho cámaras, doce sensores ultrasónicos y un radar orientado a la parte de delante del vehículo. No llevan LIDAR. Basan su estrategia en crear unos algoritmos de visión artificial que resulten suficientes para conducir con mejores tasas de seguridad que los humanos. En el caso de Waymo (Google), los vehículos de su flota llevan habitualmente ocho cámaras, el mismo número que los coches de Tesla, pero el radar frontal único se sustituye nada más y nada menos que por cinco radares y hasta tres tipos diferentes de sensores LIDAR.

¿Qué estrategia tecnológica será la ganadora? La de Tesla es más ambiciosa porque plantea un equipo más ligero y barato, que puede ir optimizándose y mejorando a base de actualizaciones de software, pero plantea más inseguridades, a pesar de la confianza de Elon Musk en sus avances (hace poco el visionario declaró que el LIDAR es una "muleta" innecesaria). La de Waymo, Intel y otros es más pesada y firme, porque incorpora hardware mucho más caro, pero resulta sin duda más segura. Todo dependerá de lo que sean capaces de conseguir los ingenieros de visión artificial próximamente.

Si me preguntáis mi opinión, yo me sentiría mucho más seguro en un coche autónomo con LIDAR que en uno sin él, especialmente en condiciones de mala visibilidad, como lluvia o niebla, donde las ventajas del LIDAR son innegables. Y ello por no hablar de la conducción nocturna. ¿Se habría producido el atropello mortal de la ciclista en la noche de Arizona en marzo pasado por un coche de Uber si hubiera tenido esta tecnología al máximo? Independientemente de que la conductora en el momento del atropello estuviera dedicándose a ver un programa de jóvenes cantantes en vez de estar centrada en la carretera, ese coche solamente tenía un LIDAR de 360 grados en el techo, en vez de los varios que incorporan, por ejemplo, los modelos usados por Waymo.

Otro factor fundamental en todo este entramado de tecnologías, y que no ha aparecido hasta ahora, es el de la geolocalización y los mapas. ¿Y cuál es la empresa más avanzada del mundo con sus ubicuos Google Maps? La misma que incorpora LIDAR. Mi apuesta es que el "conductor artificial" de Google (Waymo) será quien conduzca nuestros coches en el futuro. Un paso más de la compañía de Mountain View en su dominación mundial. Lo tienen claro desde hace mucho tiempo.