RoboRXN: Cómo automatizar la síntesis química

Por: Teodoro Laino, Distinguished RSM, Manager

Para la mayoría de nosotros, la química es un recuerdo lejano de la infancia que nos lleva de vuelta a nuestros días de escuela donde tuvimos que experimentar con reacciones químicas. Quiero decir, ¿quién no amaba la feria de ciencias de la escuela? Fue la única ocasión en la que se nos permitió hacer un desastre en la cocina mezclando bicarbonato de sodio, vinagre, agua y colorante rojo para hacer explotar un volcán.

La química está en todas partes. Desde los ingredientes vitales de productos de consumo como la Asprina hasta las materias primas de productos como el Nylon. Juega un papel esencial en los productos y tecnologías sin los que probablemente no podemos imaginarnos vivir. Sin embargo, de lo que la mayoría de nosotros quizás no nos damos cuenta, es que, en promedio, se necesitan al menos 10 años para descubrir un nuevo material y llevarlo al mercado, y que los costos de producción estimados son de alrededor de 10 millones de dólares. Tomemos el Nylon como ejemplo. La investigación comenzó en 1927 y se utilizó por primera vez en un cepillo de dientes en 1938. O la vitamina B12, cuya síntesis requirió 12 años y una fuerza de trabajo de más de 100 personas, incluyendo estudiantes de postdoctorado y doctorado.

La química sintética, o el arte de fabricar materiales, sigue siendo una de las disciplinas más tradicionales en lo que respecta a la digitalización y la adquisición de nuevas tecnologías. Los químicos siguen dependiendo de muchos de los mismos protocolos y se ha avanzado poco en la modernización de las antiguas prácticas de ensayo y error, para permitir una nueva era de descubrimiento acelerado.

Un dinámico grupo de científicos de IBM Research se propuso cambiar esto utilizando herramientas modernas como la inteligencia artificial (IA), la tecnología de nubes y la robótica.

Los científicos de IBM cambian el juego

Todo comenzó hace tres años cuando empezamos a desarrollar modelos de aprendizaje automático (machine learning) para predecir las reacciones químicas. Después de unos meses de desarrollo interno, lanzamos el servicio de forma gratuita a través de la nube de IBM en agosto de 2018 y la respuesta fue increíble. Lo llamamos RXN for Chemistry.

La magia detrás del RXN for Chemistry es un método de traducción de aprendizaje automático basado en redes neuronales de última generación que puede predecir el resultado más probable de una reacción química, utilizando arquitecturas de traducción automática neuronal. Similar a la traducción del italiano al inglés, nuestro método traduce el lenguaje de la química convirtiendo los reactivos  en productos, usando la representación SMILES para describir las entidades químicas.

Desde el lanzamiento hemos estado refinando el entrenamiento de la arquitectura y hoy, después de dos años, RXN para Química sigue siendo el método de IA basado en datos de mejor rendimiento para la predicción de reacciones futuras, con más del 90% de precisión top-1. Pero no se fíen de nuestra palabra – solo pregunten a los 15.000 usuarios que en total han generado más de 760.000 predicciones de reacciones químicas en los últimos dos años.

Más recientemente, en 2019, comenzamos a colaborar con un grupo de químicos orgánicos sintéticos de la Universidad de Pisa, Italia, para integrar una arquitectura retrosintética en la herramienta RXN. Para explicar esto, piensen en cómo se hace una pizza. La arquitectura retrosintética dice los ingredientes a utilizar para la pizza, y a la vez genera instrucciones de alto nivel para crearla en el orden correcto. Trabajando con el equipo de Pisa, añadimos esta característica a RXN for Chemistry el pasado octubre.

La investigación detrás del laboratorio autónomo

Volviendo a la fabricación de la pizza, las pautas generales dadas por el análisis retrosintético pueden no ser garantía de un resultado satisfactorio. Siempre hay unos pocos ingredientes secretos o técnicas detalladas que distinguen a una pizza gourmet de una normal, como la premezcla de parte de los ingredientes para obtener una textura deseada, y luego la mezcla del resto de los ingredientes en una segunda etapa. Estos son el tipo de consejos que se obtienen directamente de los cocineros con más experiencia o de la lectura de sus libros de cocina favoritos. Un químico no es diferente cuando se trata de recopilar consejos.

Y entonces se preguntarán por qué es necesario amasar la masa de la pizza. Esta es probablemente la tarea más tediosa, pero también la más importante para desarrollar la textura. Aún así, mezclar todo junto y tirarlo puede ser divertido una o dos veces, pero hacerlo 50-60 veces al día es cansador y lleva mucho tiempo. Ese tiempo y energía podría ser mejor empleado en otro lugar. Lo mismo es cierto para un químico que sintetiza moléculas.

Entonces, ¿cómo podemos hacer que la química sea divertida de nuevo? Lo hicimos reinventando la forma en que se hace la química. Todo lo que se necesitó fue una combinación de IA, tecnología de nubes y automatización de la química. Esta mezcla condujo a la creación de RoboRXN: algoritmos de aprendizaje automático que diseñan de forma autónoma (IA) y ejecutan (automatización) la producción de moléculas en un laboratorio accesible a distancia (nube) con la menor intervención humana posible.

Así que, ¿recuerdan los secretos de la fabricación de la pizza? El principal reto de la química es que muchos detalles operacionales sobre cómo «cocinar» los ingredientes químicos se reportan en prosa o en forma de datos no estructurados, lo cual impide un análisis e interpretación directos. Para poder construir un modelo de IA con la capacidad de aprender los pasos correctos de los procedimientos químicos, primero tuvimos que abordar el siguiente desafío: diseñar un algoritmo que extraiga específicamente la información de síntesis para la química orgánica y la convierta en un formato estructurado y fácil de automatizar.

En cuanto al enfoque de todo el marco de RXN, optamos por un esquema puramente basado en datos. Esto significa que una vez que el algoritmo de aprendizaje automático adquiera suficientes ejemplos, será capaz de averiguar por sí mismo a qué palabras prestar atención para extraer los pasos de producción correctos. Para proporcionar los datos de entrenamiento para el modelo de aprendizaje automático, establecimos un marco de anotaciones que nos permitió generar ejemplos de frases relacionadas con los procedimientos de síntesis y las operaciones correspondientes. La principal ventaja de este enfoque es que se basa únicamente en datos. Para mejorarlo, simplemente se necesitan más ejemplos.

A diferencia de otros enfoques, nuestro modelo de aprendizaje profundo convierte los procedimientos experimentales en su conjunto en un formato estructurado y fácil de automatizar, en lugar de escanear los textos en busca de información relevante. Además, no se basa en la identificación de entidades individuales en frases, ni requiere especificar a qué palabras o grupos de palabras corresponden las acciones de síntesis, lo que hace que el modelo sea más flexible y fiable.

Nuestro trabajo innovador está siendo presentado actualmente en la revista revisada por pares, Nature Communications.

RoboRXN aprende

La construcción de un conjunto de datos de base verificados para los procedimientos químicos nos permitió construir el núcleo de la tecnología RoboRXN, un modelo de IA que, entrenado en un gran número de recetas químicas, aprende las especificidades de los productos químicos, para poder recomendar la secuencia correcta de operaciones para «cocinar» una molécula objetivo específica.

Volviendo a la analogía de la pizza: imaginen un modelo de IA que no solo puede encontrar sus recetas favoritas a petición, sino que también puede hacer uso automáticamente de su conocimiento incorporado, para ofrecer una lista óptima de instrucciones para hacer esa pizza gourmet que seguramente impresionará a sus invitados a la cena.

En términos informáticos, esto equivale a tener una arquitectura de IA a cargo de escribir los programas para hacer moléculas (o cocinar comida). Nuestro objetivo en la construcción de RoboRXN fue utilizar este modelo de IA para eliminar la tediosa tarea humana de programar el hardware de automatización comercial. Y para hacer el sistema RoboRXN aún más conveniente y fácil de usar, implementamos todo el conjunto de servicios en la nube de IBM, para hacerlo accesible en cualquier lugar donde haya una conexión a Internet.

Revolucionando la química industrial

El resultado es una infraestructura fiable y autónoma, que integra tecnologías como la nube, la IA y la automatización para ayudar a los químicos no solo a predecir las reacciones químicas, sino también a ejecutar la producción de una molécula o sustancia desde cualquier lugar del mundo, lo cual es particularmente crítico ya que seguimos trabajando desde casa.

¿Cuáles son las implicaciones de esto, se podría preguntar? Imaginen si un sistema automatizado como RoboRXN pudiera ayudar a los químicos a reducir a la mitad el período de descubrimiento de un nuevo tratamiento para COVID-19 o cualquier otro virus. O si RoboRXN pudiera ayudar a acelerar el desarrollo de un fertilizante que no requiera consumir entre el 1 y el 2% del suministro de energía anual del mundo para su producción.

Las posibilidades son infinitas cuando se trata de humanos + máquinas.