En los últimos dos años, el aprendizaje automático ha revolucionado la predicción de la estructura de proteínas. Ahora, tres artículos en Science describen una revolución similar en el diseño de proteínas. En los nuevos artículos, los biólogos de la Facultad de Medicina de la Universidad de Washington muestran que el aprendizaje automático se puede utilizar para crear moléculas de proteínas con mucha más precisión y rapidez que antes. Los científicos esperan que este avance conduzca a muchas vacunas, tratamientos, herramientas para la captura de carbono y biomateriales sostenibles nuevos. “Las proteínas son fundamentales en la biología, pero sabemos que todas las proteínas que se encuentran en cada planta, animal y microbio representan mucho menos del uno por ciento de lo que es posible. Con estas nuevas herramientas de software, los investigadores deberían poder encontrar soluciones a largo -desafíos permanentes en medicina, energía y tecnología”, dijo el autor principal David Baker, profesor de bioquímica en la Facultad de Medicina de la Universidad de Washington y ganador del Premio Breakthrough en Ciencias de la Vida 2021. A menudo se hace referencia a las proteínas como los “bloques de construcción de la vida” porque son esenciales para la estructura y función de todos los seres vivos. Están involucrados en prácticamente todos los procesos que tienen lugar dentro de las células, incluidos el crecimiento, la división y la reparación. Las proteínas están formadas por largas cadenas de sustancias químicas llamadas aminoácidos. La secuencia de aminoácidos en una proteína determina su forma tridimensional. Esta forma intrincada es crucial para que la proteína funcione. Recientemente, se han entrenado potentes algoritmos de aprendizaje automático, incluidos AlphaFold y RoseTTAFold, para predecir las formas detalladas de las proteínas naturales basándose únicamente en sus secuencias de aminoácidos. El aprendizaje automático es un tipo de inteligencia artificial que permite que las computadoras aprendan de los datos sin ser programadas explícitamente. El aprendizaje automático se puede utilizar para modelar problemas científicos complejos que son demasiado difíciles de entender para los humanos. Para ir más allá de las proteínas que se encuentran en la naturaleza, los miembros del equipo de Baker dividieron el desafío del diseño de proteínas en tres partes y utilizaron nuevas soluciones de software para cada una. Primero, se debe generar una nueva forma de proteína. En un artículo publicado el 21 de julio en la revista Science, el equipo demostró que la inteligencia artificial puede generar nuevas formas de proteínas de dos maneras. La primera, denominada “alucinación”, es similar a DALL-E u otras herramientas generativas de IA que producen resultados basados en indicaciones simples. La segunda, denominada “repintar”, es análoga a la función de autocompletar que se encuentra en las barras de búsqueda modernas. En segundo lugar, para acelerar el proceso, el equipo ideó un nuevo algoritmo para generar secuencias de aminoácidos. Descrita en la edición del 15 de septiembre de Science, esta herramienta de software, llamada ProteinMPNN, se ejecuta en aproximadamente un segundo. Eso es más de 200 veces más rápido que el mejor software anterior. Sus resultados son superiores a las herramientas anteriores, y el software no requiere personalización experta para ejecutarse. “Las redes neuronales son fáciles de entrenar si tienes una tonelada de datos, pero con las proteínas no tenemos tantos ejemplos como nos gustaría. Tuvimos que entrar e identificar qué características en estas moléculas son las más importantes. fue un poco de prueba y error”, dijo el científico del proyecto Justas Dauparas, becario postdoctoral en el Instituto de Diseño de Proteínas. En tercer lugar, el equipo usó AlphaFold, una herramienta desarrollada por DeepMind de Alphabet, para evaluar de forma independiente si las secuencias de aminoácidos que crearon era probable que se plegaran en las formas previstas. “El software para predecir estructuras de proteínas es parte de la solución, pero no puede generar nada nuevo por sí solo”, explicó Dauparas. “ProteinMPNN es para el diseño de proteínas lo que AlphaFold fue para la predicción de la estructura de proteínas”, agregó Baker. En otro artículo que apareció en Science el 15 de septiembre, un equipo del laboratorio de Baker confirmó que la combinación de nuevas herramientas de aprendizaje automático podría generar de manera confiable nuevas proteínas que funcionaran en el laboratorio. “Descubrimos que las proteínas fabricadas con ProteinMPNN tenían muchas más probabilidades de plegarse según lo previsto, y pudimos crear ensamblajes de proteínas muy complejos utilizando estos métodos”, dijo el científico del proyecto Basile Wicky, becario postdoctoral en el Instituto de Diseño de Proteínas. Entre las nuevas proteínas creadas había anillos a nanoescala que los investigadores creen que podrían convertirse en partes de nanomáquinas personalizadas. Se utilizaron microscopios electrónicos para observar los anillos, que tienen diámetros aproximadamente mil millones de veces más pequeños que una semilla de amapola. “Este es el comienzo del aprendizaje automático en el diseño de proteínas. En los próximos meses, trabajaremos para mejorar estas herramientas para crear proteínas aún más dinámicas y funcionales”, dijo Baker. Los recursos informáticos para este trabajo fueron donados por Microsoft y Amazon Web Services. La financiación fue proporcionada por el Proyecto Audaz del Instituto para el Diseño de Proteínas; microsoft; Eric y Wendy Schmidt por recomendación de Schmidt Futures; el proyecto DARPA Synergistic Discovery and Design (contrato HR001117S0003 FA8750-17-C-0219); el proyecto Aprovechamiento de la actividad enzimática para remedios salvavidas de DARPA (contrato HR001120S0052 HR0011-21-2-0012); Fundación de Investigación de Washington; Proyecto de Filantropía Abierta para Mejorar el Fondo de Diseño de Proteínas; Amgen; Subvención del Programa Matter-to-Life de la Fundación Alfred P. Sloan (G-2021-16899); Dotación de Donald y Jo Anne Petersen para acelerar los avances en la investigación de la enfermedad de Alzheimer; Beca Interdisciplinaria del Programa de Ciencias Human Frontier (LT000395/2020-C); Organización Europea de Biología Molecular (ALTF 139-2018), que incluye una beca no remunerada de EMBO (ALTF 1047-2019) y una beca de larga duración de EMBO (ALTF 191-2021); Fundación “la Caixa”; Instituto Médico Howard Hughes, incluida una beca Hanna Gray (GT11817); Fundación Nacional de Ciencias (MCB 2032259, CHE-1629214, DBI 1937533, DGE-2140004); Institutos Nacionales de Salud (DP5OD026389); el Instituto Nacional de Alergias y Enfermedades Infecciosas (HHSN272201700059C); Instituto Nacional sobre el Envejecimiento (5U19AG065156); Instituto Nacional de Ciencias Médicas Generales (P30 GM124169-01, P41 GM 103533-24); Instituto Nacional del Cáncer (R01CA240339); Fundación Nacional de Ciencias de Suiza; Centro Nacional Suizo de Competencia para Ingeniería de Sistemas Moleculares; Centro Nacional Suizo de Competencia en Biología Química; y el Consejo Europeo de Investigación (716058).