Los investigadores utilizaron inteligencia artificial (IA) para detectar 70.500 virus hasta ahora desconocidos para la ciencia.1Muchos de ellos son extraños y no se parecen a especies conocidas. Los virus de ARN se han identificado mediante metagenómica, donde los científicos toman muestras de todos los genomas presentes en el medio ambiente sin tener que cultivar virus individuales. El método demuestra la capacidad de la inteligencia artificial para explorar la “materia oscura” en el mundo de los virus de ARN.
Los virus son microorganismos ubicuos que infectan animales, plantas e incluso bacterias, pero sólo una pequeña fracción de ellos ha sido identificada y descrita. Hay un “pozo sin fin” de virus por descubrir, dice Artem Babayan, virólogo computacional de la Universidad de Toronto en Canadá. Algunos de estos virus pueden causar enfermedades en humanos, lo que significa que caracterizarlos podría ayudar a explicar enfermedades misteriosas, afirma.
Estudios anteriores han utilizado Aprendizaje automático Encontrar nuevos virus en datos de secuencia. El último estudio publicado en celúla Esta semana, lleva ese trabajo un paso más allá y lo utiliza para observar las estructuras proteicas previstas.1.
El modelo de IA incluye una herramienta de predicción de proteínas llamada ESMFoldfue desarrollado por investigadores de Meta (anteriormente Facebook, con sede en Menlo Park, California). Sistema de inteligencia artificial similar, Pliegue alfaFue desarrollado por investigadores de Google DeepMind en Londres, quienes ganaron un premio. Premio Nobel de Química esta semana.
Virus faltantes
En 2022, Babayan y sus colegas buscaron 5,7 millones de muestras genómicas archivadas en bases de datos disponibles públicamente e identificaron casi 132.000 nuevos virus de ARN.2. Otros grupos han liderado esfuerzos similares3.
Pero los virus de ARN evolucionan rápidamente, por lo que es posible que a los métodos actuales para identificar virus de ARN en datos de secuencia genómica les falten muchos de ellos. Un método común es buscar la parte del genoma que codifica la proteína principal utilizada en la replicación del ARN, llamada ARN polimerasa dependiente de ARN (RdRp). Pero si la secuencia que codifica esta proteína en el virus es significativamente diferente de cualquier secuencia conocida, los investigadores no la reconocerán.
Shi Mang, biólogo evolutivo de la Universidad Sun Yat-sen en Shenzhen, China, es coautor del artículo. celúla estudio, y sus colegas buscaron virus no identificados previamente en muestras genómicas disponibles públicamente.
Desarrollaron un modelo, llamado LucaProt, utilizando la arquitectura de “transformadores” habilitada para ChatGPT, y lo alimentaron con datos de predicción de secuencias y proteínas ESMFold. Luego entrenaron su modelo para reconocer RdRps virales y lo usaron para encontrar secuencias que codifican estas enzimas (evidencia de que esas secuencias pertenecen a un virus) en una gran porción de datos genómicos. Utilizando este método, identificaron alrededor de 160.000 virus de ARN, incluidos algunos virus excepcionalmente largos que se encuentran en ambientes extremos como aguas termales, lagos salados y el aire. Poco menos de la mitad de ellos no han sido descritos antes. Encontraron “pequeños focos de biodiversidad de virus ARN que están muy alejados de la generosidad del espacio evolutivo”, dice Babayan.
“Es un enfoque realmente prometedor para expandir la envoltura viral”, dice Jackie Mahar, virólogo evolutivo del Centro Australiano de Preparación para Enfermedades de CSIRO en Geelong. Caracterizar los virus ayudará a los investigadores a comprender microbios Orígenes Y cómo evolucionó en diferentes huéspedes, dice.
Babayan dice que ampliar el conjunto de virus conocidos hace que sea más fácil encontrar virus más similares. “De repente puedes ver cosas que nunca antes habías visto”.
Mahar dice que el equipo no pudo identificar los hosts de los virus que identificaron, lo que debe investigarse más a fondo. Los investigadores están particularmente interesados en saber si alguno de los nuevos virus los infecta. Antigüedaduna rama completa del árbol de la vida que no se ha demostrado claramente que los virus de ARN infecten.
Shi ahora está desarrollando un modelo para predecir los huéspedes de los virus de ARN recientemente identificados. Espera que esto ayude a los investigadores a comprender el papel que desempeñan los virus en su entorno ecológico.