El sitio web histo.fyi es una base de datos de estructuras de proteínas del sistema inmunológico llamadas moléculas del complejo principal de histocompatibilidad (MHC). Incluye imágenes, hojas de cálculo y secuencias de aminoácidos, y está dirigido por el bioinformático Chris Thorpe, quien utiliza herramientas de inteligencia artificial llamadas modelos de lenguaje grandes (LLM) para convertir estos activos en resúmenes legibles. Pero no utiliza ChatGPT ni ningún otro gran modelo de lenguaje basado en web. En cambio, Thorpe ejecuta la IA en su computadora portátil.
Chatbots en la ciencia: ¿Qué puede hacer ChatGPT por usted?
En los últimos años, los chatbots basados en modelos de aprendizaje automático han recibido elogios por su capacidad para escribir poesía o entablar conversaciones. Algunos modelos de aprendizaje automático contienen cientos de miles de millones de parámetros (cuantos más, más complejos) y solo se puede acceder a ellos en línea. Pero han florecido dos tendencias más recientes. En primer lugar, las organizaciones están produciendo versiones “ponderadas abiertamente” de modelos de aprendizaje automático, donde las ponderaciones y sesgos utilizados para entrenar el modelo están disponibles públicamente, de modo que los usuarios pueden descargarlos y ejecutarlos localmente, si tienen la potencia informática. En segundo lugar, las empresas de tecnología están produciendo versiones en miniatura que pueden funcionar en dispositivos de consumo, que rivalizan con el rendimiento de modelos más antiguos y más grandes.
Los investigadores pueden utilizar dichas herramientas para ahorrar dinero, proteger la confidencialidad del paciente o de la empresa, o garantizar la reproducibilidad de los resultados. Thorpe, que reside en Oxford, Reino Unido, y trabaja en el Instituto Europeo de Bioinformática del Laboratorio Europeo de Biología Molecular en Hinxton, Reino Unido, es sólo uno de los muchos investigadores que exploran lo que podrían hacer estas herramientas. Es probable que esta tendencia crezca, afirma Thorpe. A medida que las computadoras se vuelven más rápidas y los modelos se vuelven más eficientes, la gente usará cada vez más la IA en computadoras portátiles o dispositivos móviles para todas las necesidades excepto las más intensivas. Los científicos finalmente tendrán asistentes de IA a su alcance, pero algoritmos reales, no sólo acceso remoto a ellos.
Grandes cosas en paquetes pequeños
Varias empresas de tecnología e institutos de investigación importantes han lanzado modelos pequeños y livianos en los últimos años, incluido Google DeepMind en Londres; El Meta en Menlo Park, California; y el Instituto Allen de Inteligencia Artificial en Seattle, Washington (ver “Algunos modelos de peso abierto pequeño”). ('Pequeño' es relativo: estos modelos pueden contener alrededor de 30 mil millones de parámetros, que es un número grande en comparación con los modelos anteriores).
Aunque la empresa de tecnología de California OpenAI no ha desbloqueado sus modelos GPT actuales, su socio Microsoft, con sede en Redmond, Washington, ha estado en la carrera, lanzando sus modelos de lenguaje pequeño Phi-1, Phi-1.5 y Phi-2 en 2023, y luego cuatro versiones. de Phi-3 y tres versiones de Phi-3.5 este año. Los modelos Phi-3 y Phi-3.5 tienen entre 3.800 y 14.000 millones de parámetros activos, y dos modelos (Phi-3-vision y Phi-3.5-vision) se ocupan de imágenes.1Según algunos estándares, incluso el modelo Phi más pequeño supera al GPT-3.5 Turbo 2023 de OpenAI, que se rumorea que tiene 20 mil millones de parámetros.
Sebastian Bobeck, vicepresidente de IA generativa de Microsoft, atribuye el rendimiento del Fi3 a su conjunto de datos de entrenamiento. Los programas de IA se entrenan inicialmente prediciendo el siguiente símbolo (una mota de texto) en largas cadenas de texto. Para predecir el nombre del asesino al final de un misterio de asesinato, por ejemplo, una IA necesita “comprender” todo lo que sucedió antes, pero tales predicciones de consecuencias son raras en la mayoría de los textos. Para solucionar este problema, Microsoft ha utilizado programas de inteligencia artificial para escribir millones de cuentos y libros de texto en los que una cosa se basa en otra. El resultado del entrenamiento de este script es un modelo compatible con dispositivos móviles pero que tiene el poder de la versión inicial de ChatGPT de 2022, dice Bobek. “Si se puede formular un conjunto de datos que sea muy rico en estos códigos lógicos, la señal será mucho más rica”, afirma.
ChatGPT para la ciencia: cómo hablar con tus datos
Phi-3 también puede ayudar con el enrutamiento: determinar si una consulta debe enrutarse a un modelo más grande. “Aquí es donde brillará Phi-3”, dice Bobek. Los modelos pequeños también pueden ayudar a los científicos en áreas remotas que no tienen mucha conectividad con la nube. “Aquí, en el noroeste del Pacífico, tenemos excelentes lugares para hacer caminatas y, a veces, no tengo una red”, dice, “y tal vez quiera tomar una foto de algunas flores y pedirle a la IA información sobre ellas. .”
Los investigadores pueden aprovechar estas herramientas para crear aplicaciones personalizadas. Por ejemplo, el sitio chino de comercio electrónico Alibaba ha creado modelos llamados Qwen que contienen entre 500 y 72 mil millones de parámetros. Un científico biomédico de New Hampshire perfeccionó el modelo Qwen más grande utilizando datos científicos para crear Turbcat-72b, que está disponible en el sitio de intercambio de modelos Hugging Face. (El investigador sólo utiliza el nombre Kal'tsit en la plataforma de mensajería Discord, porque el trabajo científico asistido por IA sigue siendo controvertido). Kal'tsit dice que creó el modelo para ayudar a los investigadores a intercambiar ideas, probar manuscritos y codificar prototipos, y resumir artículos publicados; La plantilla se ha descargado miles de veces.
Mantener la privacidad
Kaltset dice que otra ventaja de los formularios nativos, más allá de la capacidad de ajustar los formularios abiertos para aplicaciones específicas, es la privacidad. El envío de datos personales a un servicio comercial puede contravenir la normativa de protección de datos. “Si se realiza una auditoría y les muestras que estás usando ChatGPT, la situación puede empeorar mucho”, afirma.
Cyril Zakka, el médico que dirige el equipo de salud de Hugging Face, utiliza modelos locales para generar datos de entrenamiento para otros modelos (que a veces también son locales). En un proyecto, lo utiliza para extraer diagnósticos de informes médicos para que otro modelo pueda aprender a predecir esos diagnósticos basándose en ecocardiogramas, que se utilizan para monitorear enfermedades cardíacas. En otro proyecto, utiliza modelos para generar preguntas y respuestas a partir de libros de texto médicos para probar otros modelos. “Estamos allanando el camino hacia una cirugía totalmente autónoma”, explica. Un robot entrenado para responder preguntas podrá comunicarse mejor con los médicos.
Zakka utiliza modelos locales (prefiere el Mistral 7B, lanzado por Mistral AI en París, o el Llama-3 70B de Meta) porque son más baratos que los servicios de suscripción como ChatGPT Plus y porque puede ajustarlos. Pero la privacidad también es clave, porque no se permite enviar los registros médicos de los pacientes a servicios comerciales de inteligencia artificial.
Dentro de las matemáticas que impulsan la inteligencia artificial
Asimismo, Johnson Thomas, endocrinólogo del Mercy Healthcare System en Springfield, Missouri, está preocupado por la privacidad del paciente. Los médicos rara vez tienen tiempo para transcribir y resumir las entrevistas de los pacientes, pero la mayoría de los servicios comerciales que utilizan IA para hacerlo son demasiado caros o no están certificados para manejar datos médicos privados. Entonces, Thomas está desarrollando una alternativa. Basado en Whisper, un modelo de reconocimiento de voz de peso abierto de OpenAI, y Gemma 2 de Google DeepMind, el sistema permitirá a los médicos transcribir conversaciones y convertirlas en notas médicas, así como resumir datos de los participantes en investigaciones médicas.
La privacidad también es una consideración en la industria. CELLama, desarrollado por la compañía farmacéutica surcoreana Portrai en Seúl, explota un software LLM de cosecha propia, como Llama 3.1, para reducir la información sobre la expresión genética de una célula y otras propiedades en una oración concisa.2Luego crea una representación numérica de esta oración, que puede usarse para agrupar celdas en tipos. Los desarrolladores destacan la privacidad como uno de los beneficios en su página de GitHub, afirmando que Silama “Funciona localmente, lo que garantiza que no se filtren datos”.
Usa bien los modelos.
A medida que evoluciona el panorama de los programas LLM, los académicos se enfrentan a un menú de opciones que cambia rápidamente. “Todavía estoy en el proceso de experimentar y jugar con programas LLM a nivel local”, dice Thorpe. Probó ChatGPT, pero consideró que era caro y que el tono de su salida era inapropiado. Ahora utiliza el software de Llama de forma nativa, con 8 mil millones o 70 mil millones de parámetros, los cuales puede ejecutar en su computadora portátil Mac.
Otro beneficio, afirma Thorpe, es que los modelos locales no cambian. Por el contrario, los desarrolladores comerciales pueden actualizar sus modelos en cualquier momento, produciendo resultados diferentes y obligando a Thorpe a cambiar sus pautas o plantillas. “En la mayoría de las ciencias, lo que se busca son cosas que sean reproducibles”, explica. “Siempre es preocupante no controlar la reproducibilidad de lo que se genera”.
En otro proyecto, Thorpe está escribiendo código que alinea moléculas de MHC según su estructura tridimensional. Para desarrollar y probar sus algoritmos, necesita muchas proteínas diferentes, más de las que se encuentran de forma natural. Para diseñar nuevas proteínas razonables, se utiliza ProtGPT2un modelo ponderado abierto que contiene 738 millones de parámetros entrenados en aproximadamente 50 millones de secuencias3.
Pero a veces la aplicación local no es suficiente. Para la codificación, Thorpe utiliza Copilot basado en la nube en GitHub como socio. “Siento como si me hubieran cortado el brazo cuando por alguna razón no puedo usar Copilot”, dice. Ya existen herramientas de codificación locales basadas en LLM (como las de Google DeepMind). código gema Y uno de los desarrolladores tiene su sede en California. el continua), pero según su experiencia no pueden competir con Copilot.
Puntos de acceso
Entonces, ¿cómo se ejecuta un programa LLM local? programa llamado Él es (Disponible para Mac, Windows y Linux) Permite a los usuarios descargar modelos abiertos, incluidos Llama 3.1, Phi-3, Mistral y Gemma 2, y acceder a ellos desde la línea de comandos. Otras opciones incluyen una aplicación multiplataforma. GPT4Todos y archivo de llamaque puede convertir archivos LLM en un solo archivo que se ejecuta en cualquiera de los seis sistemas operativos, con o sin GPU.
Centro tecnológico de la naturaleza
Sharon Maclis, ex editora de InfoWorld que vive en Framingham, Massachusetts, escribió: Una guía para usar programas LLM localmenteEste artículo cubre docenas de opciones. “Lo primero que sugiero es que el software que elija sea apropiado para su nivel de habilidad para realizar ajustes”, dice. Algunas personas prefieren la facilidad de uso de las aplicaciones, mientras que otras prefieren la flexibilidad de la línea de comandos.
Cualquiera que sea el enfoque que elija, los programas locales de maestría en derecho deberían ser lo suficientemente buenos para la mayoría de las aplicaciones, dice Stephen Hood, director de inteligencia artificial de código abierto en Mozilla Technologies en San Francisco. “El ritmo de avance de estos programas durante el año pasado ha sido sorprendente”, añade.
En cuanto a la naturaleza de estas aplicaciones, corresponde a los usuarios decidir. “No tengas miedo de probar algo nuevo; es posible que los resultados te sorprendan gratamente”, dice Zacca.