DeepSeek-V3 es un modelo de IA de código abierto lanzado con una arquitectura de mezcla experta

[ad_1]

Sec profundo, chino inteligencia artificial (AI), un modelo de IA DeepSeek-V3 el jueves. El nuevo modelo de lenguaje grande (LLM) de código abierto presenta la friolera de 671 mil millones de parámetros, superando los 405 mil millones de parámetros de Meta Llama 3.1. A pesar de su tamaño, los investigadores afirmaron que el LLM se centra en la eficiencia a través de su estructura mixta de expertos (MoE). Como resultado, el modelo de IA solo puede activar parámetros específicos relevantes para la tarea en cuestión y garantizar eficiencia y precisión. Vale la pena señalar que es un modelo basado en texto y no tiene capacidades multimedia.

Lanzamiento del modelo de IA DeepSeek-V3

El modelo de IA de código abierto DeepSeek-V3 está actualmente en marcha Alojado Abrazo en la cara. Según el listado, el LLM está orientado a una heurística eficiente y una formación rentable. Por esta razón, los investigadores adoptaron diseños de Atención latente de cabezas múltiples (MLA) y DeepSeekMoE.

Básicamente, el modelo de IA solo activa parámetros relevantes para el tema del reclamo, lo que garantiza un procesamiento más rápido y una mayor precisión en comparación con los modelos típicos de este tamaño. DeepSeek-V3, previamente entrenado con 14,8 billones de códigos, utiliza técnicas como el ajuste fino supervisado y el aprendizaje por refuerzo para generar respuestas de alta calidad.

La compañía china afirmó que, a pesar de su tamaño, el modelo de IA se entrenó completamente en 2.788 millones de horas utilizando una GPU Nvidia H800. La arquitectura DeepSeek-V3 también incluye tecnología de equilibrio de carga para reducir la degradación del rendimiento. Esta tecnología se utilizó por primera vez en su predecesor.

En términos de rendimiento, los investigadores compartieron evaluaciones de pruebas internas del modelo y afirmaron que supera a los modelos Meta Llama 3.1 y Qwen 2.5 en Big High Performance (BBH), comprensión lingüística multitarea (MMLU), HumanEval, MATH y varios otros puntos de referencia. Sin embargo, hasta el momento no ha sido verificado por investigadores externos.

Una de las características más importantes de DeepSeek-V3 es su enorme tamaño de 671 mil millones de parámetros. Si bien existen modelos más grandes, p. mellizo La versión 1.5 Pro tiene un billón de parámetros, un volumen que es poco común en el espacio del código abierto. Antes de eso, era el modelo de IA de código abierto más grande. muerto Llama 3.1 con 405 mil millones de parámetros.

En la actualidad, se puede acceder al código DeepSeek-V3 a través del menú Hugging Face bajo la licencia MIT para uso personal y comercial. Además, el modelo de IA también se puede probar a través de la plataforma de chatbot en línea de la empresa. Aquellos que quieran construir con el modelo AI también pueden acceder a la API.

Para lo último Noticias de tecnología y ReseñasSiga Gadgets 360 en incógnita, Facebook, WhatsApp, Temas y noticias de google. Para ver los últimos vídeos sobre gadgets y tecnología, suscríbete a nuestro canal. canal de youtube. Si quieres saber todo sobre los top influencers, sigue nuestra web ¿Quién es ese 360? en Instagram y YouTube.

Precio de las criptomonedas hoy: Bitcoin está experimentando una caída de precios, uniéndose a la mayoría de las criptomonedas en una corrección en todo el mercado

Los mejores teléfonos inteligentes de gama media de 2024: Redmi Note 14 Pro+, OnePlus Nord 4, Realme 13 Pro+ y más

See also Lava Probuds T24 TWS con 45 horas de duración total de la batería lanzado en India: precio, especificaciones

[ad_2]

Source Article Link

Lanzamiento del modelo de IA DeepSeek-V3

By miranda cosgrove

Leave a Reply Cancel reply