Categories
News

El equipo Qwen de Alibaba lanza el modelo de IA de código abierto QVQ-72B en vista previa

[ad_1]

Alibaba El equipo de investigación de Qwen ha lanzado en versión preliminar otro modelo de inteligencia artificial (IA) de código abierto. Llamado QVQ-72B, es un modelo de razonamiento basado en la visión que puede analizar información visual a partir de imágenes y comprender el contexto detrás de ella. El gigante tecnológico también compartió los resultados comparativos del modelo de IA y destacó que en una prueba específica, pudo superar al modelo o1 de OpenAI. Vale la pena señalar que Alibaba tiene Liberado Recientemente se han abierto varios modelos de IA, incluidos los modelos de lenguaje grande (LLM) centrados en el razonamiento QwQ-32B y Marco-o1.

Lanzamiento del modelo de inteligencia artificial basado en visión QVQ-72B de Alibaba

en la cara abrazando existenteel equipo Qwen de Alibaba ha detallado un nuevo modelo de IA de código abierto. Al describirlo como un modelo de investigación experimental, los investigadores enfatizaron que el QVQ-72B viene con capacidades mejoradas de razonamiento visual. Curiosamente, se trata de dos ramas distintas del rendimiento y los investigadores las combinaron en este modelo.

Abundan los modelos de IA basados ​​en la visión. Esto incluye software de codificación de imágenes y puede analizar información visual y el contexto detrás de ella. Asimismo, los modelos centrados en la inferencia, como el o1 y el QwQ-32B, vienen con capacidades de escalamiento de cálculo en el momento de la prueba que les permiten aumentar el tiempo de procesamiento del modelo. Esto permite que el modelo analice y resuelva el problema paso a paso y evalúe y corrija el resultado frente al validador.

Con el modelo preliminar QVQ-72B, Alibaba ha combinado estas dos funciones. Ahora puede analizar información de imágenes y responder consultas complejas utilizando estructuras centradas en el razonamiento. El equipo destaca que ha mejorado significativamente el rendimiento del modelo.

Al compartir calificaciones de pruebas internas, los investigadores afirmaron que el QVQ-72B pudo obtener una puntuación del 71,4 por ciento en el punto de referencia MathVista (mini), superando al modelo o1 (71,0). También se dice que obtuvo una puntuación del 70,3 por ciento en el punto de referencia de comprensión multitarea multimedia (MMMU).

Aunque se mejora el rendimiento, existen varias limitaciones, como ocurre con la mayoría de los modelos experimentales. El modelo de IA a veces mezcla diferentes idiomas o cambia entre ellos inesperadamente, informó el equipo de Quinn. La cuestión del cambio de código también es destacada en el modelo. Además, el modelo es propenso a caer en bucles de pensamiento recursivos, lo que afecta el resultado final.

[ad_2]

Source Article Link

Categories
News

Investigadores de Alibaba presentan el modelo de IA Marco-o1 como otro competidor centrado en el razonamiento del modelo OpenAI

[ad_1]

Alibaba Recientemente introdujo un modelo de IA centrado en heurística llamado Marco-o1. Este modelo es similar al modelo de lenguaje grande QwQ-32B, que también está optimizado para tareas que requieren habilidades de pensamiento avanzadas; sin embargo, una diferencia importante es que Marco-o1 es un modelo más pequeño y se deriva del modelo Qwen2-7B-Instruct. El gigante tecnológico chino afirmó que se utilizaron varios ejercicios de ajuste para que el nuevo modelo se centrara en el pensamiento. Además, los investigadores destacaron que está optimizado para tareas complejas de resolución de problemas del mundo real.

Modelo de inteligencia artificial Alibaba Marco-O1

El nuevo modelo de IA se detalla en un artículo papel Ha sido publicado en arXiv, una revista electrónica preimpresa. Cabe señalar que los artículos publicados en la revista electrónica no están sujetos a revisión por pares. Además, Alibaba también tiene… Alojado Se ha permitido descargar y utilizar el modelo de IA en Hugging Face para casos de uso personal y comercial bajo la licencia Apache 2.0.

Sin embargo, no es completamente de código abierto ya que solo se ha puesto a disposición un conjunto de datos parcial. Como tal, los usuarios no podrán duplicar ni descomponer el modelo para analizar la estructura o los componentes.

Al llegar a Marco-o1, se ajustó a partir del modelo base Qwen2-7B-Instruct. En este artículo, los investigadores destacan que el modelo de IA se apoya en el ajuste de la Cadena de Pensamiento (CoT), la Búsqueda de Árboles de Monte Carlo (MCTS), los mecanismos de reflexión y otras estrategias de razonamiento.

Como resultado, el software Marco-o1 de Alibaba es capaz de resolver preguntas abiertas y encontrar consultas para responder “donde no existen criterios claros y donde las recompensas son difíciles de cuantificar”. Sin embargo, debe entenderse que las capacidades de pensamiento avanzado no provinieron de ningún avance en el hardware o la arquitectura.

En cambio, todos los modelos de inferencia actuales utilizan una técnica llamada computación en tiempo de prueba que permite que un modelo de IA dedique más tiempo de procesamiento a una sola consulta. Esto les permite probar diferentes teorías para encontrar la solución y comprobar los hechos por sí mismos. Como resultado, estos modelos están orientados a brindar respuestas más precisas y completar tareas complejas. Un área importante en la que Marco-o1 sobresale, según los investigadores, es la comprensión de los matices de la jerga y la traducción de expresiones coloquiales.

Una limitación del modelo de IA, según los investigadores, es que, si bien Marco-o1 muestra propiedades de inferencia, su “rendimiento sigue siendo inferior al del modelo de inferencia completamente realizado”.

[ad_2]

Source Article Link

Categories
News

Alibaba lanza el modelo QwQ-32B de IA centrado en la inferencia en versión preliminar para competir con el GPT-o1 de OpenAI

[ad_1]

Alibaba OpenAI lanzó un nuevo modelo de inteligencia artificial (IA) el jueves, que se dice que rivaliza con los modelos de la serie GPT-o1 de OpenAI en capacidad de razonamiento. El modelo de lenguaje grande (LLM) QwQ-32B se lanzó en versión preliminar y se dice que supera a la versión preliminar GPT-o1 en varios puntos de referencia relacionados con la inferencia matemática y lógica. El nuevo modelo de IA está disponible para descargar en Hugging Face, pero no es de código abierto. Recientemente, otra empresa china en el campo de la inteligencia artificial Liberado Un modelo de inteligencia artificial de código abierto DeepSeek-R1, que supuestamente compite con los modelos subyacentes centrados en el pensamiento del fabricante de ChatGPT.

Modelo de IA Alibaba QwQ-32B

en un Publicación de blogAlibaba detalló su nuevo programa LLM centrado en heurística y destacó sus capacidades y limitaciones. El QwQ-32B está actualmente disponible como versión preliminar. Como sugiere el nombre, se basa en 32 mil millones de parámetros y tiene una ventana contextual de 32.000 tokens. El modelo completó las fases de pre-entrenamiento y post-entrenamiento.

En cuanto a su arquitectura, el gigante tecnológico chino reveló que el modelo de IA se basa en la tecnología Transformer. Para la codificación posicional, el QwQ-32B utiliza incrustaciones de posición rotatoria (RoPE), junto con funciones de unidad lineal controlada por transformación (SwiGLU) y normalización cuadrática media (RMSNorm), así como sesgo de consulta de atención y sesgo de valor clave (atención QKV). .

al igual que AbiertoAI GPT-o1, el modelo de IA muestra su monólogo interno al evaluar la consulta del usuario e intentar encontrar la respuesta correcta. Este proceso de pensamiento interno permite al QwQ-32B probar diferentes teorías y verificar hechos antes de proporcionar la respuesta final. Alibaba afirma que el LLM obtuvo una puntuación del 90,6 por ciento en el punto de referencia MATH-500 y del 50 por ciento en el punto de referencia AIME durante las pruebas internas y superó a los modelos OpenAI centrados en la inferencia.

Vale la pena señalar que los modelos de IA con mejor razonamiento no son evidencia de que los modelos se estén volviendo más inteligentes o capaces. Es simplemente una nueva técnica, también conocida como cálculo del tiempo de prueba, que permite a los modelos dedicar tiempo de procesamiento adicional para completar la tarea. Como resultado, la IA puede proporcionar respuestas más precisas y resolver preguntas más complejas. Muchos expertos de la industria han señalado que los programas LLM más nuevos no mejoran al mismo ritmo que las versiones anteriores, lo que sugiere que las arquitecturas actuales están alcanzando un punto de saturación.

Debido a que el QwQ-32B dedica más tiempo a procesar consultas, también tiene varias limitaciones. Alibaba afirmó que el modelo de IA a veces puede mezclar o cambiar de idioma, creando problemas como la mezcla de idiomas y el cambio de código. También tiende a entrar en bucles de razonamiento y, aparte de las habilidades matemáticas y de razonamiento, otras áreas aún necesitan mejoras.

Vale la pena señalar que Alibaba puso a disposición el modelo de inteligencia artificial a través de una cara abrazada. existente Puede ser descargado tanto por individuos como por organizaciones para fines personales, académicos y comerciales bajo la licencia Apache 2.0. Sin embargo, la empresa no ha puesto a disposición los pesos y los datos del modelo, lo que significa que los usuarios no pueden replicar el modelo ni comprender cómo funciona la estructura.

[ad_2]

Source Article Link

Categories
News

Según los informes, la empresa china Alibaba ha recortado puestos de trabajo en su división Metaverse

[ad_1]

Se informa que el gigante chino del comercio electrónico Alibaba está reduciendo sus enormes ambiciones en medio del rápido crecimiento de la inteligencia artificial. Según el South China Morning Post (SCMP), Alibaba está recortando docenas de puestos dentro de su división Metaverse, y las fuentes indican que la compañía apunta a reestructurarse e impulsar la eficiencia. Anteriormente, Alibaba había invertido 60 millones de dólares (alrededor de 504 millones de rupias) en Nreal, un fabricante chino de gafas de realidad aumentada, como parte de sus iniciativas de transformación.

La unidad Metaverse de Alibaba se llama Yuanjing, que fue se dice Fundada en 2021. Según los informes, los últimos recortes de empleo en la unidad Yuanjing de Alibaba están afectando a los equipos en Shanghai y Hangzhou.

El número exacto de despidos dentro de la unidad Metaverse de Alibaba aún no se ha anunciado y la compañía aún no ha emitido una declaración oficial al respecto.

De acuerdo a Informe SCMPse inyectaron “miles de millones de yuanes” en la unidad Metaverse de Alibaba, que emplea a “unos cientos” de trabajadores.

El Metaverso es un ecosistema virtual impulsado por blockchain donde los usuarios interactúan como avatares digitales. Dentro de estos mundos digitales vibrantes e inmersivos, las personas pueden socializar, trabajar, comprar, jugar y disfrutar del entretenimiento, todo desde la comodidad de sus hogares.

En los últimos años, el entusiasmo en torno al Metaverso ha fluctuado dramáticamente. Marcas como Lamborghini, Samsungy manzana Exploraron el metaverso como una forma de interactuar con audiencias más jóvenes.

Desde su lanzamiento en 2020, Meta de Mark Zuckerberg ha enfrentado pérdidas consecutivas en su división centrada en Metaverse, Reality Labs, que informó nuevas caídas en abril. Asimismo, la empresa china Baidu ha cambiado su enfoque de la IA a la IA. El año pasado, después del cambio de Baidu hacia la IA generativa, su jefe de desarrollo de IA renunció.

A pesar de los despidos informados, se espera que Alibaba conserve su unidad Yuanjing, que continuará la I+D centrada en casos de uso del metaverso, señala el informe.

En junio de 2023, la Fundación Blockchain Near hizo precisamente eso entré Se asoció con el grupo chino Alibaba para ayudar a los desarrolladores a desarrollar su infraestructura blockchain.

[ad_2]

Source Article Link

Categories
Featured

La nueva herramienta de creación de vídeos con IA de Alibaba se ha unido a un grupo cada vez mayor de competidores de Sora

[ad_1]

Es un día que termina con la letra Y, por lo que el nuevo generador de vídeos con IA se suma a la masa cada vez mayor de herramientas similares. Alibaba es el último en unirse al espacio con su nuevo modelo de texto a video, parte del Grupo Tongyi Wanxiang. Anunciada en la conferencia Cloud Apsara de Alibaba, la herramienta de video de IA fue solo parte de un torrente de nuevas opciones de IA del gigante tecnológico chino, incluidos más de 100 nuevos modelos de lenguajes grandes (LLM).

Tongyi Wanxiang es el grupo de modelos de generación de medios artificiales de Alibaba, que comenzó con un generador de imágenes de IA el año pasado. La nueva herramienta producirá vídeos de alta calidad a partir de mensajes de texto e imágenes fijas en chino e inglés. Los ejecutivos de Alibaba se jactaron de que la compañía tiene algunas de las arquitecturas de conversión de difusión más avanzadas, lo que le permite crear videos que mantienen su calidad sin importar el estilo que solicite el usuario, incluida la acción en vivo realista y varios estilos de animación.

[ad_2]

Source Article Link

Categories
News

Alibaba acelera el ritmo de la IA con el lanzamiento de nuevos modelos de código abierto y tecnología de IA de conversión de texto a vídeo

[ad_1]

empresa de tecnología china Alibaba El jueves se lanzó un nuevo software de código abierto. inteligencia artificial La empresa está intensificando sus esfuerzos para competir en el floreciente campo de la inteligencia artificial generativa.

Los modelos de código abierto, más de 100, provienen de la familia Qwen 2.5 de Alibaba, el último modelo de lenguaje central grande lanzado en mayo.

Las empresas de tecnología chinas, al igual que sus homólogas estadounidenses, han invertido mucho en IA generativa, mientras las empresas se apresuran a desarrollar carteras de productos sólidas y ofertas diversificadas.

Mientras que a los competidores les gusta Baidu y AbiertoAI Si bien Alibaba se ha basado principalmente en un enfoque de código cerrado, ha adoptado un modelo híbrido, invirtiendo en desarrollo patentado y de código abierto para escalar sus productos de IA.

Alibaba dijo en un comunicado que sus nuevos modelos varían entre 500 millones y 72 mil millones de parámetros (variables que determinan la capacidad y el rendimiento de un modelo de IA) en tamaño, lo que proporciona competencia en matemáticas y codificación y soporte para más de 29 idiomas.

Los modelos tienen como objetivo satisfacer una amplia gama de aplicaciones de IA en diversos sectores, incluidos el de la automoción, los juegos y la investigación científica.

Alibaba también presentó el jueves un nuevo modelo de texto a video como parte de su familia de generación de imágenes Tongyi Wanxiang, uniéndose a un número creciente de empresas tecnológicas chinas que ingresan a este mercado emergente.

Esta medida coloca a Alibaba en competencia directa con actores globales como OpenAI, que también ha mostrado interés en la tecnología de texto a video.

En agosto, ByteDance, el propietario de… tik tokJimeng AI ha lanzado su aplicación de conversión de texto a vídeo en la App Store de Apple para usuarios chinos.

© Thomson Reuters 2024

[ad_2]

Source Article Link

Categories
News

Alibaba y Baidu reducen los precios de los modelos de lenguaje grande utilizados para impulsar los chatbots de IA

[ad_1]

Gigantes tecnológicos chinos Alí Babá Y Baidu Los precios de los modelos de idiomas grandes se redujeron el martes (Maestro de leyes) utilizado para el poder Inteligencia artificial generativa Productos, a medida que se intensifica la guerra de precios en el sector de la computación en la nube de China.

La unidad de nube de Alibaba anunció recortes de precios de hasta el 97 por ciento en una variedad de LLM de Tongyi Qwen. Por ejemplo, su modelo Qwen-Long costará solo 0,0005 CNY por 1.000 tokens (o unidades de datos procesadas por LLM) después del recorte de precios, frente a 0,02 CNY por 1.000 tokens.

Rápidamente le siguió Baidu, que anunció horas más tarde que sus modelos Ernie Speed ​​y Ernie Lite serían gratuitos para todos los usuarios empresariales.

La guerra de precios de la computación en la nube en China ha continuado durante los últimos meses, y Alibaba y Tencent recientemente redujeron los precios de sus servicios de computación en la nube.

Muchos proveedores chinos de nube han confiado en ella Amnistía Internacional Servicios de chatbot para impulsar las ventas, después de que China viera una ola de inversión en grandes modelos de lenguaje en respuesta al exitoso debut de OpenAI, con sede en EE. UU. ChatGPT A finales de 2022.

La guerra de precios de la computación en la nube en China ahora ha afectado a los grandes modelos lingüísticos que impulsan estos chatbots, amenazando con afectar los márgenes de ganancias de las empresas.

Ernie Lite y Ernie Speed ​​​​de Baidu se lanzaron en marzo y, hasta el martes, los clientes comerciales habían pagado para usarlos.

ByteDanza La semana pasada anunció que el precio del modelo insignia de Doubao LLM será un 99,3% más bajo que el promedio de la industria para usuarios comerciales.

Los desarrolladores chinos de LLM se han centrado en cobrar tarifas a las empresas como una forma de monetizar sus inversiones en LLM.

Algunos también han comenzado a dirigirse a usuarios individuales. La startup china Moonshot lanzó recientemente una función de propinas, donde las empresas y los usuarios individuales pueden pagar para priorizar el uso de sus servicios de chatbot.

Baidu fue la primera empresa en China en ofrecer productos LLM a consumidores de pago, cobrando 59 yuanes al mes a aquellos que deseen utilizar el modelo Ernie 4 más avanzado.

© Thomson Reuters 2024


Los enlaces de afiliados pueden generarse automáticamente; consulte nuestro sitio web Declaración de ética Para detalles.

[ad_2]

Source Article Link

Categories
News

What is Alibaba Qwen and its 6 LLM AI models?

[ad_1]

Alibaba Qwen 1.5 powerful AI model

Alibaba’s Qwen 1.5 is an enhanced version of their large language model series known as Qwen AI, developed by the Qwen team under Alibaba Cloud. It marks a significant advancement in language model technology, offering a range of models with varying sizes, including 0.5 billion to 72 billion parameters. This breadth of model sizes aims to cater to different computational needs and applications, showcasing impressive AI capabilities such as :

  • Open-Sourcing: In line with Alibaba’s initiative to contribute to the open-source community, Qwen 1.5 has been made available across six sizes: 0.5B, 1.8B, 4B, 7B, 14B, and 72B parameters. This approach allows for widespread adoption and experimentation within the developer community.
  • Improvements and Capabilities: Compared to its predecessors, Qwen AI 1.5 introduces significant improvements, particularly in chat models. These enhancements likely involve advancements in understanding and generating natural language, enabling more coherent and contextually relevant conversations.
  • Multilingual Support: Like many contemporary large language models, Qwen 1.5 is expected to support multiple languages, facilitating its adoption in global applications and services.
  • Versatility: The availability of the model in various sizes makes it versatile for different use cases, from lightweight applications requiring rapid responses to more complex tasks needing deeper contextual understanding.

Alibaba Large Language Model

Given its positioning and the features outlined, Qwen AI 1.5 represents Alibaba Cloud’s ambition to compete in the global AI landscape, challenging the dominance of other major models with its comprehensive capabilities and open-source accessibility. Lets take a deeper dive into the workings of the Qwen 1.5 AI model. Here are  just a few features of the large language model :

  • Integration of Qwen1.5’s code into Hugging Face transformers for easier access.
  • Collaboration with various frameworks for deployment, quantization, finetuning, and local inference.
  • Availability on platforms like Ollama and LMStudio, with API services on DashScope and together.ai.
  • Improvements in chat models’ alignment with human preferences and multilingual capabilities.
  • Support for a context length of up to 32768 tokens.
  • Comprehensive evaluation of model performance across various benchmarks and capabilities.
  • Competitive performance of Qwen1.5 models, especially the 72B model, in language understanding, reasoning, and math.
  • Strong multilingual capabilities demonstrated across 12 languages.
  • Expanded support for long-context understanding up to 32K tokens.
  • Integration with external systems, including performance on RAG benchmarks and function calling.
  • Developer-friendly integration with Hugging Face transformers, allowing for easy model loading and use.
  • Support for Qwen1.5 by various frameworks and tools for both local and web deployment.
  • Encouragement for developers to utilize Qwen1.5 for research or applications, with resources provided for community engagement.

Qwen 1.5 AI model

Imagine you’re working on a complex project that requires understanding and processing human language. You need a tool that can grasp the nuances of conversation, respond in multiple languages, and integrate seamlessly into your existing systems. Enter Alibaba’s latest innovation: Qwen1.5, a language model that’s set to redefine how developers and researchers tackle natural language processing tasks. You might also be interested in a new platform built on the Qwen 1.5, providing usres with an easy way to build custom AI agents with Qwen-Agents.

Qwen1.5 is the newest addition to the Qwen series, and it’s a powerhouse. It comes in a variety of sizes, ranging from a modest 0.5 billion to a colossal 72 billion parameters. What does this mean for you? It means that whether you’re working on a small-scale application or a massive project, there’s a Qwen1.5 model that fits your needs. And the best part? It works hand-in-hand with Hugging Face transformers and a range of deployment frameworks, making it a versatile tool that’s ready to be a part of your tech arsenal.

Now, let’s talk about accessibility. Alibaba has taken a significant step by open-sourcing the base and chat models of Qwen1.5. You can choose from six different sizes, and there are even quantized versions available for efficient deployment. This is great news because it opens up the world of advanced technology to you without breaking the bank. You can innovate, experiment, and push the boundaries of what’s possible, all while keeping costs low.

Integration with Multiple Frameworks

Integration is a breeze with Qwen1.5. It’s designed to play well with multiple frameworks, which means you can deploy, quantize, fine-tune, and run local inference without a hitch. Whether you’re working in the cloud or on edge devices, Qwen1.5 has got you covered. And with support from platforms like Ollama and LMStudio, as well as API services from DashScope and together.ai, you have a wealth of options at your fingertips for using and integrating these models into your projects.

But what about performance? Qwen1.5 doesn’t disappoint. The chat models have been fine-tuned to align closely with human preferences, and they offer robust support for 12 different languages. This is ideal for applications that require interaction with users from diverse linguistic backgrounds. Plus, with the ability to handle up to 32,768 tokens in context length, Qwen1.5 can understand and process lengthy conversations or documents with ease.

Rigourous Evaluations and Impressive Results

Alibaba didn’t just stop at creating a powerful model; they put it to the test. Qwen1.5 has undergone rigorous evaluation, and the results are impressive. The 72 billion parameter model, in particular, stands out with its exceptional performance in language understanding, reasoning, and mathematical tasks. Its ability to integrate with external systems, like RAG benchmarks and function calling, further highlights its strength and adaptability.

Qwen1.5 is not just a tool for machines; it’s a tool for people. It’s been crafted with developers at its core. Its compatibility with Hugging Face transformers and a variety of other frameworks and tools ensures that it’s accessible for developers who need to deploy models either locally or online. Alibaba is committed to supporting the use of Qwen1.5 for both research and practical applications. They’re fostering a community where innovation and collaboration thrive, driving collective progress in the field.

Alibaba’s Qwen1.5 is more than just an upgrade; it’s a leap forward in language model technology. It brings together top-tier performance and a developer-centric design. With its comprehensive range of model sizes, enhanced alignment with user preferences, and extensive support for integration and deployment, Qwen1.5 is a versatile and powerful tool. It’s poised to make a significant impact in the realm of natural language processing, and it’s ready for you to put it to the test. Whether you’re a seasoned developer or a curious researcher, Qwen1.5 could be the key to unlocking new possibilities in your work. So why wait? Dive into the world of Qwen1.5 and see what it can do for you.

Filed Under: Technology News, Top News





Latest Geeky Gadgets Deals

Disclosure: Some of our articles include affiliate links. If you buy something through one of these links, Geeky Gadgets may earn an affiliate commission. Learn about our Disclosure Policy.



[ad_2]

Source Article Link