GPT-4o probado: más rápido y más versátil que antes, pero surgen dudas sobre la confiabilidad

[ad_1]

Desde noviembre de 2022, cuando ChatGPT se lanzó al público por primera vez, Abierto AI Fue la empresa que ganó en el campo de la inteligencia artificial (IA). A pesar de gastar miles de millones de dólares y crear y reestructurar su división de IA, los grandes gigantes tecnológicos se han encontrado constantemente poniéndose al día con la IA. El mes pasado no fue diferente. Justo un día antes del evento Google I/O, OpenAI organizó un evento de actualización de primavera y presentó GPT-4o con actualizaciones importantes.

Características de GPT-4o

La “o” en GPT-4o significa Omnicanal, que es el foco principal de las nuevas capacidades del último modelo de IA de primer nivel de OpenAI. Agregó generación de audio emocional en tiempo real, acceso a Internet, integración con algunos servicios en la nube, visión por computadora y más. Aunque las características eran impresionantes en papel (y en demostraciones de tecnología), lo más destacado fue anuncio ChatGPT que ejecute GPT-4o estará disponible para todos, incluidos los usuarios gratuitos.

Sin embargo, hubo dos advertencias. Los usuarios gratuitos solo tienen acceso limitado a GPT-4o, lo que se traduce aproximadamente en 5 o 6 ciclos de conversación si utiliza la búsqueda web y carga una imagen (sí, el límite es 1 imagen por día para los usuarios gratuitos). Además, la función de audio no está disponible para usuarios gratuitos.

Tampoco hizo falta OpenAI para lanzar el nuevo modelo de IA al público. Afortunadamente, tuve acceso a la última innovación en inteligencia artificial de la compañía en cuestión de días e inmediatamente comencé a jugar con ella. Quería probar su mejora con respecto a su predecesor y todos los LLM gratuitos disponibles en el mercado. He pasado casi dos semanas con el asistente de IA y, aunque algunos aspectos me dejaron asombrado, otros me decepcionaron. Dejame explicar.

GPT-4o Capacidades generativas generales

dije por mi cuenta Pruebas Desde Google Gemini no soy partidario de las capacidades generativas de ChatGPT. Me parece muy formal y agradable. Gran parte todavía está intacta. Le pedí que le escribiera una carta a mi madre explicándole que me habían despedido de mi trabajo, y la carta incluía la maravillosa frase “Siento un profundo sentimiento de tristeza y pena”. Pero una vez que le pedí que lo hiciera más conversacional, el resultado fue mucho mejor.

Capacidades generativas de GPT-4o

Probé esto usando varias indicaciones similares en las que la IA tenía que expresar alguna emoción en su escritura. En casi todos los casos, tuve que seguir con otra pauta para enfatizar la emoción, aunque ya lo había hecho en la pauta original. En comparación, mis experiencias con Gemini y Copilot fueron mucho mejores ya que mantuvieron el lenguaje conversacional y la expresión emocional mucho más cerca de mi forma de escribir.

La velocidad de generación de texto no es nada del otro mundo. La mayoría de los chatbots de IA son bastante rápidos en lo que respecta a la producción de texto, y el último modelo de IA de OpenAI no los supera por un gran margen.

Capacidades de chat GPT-4o

Aunque la función de chat de voz mejorada no está disponible, quería probar las capacidades de conversación del modelo de IA, ya que a menudo es la parte que más se pasa por alto de un chatbot. Quería que mi experiencia fuera similar a hablar con una persona real y esperaba que pudieras captar frases vagas que hicieran referencia a los temas mencionados anteriormente. También quería ver su reacción cuando alguien se pone difícil.

En mis pruebas, encontré que GPT-4o es bastante bueno en términos de capacidades de chat. Puede discutir conmigo la ética de la IA con gran detalle y reconocer cuando hago una presentación convincente. También respondió con apoyo cuando le dije que me sentía triste (porque me iban a despedir) y se ofreció a ayudar de varias maneras. Cuando le dije a GPT-4o que todas sus soluciones eran estúpidas, no respondió de manera oportunista ni se echó atrás por completo, lo que me sorprendió. Él dijo: “Lamento mucho que te sientas así. Te daré algo de espacio. Si necesitas hablar o necesitas ayuda, estaré aquí. Cuidándome”.

En general, encontré que GPT-4o es mejor para las conversaciones. copiloto Y mellizo. Géminis se siente muy restringido y el copiloto a menudo se da la vuelta cuando las respuestas se vuelven ambiguas. ChatGPT no hace ninguna de estas cosas.

Si tuviera que mencionar un inconveniente, sería el uso de viñetas y puntuación. Sólo si el modelo de IA comprende que las personas en la vida real prefieren un muro de textos y múltiples mensajes SMS enviados en rápida sucesión a respuestas bien formateadas, es posible crear un comentario falso que dure más de unos pocos minutos.

GPT-4o visión por computadora

La visión por computadora es una habilidad recién adquirida por ChatGPT y estaba emocionado de probarla. En esencia, te permite subir una imagen y analizarla para proporcionarte información. En mi prueba inicial, compartí fotografías de cosas para identificar, e hizo un gran trabajo. En cada caso, puede reconocer el objeto y compartir información sobre él.

Visión por computadora GPT-4o: identificación de dispositivos técnicos

Entonces es hora de aumentar la dificultad y probar sus capacidades en casos de uso de la vida real. Mi amiga estaba buscando una renovación de vestuario y, como buena amiga que soy, decidí usar ChatGPT para hacer un análisis de color y sugerir qué le quedaría bien. Para mi sorpresa, no solo pudo analizar su tono de piel y lo que vestía (de un fondo de color similar), sino que también pudo compartir un análisis detallado con sugerencias de vestimenta.

Análisis de color GPT-4o

Mientras sugiere ropa, también comparta enlaces de diferentes minoristas en línea para prendas específicas. Sin embargo, es decepcionante que ninguna de las URL coincida con el texto.

En general, la visión por computadora es excelente y probablemente mi característica favorita en la nueva actualización, ignorando las desventajas.

Búsquedas web GPT-4o

El acceso a Internet fue un área en la que tanto Copilot como Gemini estaban por delante de ChatGPT. Pero ya no, ya que ChatGPT también puede buscar información en Internet. En mis pruebas iniciales, el chatbot funcionó bien. Vi el calendario de IPL 2024 y busqué artículos de noticias recientes sobre Geoffrey Hinton, uno de los tres padrinos de la IA.

Esto fue muy útil cuando quería encontrar personajes famosos para mis entrevistas. Podía buscar rápidamente cualquier artículo de noticias reciente al respecto con precisión, lo que rivalizaba con una búsqueda en Google. Sin embargo, esto también hizo sonar algunas alarmas en mi cabeza.

Google ha desactivado la capacidad de buscar información sobre personas, incluidas celebridades. Esto se hace principalmente para proteger su privacidad y evitar compartir información inexacta sobre cualquier individuo. Me sorprendió que ChatGPT todavía permitiera esto y comencé a hacerle una serie de preguntas que no debería poder responder. Me sorprendieron los resultados.

Aunque ninguna de la información presentada fue tomada de una fuente no pública, el hecho de que cualquiera pueda buscar fácilmente información sobre celebridades y personas con huellas digitales es profundamente preocupante. Especialmente dada la fuerte postura ética que la compañía adoptó recientemente cuando publicó las especificaciones de su modelo, esto no me sienta bien. Te dejaré decidir si esto está en el área gris o es un gran problema.

GPT-4o Razonamiento Lógico

Durante el evento Spring Update, OpenAI también habló sobre cómo GPT-4o puede actuar como maestro para los niños y ayudarlos a resolver problemas. Decidí probarlo usando algunas preguntas lógicas famosas. En general, funcionó bien. Incluso respondió algunas de las preguntas más difíciles que desconcertaban a GPT 3.5.

Sin embargo, todavía hay errores. Encontré múltiples ejemplos de cadenas numéricas en las que la IA tropezó y dio una respuesta incorrecta. Si bien todavía acepto que la IA comete algunos errores, lo que realmente me decepcionó aquí es cómo todavía fracasa en algunas preguntas muy fáciles (pero destinadas a engañar a la IA).

Ejemplo de una alucinación GPT-4o

Cuando preguntó: “¿Cuántas hay en la palabra fresas?”, respondió con confianza dos (la respuesta correcta es tres, si se lo pregunta). El mismo problema existe en muchas otras preguntas capciosas. En mi experiencia, la lógica y confiabilidad del GPT-4o es similar a la de su predecesor, lo cual no es nada bueno.

GPT-4o: reflexiones finales

En general, estoy bastante impresionado con las mejoras en ciertas áreas del nuevo modelo de IA, siendo la visión por computadora y el habla conversacional mis favoritos. También me gusta su capacidad de buscar en línea, pero es tan bueno que me preocupa más. En cuanto al pensamiento lógico y las capacidades generativas, hay poca mejora.

En mi opinión, si tiene acceso premium a GPT-4o, probablemente será mejor que cualquier otro competidor en términos de entrega general. Sin embargo, hay mucho margen de mejora y no se puede confiar ciegamente en la IA.

[ad_2]

Source Article Link