Inteligencia Artificial

Llega ChatGPT-4o, la versión ultra mejorada de ChatGPT para imágenes, vídeo, audio y texto

Claudio Valero

Publicado el 13 de mayo, 2024 • 20:47

OpenAI es la empresa que marca el ritmo en el mercado de la inteligencia artificial y quiere que así siga siendo. Por eso, esta misma tarde ha vuelto a ser noticia al anunciar muchísimas mejoras a su asistente, más conocido como ChatGPT: llega ChatGPT-4o, la versión ultra mejorada de ChatGPT para imágenes, vídeo, audio y texto. Que, además, es un asistente como lo pueden ser Google Assistant o Siri. Te contamos todos los detalles.

GPT-4o, la “o” es de “omni”, es la nueva versión del asistente de inteligencia artificial por excelencia. OpenAI lo define como un paso en la interacción entre el humano y la máquina, haciendo que todo sea más natural y aceptando cualquier tipo de medio como entrada.

@adslzone
ChatGPT 4o es el nuevo JARVIS de Ironman #chatgpt #chatgpt4o #ia

♬ sonido original – ADSLzone – ADSLzone

Es decir, ya no solo podemos interactuar con ella a través de la voz. Ahora, Chat GPT-4o va a poder, también, recibir texto, audio, imagen o, lo que es más sorprendente, una combinación de estos elementos. Sin duda, un paso hacia delante que hace apenas unos meses parecía ciencia ficción. De hecho, es tan potente que puede responder en tan solo 232 milisegundos, con un promedio de 320 milisegundos (esto es similar al tiempo de reacción de un humano). Una buena comparación para entender de todo lo que va a ser capaz a partir de ahora.

Un paso más hacia una IA total

¿Te imaginas estar hablando con un ordenador y recibir las mismas respuestas, con la misma naturaleza, que lo haría cualquier otra persona? Puesta es precisamente la propuesta de Chat GPT-4o. Y uno de los principales motivos que nos van a llamar la atención desde las primeras interacciones. Se trata de un modelo de Inteligencia Artificial que, una vez ha implementado todas las mejoras, replica a la perfección la misma experiencia que tendríamos si estuviéramos hablando con cualquier otra persona. Si Chat GPT ya fue una revolución, esta nueva evolución pretende dar un paso más allá.

Antes del lanzamiento de GPT-4o, las latencias en la respuesta eran de 2,8 segundos (GPT-3.5) y 5,4 segundos (GPT-4). Viendo las cifras que se han anunciado para esta nueva versión, vemos como el salto es significativo. OpenAI no ha dudado en mostrar una comparativa con otras IA como Claude 3 Opus o Gemini Pro 1.5. GPT-4o se muestra mejor en prácticamente todas las áreas.

potencial que tiene Chat GPT para interpretar cualquier imagen. Si bien es cierto que siempre ha presentado un muy buen rendimiento al respecto, la realidad es que en ocasiones aparecían ciertos fallos que había que corregir de manera manual. Ahora, únicamente tenemos que subir una fotografía o una imagen para que nos dé todo tipo de detalles, de manera muy precisa, sobre ella. Garantizando una mejor respuesta en comparación con lo que estábamos acostumbrados. Ahora, apenas necesitamos un teléfono móvil para que este modelo desarrollado por OpenIA analice todo lo que puede ver a través de nuestra cámara.

La seguridad

Desde OpenIA son conscientes de todo lo que tiene que ver con la polémica en torno a la seguridad y la protección de los datos de los s. Por este motivo, OpenIA asegura que GPT-4o «se ha sometido a una amplia reunión externa con más de 70 expertos externos en dominios como la psicología social, el sesgo y la equidad, y la desinformación para identificar los riesgos que se introducen o amplifican con las nuevas modalidades añadidas«.

GPT-4o va a disponer de seguridad integrada en todas sus modalidades. Entre las diferentes técnicas que han anunciado se encuentra, por ejemplo, la filtración de los datos de entrenamiento. Así como el refinamiento de cada comportamiento a través del entrenamiento posterior. Además, se han creado nuevas medidas de seguridad para que toda la información se encuentra más protegida.

La disponibilidad

OpenIA también ha demostrado una gran celeridad para implementar estos cambios y aterrizarlos en el público general. De hecho, todo lo que tiene que ver con las nuevas capacidades de texto e imagen de GPT -4o estará disponible desde hoy mismo. Aunque, eso sí, el despliegue no se realizará de manera uniforme y es posible que algunos s todavía tengan que esperar algunos días hasta poder comenzar las nuevas posibilidades que nos brinda GPT-4o.

También ha afirmado que la nueva versión del modo voz con GPT-4o comenzará a estar disponible «en las próximas semanas«, sin dar más detalles al respecto.