Ciudad de México.- La inteligencia artificial continúa avanzando, y un claro ejemplo de esto es GPT-4o, un modelo que representa un salto significativo en la interacción persona-computadora. Este nuevo modelo, que acepta cualquier combinación de texto, audio e imagen como entrada y genera cualquier combinación de salidas de texto, audio e imagen, ha logrado igualar el rendimiento de GPT-4 Turbo en texto en inglés y código, pero con una mejora significativa en texto en idiomas distintos al inglés. Además, es mucho más rápido y un 50% más económico en la API.
Una de las características destacadas de GPT-4o es su capacidad para responder a entradas de audio en tan solo 232 milisegundos, con un promedio de 320 milisegundos, un tiempo de respuesta similar al humano en una conversación. Esto representa un gran avance en la integración de tecnología de voz en la inteligencia artificial.
Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN
Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx
— OpenAI (@OpenAI) May 13, 2024
Antes de la llegada de GPT-4o, el modo de voz para interactuar con ChatGPT tenía latencias de 2,8 segundos (GPT-3.5) y 5,4 segundos (GPT-4) en promedio. Esto se lograba mediante un proceso que involucraba varios modelos separados. Con GPT-4o, se ha entrenado un único modelo nuevo de extremo a extremo en texto, visión y audio, lo que significa que todas las entradas y salidas son procesadas por la misma red neuronal.
En cuanto a la seguridad, GPT-4o cuenta con medidas incorporadas por diseño en todas las modalidades. Se han realizado evaluaciones exhaustivas para garantizar que el modelo cumpla con los estándares de seguridad y no represente riesgos inaceptables en áreas como ciberseguridad, persuasión y autonomía del modelo.
En resumen, GPT-4o representa un avance significativo en la inteligencia artificial, con capacidades mejoradas y un enfoque renovado en la seguridad y la usabilidad. Su implementación gradual en diferentes aplicaciones y plataformas promete ofrecer experiencias más naturales e intuitivas en la interacción persona-computadora.
EDT.MX/CV