La creadora de ChatGPT, OpenAI, ha anunciado una serie de innovadoras características para su chatbot. Estas actualizaciones permiten al modelo «escuchar», «hablar», e incluso «ver» imágenes, marcando un hito en el mundo de la inteligencia artificial y transformando al chatbot en algo más que un asistente textual.
La capacidad de reconocimiento de voz e imagen en ChatGPT ofrecerá una interfaz más intuitiva, permitiendo a los usuarios tener una conversación por voz o mostrar imágenes al chatbot para discutir sobre ellas. Por ejemplo, un usuario podría tomar una foto de un monumento mientras viaja y tener una conversación en tiempo real sobre su historia o significado.
Además de estas características, ChatGPT ahora cuenta con síntesis de voz a texto y de texto a voz. Estas capacidades son impulsadas por un nuevo modelo de texto a voz que puede generar audio con calidad humana a partir de únicamente texto y unos segundos de muestra de voz. OpenAI colaboró con actores de voz profesionales para crear cada una de las voces disponibles.
ChatGPT entenderá las fotos que le envíes
El reconocimiento de imágenes es otra característica destacada. Los usuarios pueden mostrar a ChatGPT una o más imágenes para discutir sobre ellas. Por ejemplo, podrían explorar el contenido de su nevera para planificar una comida o analizar un gráfico complejo para datos relacionados con el trabajo. Para centrarse en una parte específica de la imagen, los usuarios pueden utilizar la herramienta de dibujo en la aplicación móvil.
Sin embargo, estas avanzadas capacidades no están exentas de desafíos. OpenAI ha señalado que los modelos basados en visión presentan nuevos retos, desde alucinaciones sobre personas hasta depender de la interpretación del modelo de imágenes en dominios de alto riesgo. La empresa ha tomado medidas técnicas para limitar significativamente la capacidad de ChatGPT para analizar y hacer declaraciones directas sobre personas, ya que no siempre es preciso y estos sistemas deben respetar la privacidad de los individuos.
OpenAI enfatiza la importancia de desplegar estas capacidades de manera gradual, permitiendo mejoras y refinamientos en las mitigaciones de riesgos con el tiempo. Esta estrategia es aún más crucial con modelos avanzados que involucran voz e imagen.