Hace (casi) todo por vos: Gemini 2.0, la nueva versión de la IA de Google, te ayuda con el shopping y con la estrategia para ganar en un juego
12/11/2024 10:31 AM
Google está en plena pelea con OpenAI, Microsoft, Amazon y otras compañías para liderar (o al menos, terciar) en el rumbo que está tomando la industria de la inteligencia artificial generativa. La semana pasada OpenAI habilitó para todos los usuarios la versión de ChatGPT con el motor o1, más eficaz a la hora de hacer razonamientos complejos; esta semana habilitó el motor de generación de imágenes Sora, y lo siguió Aurora, de Grok (la IA de Elon Musk) con una herramienta de generación de imágenes realistas que le robó el interés de los usuarios (momentáneamente, al menos): es diferente del resto al permitir usar rostros de gente conocida. Google había habilitado su motor de creación de contenido visual realista, Imagen 3, en octubre último. También por estos días Amazon presentó Nova, su nuevo motor de IA multimodal (esto es, capaz de analizar y generar contenido en texto, imagen, video y audio) y Meta renovó su IA (la que está detrás del círculo azul llamado Meta AI) con el motor Llama 3.3, el más eficiente de la compañía a la fecha en generación de texto (para imagen sigue usando Llama 3.2). Así que el rubro está activo y muy competitivo.
Gemini 2.0, la base de la nueva IA de Google
En este reparto de estocadas Google anunció hoy varias cosas. De las tres que nos pueden importar, la primera es técnica, e indirecta: Gemini (el chatbot de Google, que engloba a todas las herramientas de inteligencia artificial con las que interactúan los usuarios, tanto en la web como en el celular, en reemplazo del Asistente tradicional) ahora está disponible en versión 2.0. Como era de esperarse, tiene una mayor capacidad de generación y gestión de textos, imágenes, videos y audios, incluyendo un mix: generar imágenes con texto incorporado, algo que parece muy sencillo, pero que no lo era hasta ahora para la IA.
Pero el avance grande está en lo que se llaman "agentes", y que otros competidores (como OpenAI y Anthropic) están desarrollando: ya no se trata de pedirle a IA que nos explique un tema o genere contenido, sino que vaya y haga algo, interactuando con otros sistemas: pedirle que haga una lista de elementos que necesitamos para algo (una receta de cocina, por ejemplo), que los busque en una tienda online, arme el carrito y nos deje todo listo para la compra. De hecho, en uno de los ejemplos que pone Google sobre este nuevo Gemini 2.0 es muy parecido a lo que anunció Perplexity hace dos semanas: un asistente de shopping inteligente. Por ahora, no obstante, en el caso de Google está en periodo de pruebas restringido.
Astra y Mariner para hacer la IA del futuro
Google también mostró los avances que está haciendo en sus proyectos Astra (para crear un asistente omnisciente al estilo de la película Her: le mostramos lo que vemos con la cámara del celular y puede interpretar todo lo que aparece en pantalla) y Mariner, que implica tomar estos "agentes de IA" y darles mandados para que cumplan.
En el caso de Astra, las mejoras respecto de lo que mostró a mitad de año tienen que ver con su capacidad para entender varios idiomas en simultáneo, para responder con más riqueza tonal cuando nos habla y, en general, para entender mejor el contexto de un pedido de un usuario: por ejemplo, interpretar los símbolos de lavado en la etiqueta de la ropa, o buscar información sobre un libro antiguo teniendo como única referencia una foto del lomo, o saber si podemos dejar la bici cerca del lugar a donde vamos. Y todo con una interacción oral (le hablamos al teléfono, la IA nos responde).
Así se comporta la nueva versión de Astra:
Un ejemplo de Mariner, que como Astra todavía es experimental, más allá de ayudarnos con una búsqueda específica para hacer -por ejemplo- una lista de compras: pedirle que nos ayude a organizar una estrategia en un juego, aún si la IA no fue entrenada específicamente para ese juego.