Gemini IA es un nuevo modelo de lenguaje multimodal de Google que tiene el potencial de revolucionar una amplia gama de aplicaciones de Inteligencia Artificial.
Desde que Google presentó esta nueva IA el pasado 6 de diciembre han surgido algunas dudas en torno a los usuarios interesados en conocer más sobre los alcances de este nuevo desarrollo.
Lo primero que hay que señalar es que Gemini es una nueva familia de modelos de lenguaje multimodal que ofrece una amplia gama de capacidades. Google presentó Gemini 1.0, el cual tiene las siguientes versiones:
- Nano. Tiene un tamaño de 10 mil millones de parámetros y está entrenado en un conjunto de datos aún más pequeño. Gemini Nano es ideal para aplicaciones que requieren un modelo de lenguaje multimodal pequeño y eficiente.
- Pro. Tiene un tamaño de 100 mil millones de parámetros; es capaz de realizar muchas de las mismas tareas que Gemini Ultra, pero puede ser más eficiente en dispositivos con memoria limitada.
- Ultra. Es la versión más grande y poderosa. Tiene un tamaño de 1.6 billones de parámetros y está entrenado en un conjunto de datos masivo de texto, imágenes, audio y video.
A través del informe técnico “Gemini: A Family of Highly Capable Multimodal Models“, el equipo de Google detalla con ejemplos de prompts el alcance de Gemini Ultra, su versión con más capacidad.
A continuación te compartimos algunos ejemplos de prompts y el alcance que pueden tener con Gemini Ultra, esto a partir de la información disponible en el informe técnico de Google.
Ejemplos prompts para Gemini Ultra
Comprensión y razonamiento sobre datos
- Prompt: “Dada una tabla de datos sobre ventas de diferentes productos, analice las tendencias y explique las posibles causas de las variaciones.”
- Respuesta: Gemini Ultra podría generar un texto que explique las correlaciones entre los diferentes productos, identificar tendencias a lo largo del tiempo y sugerir posibles explicaciones basadas en factores externos como eventos económicos o campañas de marketing.
Multimodal question answering
- Prompt: “¿De qué color es el vestido en la imagen y por qué es popular?”
- Respuesta: Gemini Ultra podría analizar la imagen y responder a la pregunta sobre el color del vestido, además de proporcionar información sobre la popularidad del vestido.
Generación de contenido con imágenes
- Prompt: “Genera una publicación de blog sobre la moda sostenible, intercalando imágenes y texto que ilustren los conceptos.”
- Respuesta: Crea una publicación de blog con texto informativo sobre la moda sostenible, insertando imágenes relevantes para reforzar los puntos clave y mejorar la experiencia del lector.
Comprensión y razonamiento sobre imágenes
- Prompt: “Describe las emociones de las personas en la imagen y explica por qué están sintiendo esas emociones.”
- Respuesta: Analiza las expresiones faciales, el lenguaje corporal y el contexto de la imagen para identificar las emociones de las personas y proporcionar una explicación lógica.
Razonamiento geométrico
- Prompt: “Dados dos polígonos, determine si son congruentes y proporcione una explicación paso a paso de la solución.”
- Respuesta: Analiza las propiedades de los polígonos y aplicar principios geométricos para determinar la congruencia, proporcionando una demostración detallada del proceso.
Búsqueda de información sobre objetos
- Prompt: “¿Cuál es el nombre de la flor en la imagen y dónde se puede encontrar?”
- Respuesta: Gemini Ultra podría identificar la flor en la imagen y utilizar su conocimiento del mundo real para proporcionar información sobre su nombre, hábitat y otros datos relevantes.
Comprensión del humor multimodal
- Prompt: “Explica por qué el meme es gracioso y analiza las diferentes capas de humor presentes.”
- Respuesta: Gemini Ultra podría analizar el texto, las imágenes y el contexto del meme para identificar el humor presente, explicar los diferentes niveles de significación y proporcionar insights sobre la cultura y el lenguaje utilizados.
Razonamiento de sentido común en un entorno multilingüe
- Prompt: “Traduce la frase ‘El tiempo vuela’ a un idioma diferente y proporciona un ejemplo de cómo se utiliza en un contexto cotidiano.”
- Respuesta: Traduce la frase a otro idioma, teniendo en cuenta el significado cultural y el contexto, y proporcionar un ejemplo de cómo se usa en una situación real.
Generación de código
- Prompt: “Genera un script Python que extrae los datos de precios de una tabla HTML.”
- Respuesta: Analiza la estructura de la tabla HTML y generar un código Python que extraiga y procese los datos de precios de manera eficiente.
Matemáticas
- Prompt: “Resuelve la ecuación x^2 + 5x – 6 = 0 y explica los pasos involucrados en la solución.”
- Respuesta: Aplica métodos matemáticos para resolver la ecuación y proporcionar una explicación clara de los pasos utilizados para llegar a la solución.
Comprensión y razonamiento de video
- Prompt: “Analiza el video y describe la secuencia de eventos que ocurren, identificando las acciones y relaciones entre los objetos.”
- Respuesta: Analiza el video cuadro por cuadro, identificando las acciones de los objetos y las relaciones entre ellos, y generando una descripción coherente de la secuencia de eventos.
LEE TAMBIÉN. ¿Cómo puedo usar Gemini de Google? Le preguntamos a Bard y esto respondió
Las imágenes que te compartimos a continuación forman parte de las pruebas que Google realizó y que documenta en su informe técnico.
Si deseas consultar el informe técnico, da clic en este enlace.
Tabla . Características de las tres versiones de Gemini
Característica | Gemini Ultra | Gemini Pro | Gemini Nano |
---|---|---|---|
Tamaño | 1,6 billones de parámetros | 100 mil millones de parámetros | 10 mil millones de parámetros |
Conjunto de datos de entrenamiento | Masivo | Pequeño | Pequeño |
Tareas | Generación de texto creativo, traducción de idiomas, respuesta a preguntas, razonamiento multimodal | Generación de texto creativo, traducción de idiomas, respuesta a preguntas | Generación de texto creativo, traducción de idiomas |
Dispositivos ideales | Dispositivos con memoria y potencia de procesamiento ilimitados | Dispositivos con memoria y potencia de procesamiento limitados | Dispositivos con memoria y potencia de procesamiento muy limitados |