Desde que OpenAI lanzó ChatGPT a finales de noviembre de 2022, no se habla de otra cosa que no sea inteligencia artificial. A partir de entonces, fuimos testigos de un boom de los servicios basados en IA. Todas las empresas quieren formar parte, siendo más evidente en el caso de las compañías tecnológicas. Hoy, Google acaba de dar un golpe sobre la mesa con la presentación de Gemini, un modelo de lenguaje que parece dejar tendido a ChatGPT-4.
“Hoy presentamos Gemini, nuestro modelo de IA más grande y capaz, y el siguiente paso en nuestro viaje para hacer que la IA sea útil para todos. Construido desde cero para ser multimodal, Gemini puede generalizar y comprender, operar y combinar sin problemas diferentes tipos de información, incluyendo texto, imágenes, audio y video. Esto significa que tiene un razonamiento multimodal sofisticado y capacidades de codificación avanzadas”, informó Google.
A continuación, te explicamos qué es Gemini, además de cuáles son sus capacidades, por qué dicen que es mejor que ChatGPT-4 de OpenAI y qué es lo que sigue para Google sobre esta misma ruta.
¿Qué es Gemini?
Gemini es un modelo de lenguaje grande desarrollado por Google que es capaz de entender texto, pero también imágenes, videos y audio. De ahí proviene su denominación como un lenguaje multimodal, instalándose de inmediato como el rival a vencer para otros modelos de lenguaje incluyendo el chatbot de OpenAI.
Es importante señalar que Gemini se encuentra en tres tamaños diferentes: Ultra, Pro y Nano. De todas estas variantes, Ultra es la de mayor capacidad, pero Nano sobresale por ser el más eficiente. En términos sencillos, Pro estaría en un nivel intermedio. Como puedes anticipar, cada una de ellas se adapta a diferentes tareas y aplicaciones.
Por ejemplo, Gemini Nano es ideal para su uso en los celulares de la compañía, los Pixel, mientras que el chatbot Bard se beneficia de la variante Pro. Tras realizar algunas comprobaciones en materia de confianza y seguridad, Gemini Ultra llegaría a tan solo algunos grupos seleccionados en los próximos meses.
“Con estos tres tamaños, Gemini tiene la flexibilidad de funcionar en todo, desde centros de datos hasta dispositivos móviles (…) Gemini está disponible en algunos de nuestros productos principales a partir de hoy (…) En los meses siguientes, Gemini potenciará las funciones de más de nuestros productos y servicios, tales como Ads, Chrome y Duet AI”, explicó Google.
¿Cuáles son las capacidades de Gemini?
Gemini es un modelo de lenguaje construido desde cero con la intención de ser multimodal. De esta manera, es capaz de generalizar, operar y combinar diferentes tipos de información. Según las pruebas divulgadas por Google, Gemini Ultra es el primero en superar a los expertos humanos en comprensión masiva del lenguaje multitarea, recurriendo a la combinación de 57 distintas materias para explicar desde el conocimiento sobre el mundo hasta la resolución de problemas.
La distinción de Gemini frente a otros modelos similares es que dicho sistema es multimodal de forma nativa. Posteriormente, se refina su funcionamiento con otros datos multimodales, a fin de que pueda comprender y razonar los diferentes problemas desde cero. Con ello, puede ayudar a entender información escrita y visual compleja, algo que lo convierte en una herramienta útil para extraer conocimiento de grandes cantidades de datos.
Gemini fue entrenado para reconocer y comprender texto, imágenes, audio y otros tipos de información de forma simultánea. Asimismo, es capaz de entender, explicar y generar código de alta calidad en los lenguajes de programación más populares del mundo, incluyendo Python, Java, C++ y Go.
Consciente de que existe preocupación por el desarrollo acelerado en materia de inteligencia artificial, Google quiso asentar el suelo donde se desarrolla Gemini.
“Hemos realizado investigaciones novedosas en posibles áreas de riesgo, como la ciberdelincuencia, la persuasión y la autonomía, y hemos aplicado las mejores técnicas de pruebas de adversarios de Google Research para identificar problemas de seguridad críticos antes del despliegue de Gemini”, refirió.
¿Es mejor Gemini que ChatGPT-4?
Google presenta a Gemini como uno de los modelos de IA más avanzados hasta la fecha, pero eso se percibirá de mejor manera con la llegada de la variante Ultra. El rasgo distintivo es, precisamente, su característica multimodal nativa. En el caso de otros modelos como GPT-4, todavía dependen de complementos e integraciones para poder sostener su carácter multimodal.
De igual manera, Gemini de Google da la impresión de tener una orientación más centrada en los productos finales. Esto salta a la vista por su incorporación en Bard y dispositivos móviles como los Pixel. En cambio, los modelos GPT-4 y Llama de Meta tienen una inclinación más evidente hacia los servicios y la innovación a cargo de desarrolladores de aplicaciones.
Jeff Deam, científico jefe de Google DeepMind, dijo que Gemini es capaz de soportar un contexto de hasta 32,000 tokens en el caso de las preguntas. En la actualidad, es la misma cantidad que maneja GPT-4, aunque GPT-4 Turbo multiplica por cuatro esa capacidad contextual.
Aunque Google no reveló la masa de datos que utilizó para el entrenamiento de Gemini, garantizó que implementó un enfoque novedoso que lo hace más efectivo en su capacidad multimodal.
¿Cuál es el futuro para Gemini?
En este momento, Gemini 1.0 está implementando en varios de los productos y servicios de Google. Por ejemplo, la empresa mencionó que ya están comenzando a experimentar con Gemini en el sistema de búsqueda.
En tanto, los desarrolladores y clientes empresariales podrán acceder a Gemini Pro a partir del 13 de diciembre, lo cual será posible a través de la API en Google AI Studio y Google Cloud Vertex AI. En tanto, los desarrolladores de Android podrán servirse de Gemini Nano, su modelo más eficiente para tareas y proyectos móviles mediante AICore.
“Hemos hecho un gran progreso en Gemini hasta ahora y estamos trabajando arduamente para ampliar aún más sus capacidades para futuras versiones, incluidos los avances en planificación y memoria, y aumentar la ventana de contexto para procesar aún más información y dar mejores respuestas”, señaló.
Cuéntanos qué te parece el nuevo modelo y sus capacidades. Comparte tus impresiones en una comparativa directa contra ChatGPT-4 y otros modelos de lenguaje. Te leemos en los comentarios. Recuerda que siempre, ¡estamos en línea!