Esta nueva inteligencia artificial de Microsoft hace muchas más cosas que ChatGPT y Bing

Inteligencia artificial de Microsoft. El año de 2023 se perfila como el año en el cual la tecnología de la IA (Inteligencia Artificial) va a transformar completamente la manera en que se van a efectuar las consultas en internet.

No obstante, esto no se quedará aquí. Tomando en cuenta que el gigante tecnológico Microsoft, una de las corporaciones que ha apostado con mayor vigor por desarrollar y acoger a la inteligencia artificial, informó que ha creado un nuevo instrumento multimodal denominado Kosmos-1.

Esta herramienta se muestra capacitada para solucionar difíciles rompecabezas visuales, estudiar imágenes, examinar textos y entender lo que los usuarios le puedan explicar.

Prueba ahora Jasper.ai el mejor creador de textos

Siguiendo lo que dice ArsTechnica, Microsoft ha publicado el primer documento de la tecnología conocida como “Kosmos-1” en arXiv, el servicio que mantiene la Universidad Cornell de los Estados Unidos de América.

El informe, titulado “El lenguaje no es necesariamente todo lo que vas a necesitar: ordenar las impresiones y las sensaciones con los patrones de idiomas” descubre las conclusiones de un nuevo tipo de lenguaje que serían los resultados de un nuevo modelo de lenguaje largo y prolongado multimodal (MLLM)

Kosmos-1 es capaz de trabajar con imágenes

Para diferenciarse de ChatGPT, el novedoso Bing o el futuro Bard en el cual trabaja Google, “Kosmos-1” está ampliamente capacitado para trabajar con las imágenes.

Los otros instrumentos, por ahora, solamente tendrían la habilidad para dar respuestas a través de la utilización de textos a las diferentes cuestiones que puedan plantear los usuarios. No necesariamente con resultados óptimos.

Este funcionamiento (llamado “Multimodal”) de esta novedosa tecnología de la IA (inteligencia Artificial) que se muestra capaz de hacer análisis de imágenes y textos, se considera actualmente como “Una imperiosa necesidad de conseguir una inteligencia artificial general, en lo que respecta a adquirir saberes, conocimientos y vínculos con el mundo de la realidad exterior”.

Estas declaraciones de los creadores de “Kosmos-1” fueron recogidas por la página web especializada en estos temas “Ars Technica”.

Kosmos-1 considera modos de entrada como texto, imágenes, audio y vídeo

En contraste con ChatGPT, Kosmos-1 toma en cuenta formas de entradas, como serian textos, imágenes, audios y vídeos.

Aun cuando los modelos llamados LLM, por ejemplo, el que desarrolló OpenAI, sirvieron como objetivos generales en diversas labores de lenguaje natural, poseen ciertas desventajas en este aspecto.

La interfaz que se basa en LLM está capacitada perfectamente para adaptarse a cualquier tarea, si cumple con el requisito previo de modificar previamente a un texto las entradas y las salidas.

A pesar de sus aplicaciones con mucho éxito, sobre todo en procesar el lenguaje natural, siguen en la lucha por utilizar los LLM de manera nativa para lo que serían los datos multimodales, como son en efecto, las imágenes y los audios.

La IA admite de forma nativa tareas de lenguaje, percepción-lenguaje y visión

Los diseñadores mostraron diversos ejemplos con las respuestas que puede descubrir el dispositivo a temas manejados por los usuarios con respecto a las imágenes.

De este modo, está capacitado para explicar las razones por las cuales una imagen en la que se ve a un gatico es graciosa o acertar exactamente las fechas en que se va a estrenar la película en la que puede verse al felino.

Según lo que explican los científicos creadores de esta tecnología, la inteligencia artificial reconoce de manera nativa labores relativas con el lenguaje, la percepción-lenguaje y la visión.

Con respecto a “Kosmos-1”, sus creadores señalan que constituye “Un modelo de lenguaje multimodal (MML) capacitado para entender modalidades de tipo general, copiar y ejecutar instrucciones, aprender en diferentes entornos y, por último, producir resultados.”

Prueba ahora Jasper.ai el mejor creador de textos

La IA se entrenó utilizando extractos de The Pile

La IA desarrollada específicamente para “kosmos-1 fue entrenada con extractos de The Pile, un grupo de datos de códigos abiertos de 825 GB que suelen destinarse a modelos muy largos. Asimismo, Microsoft utilizo a “Common Crawl”, un inmenso repositorio de datos de internet.

Luego de un período bastante prudencial de preparación y puesta a punto, los científicos e ingenieros hicieron un conjunto de valoraciones para probar a “Kosmos-1” y lo que se han conseguido es realmente promisorio.

En las pruebas que hicieron con “Kosmos-1”, la Inteligencia Artificial de esta herramienta se mostró capaz de responder interrogantes sobre cierto tipo de imágenes, como fueron la forma de peinado de un atleta, los motivos por los cuales se consideraban chistosas una foto, o inclusive el motivo de porqué un bebé estaba llorando en ese momento.

De la misma manera, de forma increíble pudo efectuar operaciones matemáticas sencillas e identificar textos y cifras, como, por ejemplo, las fechas del debut (solamente viendo el póster) de una película.

Pese a sus excelentes resultados, “Kosmos” solo es un paso inicial para conseguir en el futuro una IA de tipo multimodal que, posiblemente, una vez que le llegue su oportunidad, va a sustituir a los chatbots que nada más pueden funcionar a través de la utilización de textos.

El desarrollo de Kosmos-1 es un proyecto exclusivo de Microsoft

Por ahora, el desarrollo de Kosmos-1 se trataría de un proyecto exclusivamente desarrollado por el gigante tecnológico Microsoft en el cual no estaría interviniendo OpenAI.

Esta última es la empresa que creo ChatGPT y en la cual Microsoft ha hecho inversiones multimillonarias en los años más recientes.

Pese a que en la actualidad esta novedosa IA no puede ser utilizada por los usuarios, la gran corporación tecnológica que fundo Bill Gates afirmó que posee planes para que todo el mundo pueda acceder a ella.

El desempeño realizado por “Kosmos-1” en los test llamados “Matrices Progresivas De Raven”, posiblemente sea lo más llamativo de todas las etapas de las pruebas hechas hasta ahora.

Dichos test permiten analizar y finalizar secuencias de formas y se utilizan habitualmente para evaluar la inteligencia de los seres humanos, así como su razonamiento abstracto.

“En el test de Raven, Kosmos-1 logró responder adecuadamente una interrogante en un porcentaje cercano al 22% de las ocasiones, con lo cual superó las probabilidades aleatorias que son de un 17%, según lo que afirmó la página web Hipertextual.

Los resultados revelaron que esta IA puede percibir patrones abstractos en un contexto no verbal

Algo que ha impresionado a todo el mundo es que los resultados permitieron revelar que la Inteligencia Artificial que compone a “Kosmos-1” está capacitada para distinguir patrones abstractos en contextos o entornos no verbales.

Aun cuando, como dicen sus creadores, “Estas evaluaciones todavía se encuentran lejanas de aquello que pueden alcanzar los adultos promedios, manifiestan que los lenguajes multimodales serian la clave para desarrollar algún tipo de inteligencia artificial que permita superar en el futuro a los seres humanos”, añadió la página web Hipertextual.

Prueba ahora Jasper.ai el mejor creador de textos

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.