SuscrĆ­bete a Merca2.0. Haz clic aquĆ­

Metaverse Fashion Week
Guillermo Perezbolde

Con que información se alimenta Chat GPT y otros sistemas de inteligencia artificial

Es innegable la cantidad de información que tienen cargada sistemas de inteligencia artificial como Chat GPT, la pregunta es ¿cuÔles son las fuentes?

En noviembre de 2022 el mundo de la información cambió de forma definitiva con la presentación al público de Chat GPT y hasta la fecha sigue siendo el sistema de inteligencia artificial mÔs utilizado en todo el mundo, superando a Bard de Google y Copilot de Microsoft.

La pregunta mÔs frecuente entre quienes utilizan este tipo de sistemas tiene que ver con las fuentes de información, de donde sacan todos los datos que arrojan en sus respuestas, y por qué en algunos casos no son tan precisos.

Para hablar de las fuentes(lo harĆ© mĆ”s adelante) hay que entender como funciona un sistema de inteligencia artificial como Chat GPT. Este tipo de sistemas como su nombre lo dice, utilizan un modelo llamado GPT(Generative Pre-Trained Transformer) que se puede traducir como “Transformador generativo pre-entrenado” y sin ponernos muy tĆ©cnicos es bĆ”sicamente un sistema al que se le cargan grandes cantidades de información que le sirven de entrenamiento para que vaya aprendiendo de esa misma información y de la interacción que se tiene con ella. Para realizar esta tarea los sistemas GPT requieren de algo llamado LLM(Large Language Model) o modelos de lenguaje de gran tamaƱo y es la parte que entiende la información mediante el NLP(Natural Language Processing) que se encarga de manejar el lenguaje humano para poder interactuar por medio de un chat.

Con todo lo anterior, los sistemas GPT requieren de grandes cantidades de información, por lo que es vital encontrarla de una forma accesible. Si, la información estÔ en internet, pero encontrarla junta y ordenada es una tarea muy complicada, así que para Chat GPT, Open AI recurrió a Common Crawl para cargar 60% de su contenido.

Common Crawl es una organización sin fines de lucro que rastrea la web de forma continua cada mes desde el 2008. CC entrega el resultado de una forma ordenada y lista para usarse; su base de datos tiene mÔs de 250 mil millones de pÔginas indexadas. Aunque no es la única organización que hace este proceso, al ser open source, facilita que empresas de todos los tamaños la utilicen para alimentar sus modelos.

La fuente de información de Chat GPT se divide en 5 partes; a diferencia de los que mucha gente piensa, la mega base de datos que alimenta Chat GPT solo cuenta con el 3% proveniente de Wikipedia y solo de su versión en inglés, 22% viene de WebText2 que es el texto de las pÔginas web de los enlaces salientes de Reddit desde publicaciones y el 16% restante viene de libros.

Gracias a esta mezcla de fuentes de información es que los resultados pueden tener el nivel de detalle y variedad, pero recordemos que no todo lo que estÔ en internet ha sido verificado y mucha de la información puede estar desactualizada, errónea o puede contradecirse entre sí.
Yo siempre he recomendado contrastar los resultados con diferentes plataformas para encontrar la que nos resulta mƔs precisa y actualizada.

El conocimiento que no se comparte, pierde por completo su valor

SuscrĆ­bete al contenido premium de Merca2.0

De Madrid a la Ciudad de MƩxico, la fuente mƔs confiable de estrategias de mercadotecnia a nivel global. Una mirada a las estrategias de las grandes marcas y las tendencias del consumidor.

MÔs de 150,000 mercadólogos inscritos en nuestros boletín de noticias diarias.

Premium

Populares

Únete a mÔs de 150,000 lectores

Regƭstrate a nuestro newsletter en la siguiente forma y recibe a primera hora las noticias mƔs importantes de mercadotecnia, publicidad y medios en tu correo.

MƔs de Merca2.0

ArtĆ­culos relacionados

You don't have credit card details available. You will be redirected to update payment method page. Click OK to continue.

Revista Merca2.0
Resumen de privacidad

Esta web utiliza cookies para que podamos ofrecerte la mejor experiencia de usuario posible. La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves a nuestra web o ayudar a nuestro equipo a comprender qué secciones de la web encuentras mÔs interesantes y útiles.