Guillermo Perezbolde

Con que información se alimenta Chat GPT y otros sistemas de inteligencia artificial

Columnistas, Guillermo Perezbolde, Hoy en mercadotecnia

23/01/2024
Columnistas, Guillermo Perezbolde, Hoy en mercadotecnia
Guillermo Perezbolde

Es innegable la cantidad de información que tienen cargada sistemas de inteligencia artificial como Chat GPT, la pregunta es ¿cuáles son las fuentes?

En noviembre de 2022 el mundo de la información cambió de forma definitiva con la presentación al público de Chat GPT y hasta la fecha sigue siendo el sistema de inteligencia artificial más utilizado en todo el mundo, superando a Bard de Google y Copilot de Microsoft.

La pregunta más frecuente entre quienes utilizan este tipo de sistemas tiene que ver con las fuentes de información, de donde sacan todos los datos que arrojan en sus respuestas, y por qué en algunos casos no son tan precisos.

Para hablar de las fuentes(lo haré más adelante) hay que entender como funciona un sistema de inteligencia artificial como Chat GPT. Este tipo de sistemas como su nombre lo dice, utilizan un modelo llamado GPT(Generative Pre-Trained Transformer) que se puede traducir como “Transformador generativo pre-entrenado” y sin ponernos muy técnicos es básicamente un sistema al que se le cargan grandes cantidades de información que le sirven de entrenamiento para que vaya aprendiendo de esa misma información y de la interacción que se tiene con ella. Para realizar esta tarea los sistemas GPT requieren de algo llamado LLM(Large Language Model) o modelos de lenguaje de gran tamaño y es la parte que entiende la información mediante el NLP(Natural Language Processing) que se encarga de manejar el lenguaje humano para poder interactuar por medio de un chat.

Con todo lo anterior, los sistemas GPT requieren de grandes cantidades de información, por lo que es vital encontrarla de una forma accesible. Si, la información está en internet, pero encontrarla junta y ordenada es una tarea muy complicada, así que para Chat GPT, Open AI recurrió a Common Crawl para cargar 60% de su contenido.

Common Crawl es una organización sin fines de lucro que rastrea la web de forma continua cada mes desde el 2008. CC entrega el resultado de una forma ordenada y lista para usarse; su base de datos tiene más de 250 mil millones de páginas indexadas. Aunque no es la única organización que hace este proceso, al ser open source, facilita que empresas de todos los tamaños la utilicen para alimentar sus modelos.

La fuente de información de Chat GPT se divide en 5 partes; a diferencia de los que mucha gente piensa, la mega base de datos que alimenta Chat GPT solo cuenta con el 3% proveniente de Wikipedia y solo de su versión en inglés, 22% viene de WebText2 que es el texto de las páginas web de los enlaces salientes de Reddit desde publicaciones y el 16% restante viene de libros.

Gracias a esta mezcla de fuentes de información es que los resultados pueden tener el nivel de detalle y variedad, pero recordemos que no todo lo que está en internet ha sido verificado y mucha de la información puede estar desactualizada, errónea o puede contradecirse entre sí.
Yo siempre he recomendado contrastar los resultados con diferentes plataformas para encontrar la que nos resulta más precisa y actualizada.

El conocimiento que no se comparte, pierde por completo su valor

Suscríbete al contenido premium de Merca2.0

De Madrid a la Ciudad de México, la fuente más confiable de estrategias de mercadotecnia a nivel global. Una mirada a las estrategias de las grandes marcas y las tendencias del consumidor.

Guillermo Perezbolde

Autor del libro Metaverso el negocio de la realidad virtual, conferencista, fundador y director general de Mente Digital, ex presidente de la American Marketing Association capítulo México. Ha recibido numerosos reconocimientos, como el mejor profesor de posgrado del Tec de Monterrey y el Premio Gunther Saupe por su trayectoria en Marketing. *Las columnas de opinión reflejan el pensar individual y gustos personales de los columnistas, los cuales no necesariamente son compartidos por el equipo Merca2.0.

Más de 150,000 mercadólogos inscritos en nuestros boletín de noticias diarias.

Premium

PREMIUM

¿Cómo las marcas pueden pasar de los anuncios a la conexión real?

18-04-2025

PREMIUM

¿Cómo los medios de hoy moldean marcas más fuertes y conectadas?

18-04-2025

PREMIUM

Integrando empatía y tecnología en el servicio al cliente

17-04-2025

Populares

Starbucks lanzará nuevo vasos de acero en color durazno y alberca: Disponibles este 21 de abril Foto: Especial

Starbucks lanzará nuevos vasos de acero en color durazno y alberca: Disponibles este 21 de abril

Perfume Britney Spears con 45% de descuento en Amazon

Únete a más de 150,000 lectores

Regístrate a nuestro newsletter en la siguiente forma y recibe a primera hora las noticias más importantes de mercadotecnia, publicidad y medios en tu correo.

Con que información se alimenta Chat GPT y otros sistemas de inteligencia artificial

Suscríbete al contenido premium de Merca2.0

Guillermo Perezbolde

Más de 150,000 mercadólogos inscritos en nuestros boletín de noticias diarias.

Premium

¿Cómo las marcas pueden pasar de los anuncios a la conexión real?

¿Cómo los medios de hoy moldean marcas más fuertes y conectadas?

Integrando empatía y tecnología en el servicio al cliente

Populares

Starbucks lanzará nuevos vasos de acero en color durazno y alberca: Disponibles este 21 de abril

Perfume Britney Spears con 45% de descuento en Amazon

Únete a más de 150,000 lectores

Artículos relacionados

Starbucks lanzará nuevos vasos de acero en color durazno y alberca: Disponibles este 21 de abril

Perfume Britney Spears con 45% de descuento en Amazon

Fragancia Nautica Blue con un DESCUENTAZO en Amazon. ¡Aprovecha la oferta!

La Roche-Posay Hyaly B5 Serum antiarrugas con un 46% de descuento en Amazon

Únete a la comunidad de mercadólogos más grande del mundo.

Otros de nuestros sitios:

Servicios

Mercadotecnia