En noviembre de 2022 el mundo de la informaciĆ³n cambiĆ³ de forma definitiva con la presentaciĆ³n al pĆŗblico de Chat GPT y hasta la fecha sigue siendo el sistema de inteligencia artificial mĆ”s utilizado en todo el mundo, superando a Bard de Google y Copilot de Microsoft.
La pregunta mĆ”s frecuente entre quienes utilizan este tipo de sistemas tiene que ver con las fuentes de informaciĆ³n, de donde sacan todos los datos que arrojan en sus respuestas, y por quĆ© en algunos casos no son tan precisos.
Para hablar de las fuentes(lo harĆ© mĆ”s adelante) hay que entender como funciona un sistema de inteligencia artificial como Chat GPT. Este tipo de sistemas como su nombre lo dice, utilizan un modelo llamado GPT(Generative Pre-Trained Transformer) que se puede traducir como “Transformador generativo pre-entrenado” y sin ponernos muy tĆ©cnicos es bĆ”sicamente un sistema al que se le cargan grandes cantidades de informaciĆ³n que le sirven de entrenamiento para que vaya aprendiendo de esa misma informaciĆ³n y de la interacciĆ³n que se tiene con ella. Para realizar esta tarea los sistemas GPT requieren de algo llamado LLM(Large Language Model) o modelos de lenguaje de gran tamaƱo y es la parte que entiende la informaciĆ³n mediante el NLP(Natural Language Processing) que se encarga de manejar el lenguaje humano para poder interactuar por medio de un chat.
Con todo lo anterior, los sistemas GPT requieren de grandes cantidades de informaciĆ³n, por lo que es vital encontrarla de una forma accesible. Si, la informaciĆ³n estĆ” en internet, pero encontrarla junta y ordenada es una tarea muy complicada, asĆ que para Chat GPT, Open AI recurriĆ³ a Common Crawl para cargar 60% de su contenido.
Common Crawl es una organizaciĆ³n sin fines de lucro que rastrea la web de forma continua cada mes desde el 2008. CC entrega el resultado de una forma ordenada y lista para usarse; su base de datos tiene mĆ”s de 250 mil millones de pĆ”ginas indexadas. Aunque no es la Ćŗnica organizaciĆ³n que hace este proceso, al ser open source, facilita que empresas de todos los tamaƱos la utilicen para alimentar sus modelos.
La fuente de informaciĆ³n de Chat GPT se divide en 5 partes; a diferencia de los que mucha gente piensa, la mega base de datos que alimenta Chat GPT solo cuenta con el 3% proveniente de Wikipedia y solo de su versiĆ³n en inglĆ©s, 22% viene de WebText2 que es el texto de las pĆ”ginas web de los enlaces salientes de Reddit desde publicaciones y el 16% restante viene de libros.
Gracias a esta mezcla de fuentes de informaciĆ³n es que los resultados pueden tener el nivel de detalle y variedad, pero recordemos que no todo lo que estĆ” en internet ha sido verificado y mucha de la informaciĆ³n puede estar desactualizada, errĆ³nea o puede contradecirse entre sĆ.
Yo siempre he recomendado contrastar los resultados con diferentes plataformas para encontrar la que nos resulta mƔs precisa y actualizada.
El conocimiento que no se comparte, pierde por completo su valor