The Vanishing Pool of “Easy Data” for AI: Ecological Implications and Regenerative Solutions

Note: I’m sharing part of the talk I gave at Universidad Panamericana, as part of the 26th Annual Convention of the Media Ecology Association. The panel was titled: “Aesthetics, Narrative, and Artificial Intelligence”.

FdoGtz2025_MEA_SV

Artificial intelligence is transforming our informational landscape at an unprecedented speed. Just like in ecological systems, this transformation is driven by an insatiable hunger for resources —in this case, data. The parallels between data extraction in AI and natural resource exploitation are striking. In this presentation, we explore how AI reshapes our cognitive environment and propose sustainable approaches to address the challenges it brings.

What Is “Easy Data” in AI?
“Easy data” refers to public, abundant, and low-friction datasets with high informational value —resources that require minimal processing before being used to train AI models. Examples include Wikipedia, Common Crawl, public domain texts, and open social media posts. These datasets are essential to the development of large language models, as they provide diverse linguistic patterns and foundational knowledge.

However, this supply is diminishing. According to a 2024 WIRED article and a study by the Data Provenance Initiative at MIT, roughly 25% of the highest-quality data from major datasets like C4, RefinedWeb, and Dolma has become inaccessible. The reason? Many websites now restrict automated data collection through robots.txt protocols or have implemented paywalls, limiting their use in AI training. This not only impacts big tech companies but also hinders academic research and innovation.

The Data Gold Rush: Fading Out
The rapid deployment of AI systems has created unprecedented demand for data. Public sources are under increasing strain due to extraction pressures. In response, media outlets and online platforms have taken protective measures: modifying terms of service, erecting paywalls, or signing exclusive commercial agreements with AI developers. These moves are designed to safeguard intellectual property and ensure fair compensation.

This shift has led to what some experts, such as Shayne Longpre (MIT) and Yacine Jernite (Hugging Face), describe as an emerging consent crisis. The lack of clear, equitable agreements on data use has generated conflict between developers and content creators, diminishing the pool of accessible data and complicating the ethical landscape of AI development.

The Key to AI: Quality and Diversity of Sources
An AI model’s accuracy, versatility, and relevance are directly tied to the quality and diversity of its training data. Broad and up-to-date datasets from trustworthy sources —academic journals, verified news, official statistics, structured databases— enhance both performance and ethical reliability.

Conversely, training on limited or biased data may perpetuate misinformation, errors, and cultural insensitivity. Diverse sources enable models to be more culturally aware, reduce bias, and adapt better across contexts. But the scarcity of such data today is not just a technical challenge —it represents a rupture in the balance of the informational ecosystem.

AI as an Ecosystem Engineer
AI doesn’t just consume information; it actively reshapes the conditions under which information is created and shared. Like ecosystem engineers in nature, AI alters what knowledge is generated, how it circulates, and what gets prioritized. The unregulated extraction of massive datasets —text, image, audio— mirrors ecological overexploitation and leads to systemic strain.

This calls for a renewed analytical lens: we must ask not only what content AI produces, but also how the structures behind that content are formed and maintained. The extractive logic of data mining must give way to an ecological approach —one that sees data as part of a regenerative cycle of use, consent, and reciprocity.

Ecological Lessons: Over-Extraction and Feedback
A positive alternative lies in community-based data stewardship. Imagine a university, a local media collective, and a group of developers collaborating to train an AI model using curated texts and interviews. The data is labeled with context and consent; contributors receive credit and access to results. The model, in turn, supports the community through summaries, translations, or analytic tools.

In ecosystems, balance is maintained through feedback loops. In AI, this could mean governance structures that give voice and value back to the authors of the content. The transition from data mining to data stewardship is essential —prioritizing transparency, traceability, and redistribution of benefits.

Conclusion: Toward a Regenerative Data Ecosystem
The dwindling availability of high-quality data reflects a broader informational crisis. The overexploitation of open sources has triggered a partial collapse of the knowledge commons, where access to reliable content is increasingly restricted.

This mirrors warnings from thinkers like McLuhan and Postman: technologies don’t just change what we know —they reshape what counts as knowledge, truth, and participation. AI reconfigures the cognitive environment. It transforms, filters, and selects what we see and what we don’t. Therefore, a deeper understanding is needed —one that goes beyond content and interrogates the structures producing it.

It is time to move from an extractive logic to one that is ethical, regenerative, and collaborative. Data stewardship offers a new paradigm: one grounded in consent, contextualization, and shared benefit. This is not just a technical fix —it’s a cultural and ecological necessity for the future of AI and the societies it increasingly influences.

Continue Reading

Tecnología e Inteligencia Artificial

Comparto una breve resumen y reflexión sobre el “Taller de Tecnología e Inteligencia Artificial” que impartí el 6 de junio de 2025 para la empresa NTT Data Mexico. En este taller se presentó una visión práctica al mundo de la inteligencia artificial (IA), con énfasis en sus fundamentos, aplicaciones actuales y retos éticos.

Tecnología e Inteligencia Artificial

El taller comenzó con una definición accesible de la IA, resaltando los principales componentes: aprendizaje automático (Machine Learning), aprendizaje profundo (Deep Learning), redes neuronales, procesamiento de lenguaje natural (PLN), sistemas de reconocimiento, y algoritmos. A través de ejemplos sencillos (como la clasificación de objetos o el uso de Máquinas de Aprenidzxaje), se ilustraron conceptos clave como el entrenamiento de modelos y el reconocimiento de patrones. También se describió el funcionamiento de herramientas como QuickDraw y plataformas como ChatGPT y Whisper, que demuestran el alcance del PLN en la vida cotidiana, desde asistentes virtuales hasta análisis de sentimientos en redes sociales.

Posteriormente, el taller abordó aspectos generales del desarrollo histórico de la IA, desde el test de Turing y la conferencia de Dartmouth, hasta las contribuciones contemporáneas de Geoffrey Hinton, incluyendo su postura crítica sobre los riesgos de una IA superinteligente. También se analizó el impacto de los modelos de lenguaje extensos (LLMs), como GPT y BERT, sus beneficios en automatización, eficiencia y personalización, así como los desafíos éticos relacionados con sesgos, privacidad y supervisión.

En la segunda parte, se presentó un panorama amplio de las herramientas de inteligencia artificial generativa (IAG) aplicadas a la creación de imágenes, audio y video. Se describieron plataformas como DALL·E, Midjourney, Stable Diffusion, Canva, Suno y HeyGen, destacando sus capacidades para producir contenido visual, musical y audiovisual a partir de instrucciones escritas (prompts). Se discutieron también aspectos éticos como los derechos de autor, la desinformación y la equidad algorítmica.

El taller concluyó con una reflexión crítica sobre los retos y oportunidades de la IA en la preservación de la cultura, el conocimiento y la creatividad humana. Si bien se reconoció el potencial de estas tecnologías para expandir nuestras capacidades, también se insistió en la necesidad de metodologías éticas, supervisión humana y pensamiento crítico para asegurar un uso responsable.

Continue Reading

Misinformation, Misdirection, Manipulation and Mischief: Making Sense of Contemporary Propaganda

The methods and techniques of political propaganda, and the impact of propaganda on public perceptions and behaviors, have attracted the attention of general semantics scholars since the initial formulation of the discipline. It is well known that Alfred Korzybski’s experience as a soldier in World War I was a key source of his motivation to develop general semantics in hopes of promoting a more sane, humane world.

Korzybski developed the key principles of general semantics during an extremely turbulent era, when people were acutely aware of the potentially devastating impact of propaganda and the way it was being used to justify horrific behavior. Since then, many other scholars have addressed propaganda from a general semantics perspective. Neil Postman, former editor of ETC: A Review of General Semantics, argued in a 1979 ETC article that “[o]f all the words we use to talk about talk, propaganda is perhaps the most mischievous.” Others, such as Jacques Ellul and Terence Moran, also contributed work to ETC where they offered their perspectives on propaganda and its relation to general semantics, and the two recent consecutive special issues of ETC on general semantics and politics demonstrate the continued relevance of the discipline to our understanding of political discourse and propaganda.

In keeping with this long standing tradition of using the principles of general semantics to understand and push back against political propaganda, this session focused on the heightened awareness and concern about misinformation and disinformation in the contemporary media environment during the recent elections in the United States and elsewhere, when artificial intelligence, message personalization, and strategic use of social media were used to influence and persuade the public in a more sophisticated and targeted manners.

Panelists

Fernando Gutiérrez earned a Ph.D. in Design and Data Visualization from the Metropolitan Autonomous University in Mexico and a master’s degree in Information Technologies from Tecnológico de Monterrey. In 1996, he collaborated with the team that designed the first internet system for the Office of the President of Mexico. He is a member of Mexico’s National Researchers System and serves as the Executive Secretary of the Media Ecology Association. An author of numerous books and publications on media and communication, his notable works include Internet: The Intelligent Medium and Understanding Media in the Digital Age, co-edited with Lance Strate and Octavio Islas. He currently leads the Division of Humanities and Education at the State of Mexico campus of Tecnológico de Monterrey.

Christina M. Knopf is a professor and the presentation skills coordinator in the Communication and Media Studies Department, and the Assistant Dean in the School of Arts and Sciences, at the State University of New York (SUNY) at Cortland. She is the author of Politics in the Gutters: American Politicians and Elections in Comic Book Media (University Press of Mississippi, 2021) and The Comic Art of War: A Critical Study of Military Cartoons, 1805-2014 (McFarland, 2015), along with numerous critical essays on politics and military culture in the popular arts. Dr. Knopf is a series co-editor for Routledge’s Advances in Comics Studies. She holds a Ph.D. concentrating in cultural sociology and political communication from the University at Albany.

This event took place on Friday, January 17, 2025 at the historic Players Club in Gramercy Park, New York City, New York.

Continue Reading

Difusión de videos manipulados con inteligencia artificial generativa, en aumento 

La proliferación de videos manipulados mediante inteligencia artificial generativa (IAG) en las redes sociales ha generado una creciente preocupación en torno a la desinformación y su impacto en la opinión pública. Este fenómeno se ha intensificado en los últimos meses, particularmente en contextos de ciertas crisis o eventos noticiosos, donde la confusión puede ser fácilmente explotada.

Por ejemplo, en España, durante la reciente Depresión Aislada en Niveles Altos (DANA) que afectó a varias regiones, se difundieron numerosos contenidos visuales generados o alterados por IAG. Algunos de estos casos incluían imágenes de figuras públicas como el presidente de ese país, Pedro Sánchez, así como videos que utilizaban voces sintéticas clonadas para simular declaraciones que nunca fueron hechas (Maldita.es, 2024). El grave problema es que este tipo de manipulación no solo busca entretener, sino también distorsionar la realidad y alimentar narrativas erróneas.

En el caso de México, organizaciones como Verificado han documentado un aumento en la difusión de videos manipulados, donde figuras públicas de alto nivel son presentadas como “anzuelo” para engañar a la gente. Tal es el caso específico del video de la presidenta de México, Claudia Sheinbaum, en el que supuestamente invita a invertir en una plataforma para aumentar ingresos. Sin embargo, el video es completamente falso (Barbosa, 2024).

La IAG ha revolucionado la forma en que creamos y consumimos contenido digital. Desafortunadamente, ésta también ha sido utilizada para manipular la realidad, distorsionar hechos y alimentar narrativas falsas. Desde deepfakes hasta imágenes alteradas, el potencial de la IAG para engañar y desinformar plantea serios desafíos éticos y sociales.

Video Falso Claudia Sheinbaum
Video Falso Claudia Sheinbaum

(Anuncio Falso difundido a través de Facebook en el que se observa a Claudia Sheinbaum Pardo, presidenta de México, hacer una invitación para invertir en una supuesta plataforma. Este video falso fue manipulado utilizando inteligencia artificial generativa).

Tipos de manipulaciones con IAG

 Algunos de los tipos más comunes de manipulaciones realizadas con IAG son las siguientes:

Deepfakes: Los deepfakes son una de las formas más conocidas de manipulación producida por IAG. Utilizan redes neuronales para superponer rostros en videos, creando la ilusión de que una persona ha dicho o hecho algo que en realidad no ocurrió. Esta técnica puede ser utilizada para difundir desinformación, como en el caso de videos falsos de figuras públicas que parecen hacer declaraciones comprometedoras (Chesney & Citron, 2019).

Imágenes alteradas: La IAG permite modificar o crear imágenes que pueden parecer auténticas. Estas imágenes alteradas pueden ser utilizadas para propagar noticias falsas o crear situaciones engañosas que distorsionan la percepción pública de eventos reales. Por ejemplo, se han generado imágenes de políticos en situaciones comprometedoras para influir en la opinión pública durante campañas electorales (Savage Carmona, 2023).

Textos falsos: Las herramientas de IAG pueden crear textos que imitan el estilo de escritores conocidos o generan narrativas completamente nuevas. Estos textos pueden ser utilizados para influir en la opinión pública, difundir propaganda o desinformación, y manipular la percepción sobre eventos actuales o figuras públicas (Tourpe, 2023).

Voces sintéticas: La clonación de voces mediante IAG permite a los estafadores suplantar la identidad de personas conocidas, facilitando fraudes y desinformación. Este tipo de manipulación es especialmente peligrosa en contextos como el político, donde puede ser utilizada para desestabilizar campañas electorales o engañar a votantes (Sophos, 2024).

La manipulación a través de la IAG representa un desafío significativo en la era digital. Las tecnologías disponibles permiten la creación de contenido engañoso que puede tener consecuencias graves en términos de desinformación y manipulación social. Resulta crucial el desarrollo de estrategias efectivas para identificar y combatir estas prácticas, así como promover una mayor alfabetización digital entre los usuarios.

Referencias

Barbosa, M. (2024). Sheinbaum, falso video sobre invertir en plataformas financieras. Verificado. https://verificado.com.mx/sheinbaum-falso-invertir-plataformas-financieras/

Chesney, R., & Citron, D. K. (2019). Deep fakes and the new disinformation war: The coming age of post-truth geopolitics. Foreign Affairs, 98(1), 147-155.

Maldita.es. (2024, 13 de noviembre). Imágenes y vídeos generados con inteligencia artificial durante la DANA en España. https://maldita.es/malditatecnologia/20241113/imagenes-videos-ia-dana-espana/

Savage Carmona, J. (2023). Atajar riesgos por uso de IA. DGCS UNAM. de https://www.dgcs.unam.mx/boletin/bdboletin/2023_728.html

Sophos. (2024). Manipulación política con desinformación y microtargeting masivo basado en modelos de IA.  https://news.sophos.com/es-es/2024/10/14/manipulacion-politica-con-desinformacion-y-microtargeting-masivo-basado-en-modelos-de-ia/

Tourpe, B. (2023). Promesas y riesgos de la inteligencia artificial. F&D Magazine. de https://www.imf.org/es/Publications/fandd/issues/2023/12/B2B-Artificial-Intelligence-promise-peril-Tourpe

Continue Reading

Elecciones de EU 2024: el ambiente político y digital se intensifica

Comparto este breve texto que publiqué en Expansión con motivo de las elecciones en Estados Unidos.

Las elecciones presidenciales en Estados Unidos de 2024 están programadas para el 5 de noviembre. En esta contienda, en la que se enfrentan Kamala Harris, actual vicepresidenta y candidata del Partido Demócrata, y Donald Trump, expresidente y candidato del Partido Republicano, hemos presenciado de todo: desde dos intensos debates en los medios (el primero Biden vs. Trump, el segundo Harris vs. Trump) hasta campañas publicitarias formales e informales que inundan el espacio digital. A medida que se acerca la fecha, el ambiente político y digital se intensifica, con encuestas que reflejan una carrera extremadamente reñida

Aquí pueden encontrar la liga completa.

Continue Reading

La Inteligencia Artificial, poderoso ariete en la industria de la desinformación

“La Inteligencia Artificial, poderoso ariete en la industria de la desinformación” es uno de los artículos consignados en el capítulo III, denominado Inteligencia Artificial y Educomunicación, que se encuentra dentro del libro titulado: Redes Sociales y Ciudadanía. El reto de la formación del profesorado en educación mediática. Esta investigación fue presentada en el VII Congreso Internacional
Alfamed, que se llevó a cabo en San José, Costa Rica, del 15 al 17 de octubre de 2024.

InteligenciaArtificial

Aquí la liga para acceder al libro completo: https://www.grupocomunicar.com/pdf/redes-sociales-y-ciudadania-2024.pdf

redes-sociales-y-ciudadania-2024

Nuestro texto se encuentra en la página 305 del libro.

Continue Reading

II Congreso Internacional Horizontes Expandidos de la Educación, la Tecnología y la Innovación

27 de septiembre de 2024. Universidad El Claustro. Conferencia plenaria en el II Congreso Internacional Horizontes Expandidos de la Educación, la Tecnología y la Innovación. El título de mi ponencia fue: “Naturaleza digital: La inteligencia artificial generativa como motor de innovación en la nueva ecología mediática educativa”. Aquí comparto parte del material que utilicé durante mi presentación.

FdoGtzNaturalezaDigital
Continue Reading

Foro de Comunicación Futurible 2024. Paradigma Humano/Relacional en tiempos de la inteligencia artificial

El Foro de Comunicación Futurible 2024, Nueva Teoría Estratégica (NTE): Paradigma Humano/Relacional en tiempos de la inteligencia artificial.

El libro derivado del Foro de Comunicación Futurible 2023, Nueva Teoría Estratégica (NTE): Paradigma para recibir al futuro, trabajó con el objetivo de analizar la riqueza de la NTE como un nuevo paradigma aplicable en la comunicación estratégica, tomando en cuenta los cambios, complejidades y retos que enfrenta en la revolución industrial 4.0.

Las diversas miradas que integran este libro, se hacen eco de la complejidad del sistema en el que vivimos, derivada de una mega externalidad multidimensional agravada por la pandemia fruto del virus Covid 19 (2020-2021), la que nos obliga a remirar las estrategias desde el punto de vista conceptual, epistemológico y metodológico, así como su relación e implicaciones cuando se relaciona con la comunicación en un contexto de revolución industrial 4.0.

libro_FUTURIBLE2023

En la página 140 podrán encontrar mi colaboración que resume los revisado en la MESA 4 titulada: Nueva Teoría Estratégica en la revolución industrial 4.0. Dispositivos.

Continue Reading