¿Qué es la economía de los “datos muertos” y por qué debe importarnos?

Ana Miranda
Cuando hablamos de “economía de los datos muertos” nos referimos, en sentido amplio, al ecosistema técnico, legal y comercial que captura, conserva, intercambia y reutiliza información de personas fallecidas, junto con enormes acervos de datos “inactivos” o históricos, para generar valor.
Este valor puede ser memorial (por ejemplo, para conservar perfiles), cultural (archivos y hemerotecas digitales), comercial (servicios de limpieza de huella digital) o, cada vez más, computacional, especialmente para servir como materia prima para entrenar sistemas de inteligencia artificial (IA) que aprenden de textos e imágenes del pasado.
Los modelos de lenguaje a gran escala (LLM) y los generadores de imágenes aprenden de colecciones masivas. Varias de las más influyentes están construidas con datos web “raspados” y depurados:
C4 (Colossal Clean Crawled Corpus), derivado de Common Crawl, es la base con la que Google entrenó T5 y que luego inspiró a muchos otros. C4 no es más que una versión filtrada de un rastreo de la web: contiene artículos, foros, entradas de blog y biografías antiguas, muchas sobre personas ya fallecidas.
The Pile, de EleutherAI, combina 22 subcorpus (Wikipedia, arXiv, PubMed, Gutenberg, Enron Emails, etcétera). Es un ejemplo de cómo los modelos se nutren tanto de dominio público (como libros antiguos) como de textos contemporáneos recopilados en la web.
Common Crawl/LAION para visión: los modelos de texto-a-imagen (p. ej., Stable Diffusion) suelen apoyarse en datasets construidos a partir de enlaces e imágenes indexados en Common Crawl. Esto incluye fotos antiguas, archivos de prensa, obituarios y retratos cuya autoría o estatus personal cambió con los años. Investigaciones periodísticas y académicas han documentado riesgos en esta práctica, desde sesgos hasta la presencia de material ilícito, lo que ha llevado a retiradas y purgas.
En resumen, la “economía” aquí funciona porque los datos históricos e inactivos son abundantes (archivos web, bibliotecas digitales, wikis), pero también porque son baratos (raspado automatizado), y legales bajo ciertas condiciones (páginas públicas, dominio público, licencias abiertas). Todo ello los vuelve atractivos para entrenar IA.
Por qué hay tanta data muerta disponible
Las plataformas sociales ya administran cantidades masivas de perfiles y contenidos de personas fallecidas. Un estudio del Oxford Internet Institute proyectó que, si Facebook siguiera creciendo a tasas de 2018, podría acumular hasta 4.9 mil millones de cuentas de usuarios fallecidos para el año 2100; aun en un escenario de crecimiento nulo, se superaría la cifra de 1.4 mil millones.
El hallazgo puso sobre la mesa que estos repositorios son parte del patrimonio cultural digital y que su gestión no puede quedar únicamente en manos de empresas privadas.
Las plataformas sociales ya administran cantidades masivas de perfiles y contenidos de personas fallecidas
Además de las redes sociales, existen acervos web históricos y abiertos que capturan “lo que fue” internet: Common Crawl mantiene desde 2008 un enorme archivo público de rastreos de la web (cientos de miles de millones de páginas), usado de forma intensiva por investigadores y, en los últimos años, por desarrolladores de IA generativa.
Por diseño, ese corpus incluye páginas antiguas, inactivas o cuyos autores ya fallecieron.
Otro actor clave es el Internet Archive, cuya Wayback Machine conserva versiones históricas de sitios y, más recientemente, ofrece ARCH, un servicio para armar conjuntos de datos “listos para investigación” y aprendizaje automático a partir de colecciones digitales. En la práctica, esto facilita que corpus históricos nutran proyectos de ciencia de datos y ML.
¿Es legal usar datos de fallecidos para entrenar IA?
La respuesta depende del origen y régimen jurídico:
En la Unión Europea, el RGPD no se aplica a personas fallecidas (así lo indica el Considerando 27), pero permite que cada Estado miembro legisle. Francia, por ejemplo, incorporó en 2016 el derecho a dejar instrucciones vinculantes sobre el tratamiento de datos tras la muerte (“Loi pour une République numérique”). España reconoce, en su Ley Orgánica 3/2018, derechos para familiares y herederos sobre los datos del fallecido (acceso, rectificación y supresión).
En México, la protección de datos ha evolucionado: además del marco privado (LFPDPPP), en 2025 se publicaron reformas para alinear el régimen tras la reconfiguración institucional; y criterios recientes de la Suprema Corte sostienen que el derecho a la protección de datos persiste tras la muerte, considerando la voluntad del testador y los posibles daños al patrimonio o a los deudos. Esto no convierte automáticamente en ilícito el uso de datos históricos públicos, pero sí refuerza que la disposición y cancelación de datos personales post mortem debe atender la voluntad y los intereses vinculados.
En 2025 se publicaron reformas para alinear el régimen tras la reconfiguración institucional
Raspado de la web pública: en EE. UU., la disputa hiQ v. LinkedIn consolidó —al menos en la Novena Circunscripción— que raspar perfiles públicos no constituye acceso “sin autorización” bajo la CFAA, lo que ha sido usado como respaldo para construir datasets con información visible sin login. Ojo: esto no resuelve temas de privacidad, derechos de autor o contratos de uso de sitios, y no aplica universalmente.
En paralelo, las plataformas han creado mecanismos para la gestión post mortem (memorialización de perfiles, contactos de legado, borrado), lo que evidencia que la industria reconoce un ciclo de vida de los datos más allá de la persona. Facebook impulsa la figura del “legacy contact” y la memorialización; Google ofrece el Inactive Account Manager, que permite borrar o compartir datos tras inactividad, práctica sugerida incluso por organismos de prensa y expertos en seguridad digital.
Pros y contras de usar “datos muertos”
Beneficios técnicos y sociales:
Cobertura histórica: modelos entrenados con corpus de época (hemerotecas, Wikipedia, dominios públicos) entienden referencias culturales y biográficas del pasado. Esto mejora la utilidad en investigación histórica, periodismo de datos o preservación digital. Internet Archive creó ARCH justamente para facilitar minería de textos y ML sobre colecciones históricas.
Reducción de costos: recursos abiertos como Common Crawl abaratan el acceso a “texto a granel” y, por ello, han sido esenciales para LLM y generadores modernos.
Calidad y diversidad: proyectos como The Pile mezclan fuentes académicas (arXiv, PubMed), dominio público (Gutenberg) y web, aumentando la capacidad de generalización de los modelos en tareas especializadas.
Riesgos documentados:
Contenido ilícito o sensible: auditorías independientes hallaron imágenes de abuso sexual infantil en datasets de imágenes web (LAION-5B), lo que forzó retiradas y filtros; demuestra que “lo público” no es sinónimo de “apto para entrenar” y que los conjuntos históricos pueden arrastrar material ilegal.
Privacidad de menores y de terceros: investigaciones periodísticas mostraron que fotos de niños —incluyendo australianos y brasileños— terminaron en datasets de entrenamiento, con metadatos identificables, sin consentimiento. Esto afecta también a perfiles de personas que luego fallecen, pues el rastro permanece y puede ser reutilizado sin control familiar.
Derechos de autor: algunos corpus incluyeron libros protegidos (caso Books 3 dentro de The Pile), derivando en retiros por DMCA y litigios; usar obras de autores fallecidos no equivale a “dominio público” salvo que hayan expirado los plazos de protección.
Auditorías independientes hallaron imágenes de abuso sexual infantil en datasets de imágenes web, lo que forzó retiradas y filtros
Lecciones: la presencia de datos “muertos” en los sets de entrenamiento no es problemática per se; lo es cuando no hay curaduría (filtrado de ilícitos), no hay trazabilidad (de dónde viene cada documento) o no se respetan marcos (autor, privacidad post mortem allí donde aplica).
En salud, los datos clínicos de pacientes (vivos y fallecidos) son valiosísimos para IA, pero se usan bajo desidentificación estricta y controles de acceso. El conjunto MIMIC-III, de cuidados intensivos, es un referente: incluye variables clínicas y mortalidad (intra y posalta) de más de 40 000 pacientes; su acceso exige certificación de ética en investigación. Es un ejemplo de cómo datos sensibles —incluidos de personas que ya no viven— pueden impulsar IA médica de forma responsable.
Algunas buenas prácticas
Licenciamiento y procedencia: documentar fuentes (por ejemplo, “esta muestra proviene de Common Crawl de mes/año, de un dominio e idioma específicos”) ayuda a auditar y a respetar exclusiones. Iniciativas como las “dataset cards” y el trabajo de documentación de C4 van en esa línea.
Curaduría activa: filtros de eliminación (copyright, PII sensibles, ilícitos) y mecanismos de takedown cuando un afectado, heredero o titular lo solicita. Los casos de LAION muestran que, ante reportes, la comunidad puede —y debe— reaccionar.
Atención al marco local: si el entrenamiento involucra datos europeos, considerar las reglas nacionales post mortem (Francia, España); si se trata de México, monitorear la implementación de las reformas de 2025 y los criterios de la Corte sobre continuidad de la protección tras la muerte.
Herramientas de legado digital: promover que usuarios (y familias) usen Inactive Account Manager de Google o la memorialización/legado de Facebook para definir el destino de sus datos, reduciendo la fricción ética y legal a futuro.
El “valor” en esta economía
Para las plataformas, el valor es retener y gestionar patrimonio cultural (perfiles memorializados atraen interacción y responsabilidad de conservación). Para archivos y academia, el valor es la preservación y acceso a fuentes históricas. Para la industria de IA, el valor es la disponibilidad de “datos largos” (corpus extensos y temporales) que enseñan a los modelos el mundo tal como quedó registrado. Y para la sociedad, el valor —cuando se hace bien— es doble: mejores sistemas (buscadores, asistentes, diagnósticos) y mayor control sobre la memoria digital de quienes ya no están.
La conclusión operativa es simple: entrenar IA con “datos muertos” es posible y común, pero debe enmarcarse en transparencia de procedencia, curaduría frente a ilícitos y sensibilidad, y respeto a normas post mortem allí donde existan. Los corpus históricos son esenciales para que la IA entienda el pasado; nuestro reto es que lo haga sin repetir los errores de un internet que, por ser público, no siempre fue justo ni seguro..