Sat. Jan 10th, 2026

Basura adentro, basura afuera: es uno de los grandes truismos de la tecnología. Claro, ha sido eclipsado por "el software se comerá el mundo", como algo que decir en una reunión cuando realmente no sabes lo que está sucediendo, pero aún así probablemente se pronuncie unos miles de veces al mes para explicar el fracaso de un Iniciativa tecnológica reciente.

Pero, al igual que su expresión hermana "no puedes ser despedido por contratar a IBM", estamos aprendiendo en la "era de la big data de la doctrina de la basura" que, bueno, es basura.

El problema en la mayoría de las iniciativas de Big Data o IoT no es que los datos no tengan sentido, sean inexactos, vagos o sin valor: los datos recopilados de los sensores generalmente son válidos. Por lo general, el problema radica en la gran cantidad de datos, porque los datos no se organizan naturalmente como cristales. Los camiones y el equipo en un sitio minero pueden generar petabytes por día.

O piense en medidores inteligentes. Si recolecta datos de los medidores inteligentes en los EE. UU. Cada 15 minutos, puede obtener una gran sensación de consumo de energía. Sin embargo, si la cosecha cada pocos minutos o segundos, puede comenzar a cosechar discretamente la energía retrasando los ciclos de descongelación del refrigerador y atenuando las luces. Desafortunadamente, eso también significa hacer malabares con exabytes de memoria.

Datos de salud y medicina personalizada? La masa total de datos genómicos del mundo se duplica cada siete meses. Para 2025, los datos genómicos eclipsarán el tamaño de YouTube.

Una cacofonía de sensores.

Peor aún, los datos a menudo también vienen en formatos incompatibles que miden tendencias claramente diferentes. Tome un dispositivo simple, como una bomba. Para realizar el mantenimiento predictivo, es posible que desee realizar un seguimiento del consumo de energía, el flujo de agua, la temperatura del equipo, la velocidad de rotación y otros fenómenos. Lo que significa que recopilará datos medidos en kilovatios hora, litros, grados, RPM y otros estándares, con algunos datos que se actualizan cada 15 minutos y otras señales, como vibraciones, que emiten nueva información cientos de miles de veces por segundo.

McKinsey & Co., por ejemplo, estima que solo el 1% de los datos de los aproximadamente 30,000 sensores en plataformas petrolíferas en alta mar se utilizan para la toma de decisiones debido al desafío de acceder a ellos.

Para solucionar el problema, los analistas y otros sugieren que la solución es recopilar menos datos. Desafortunadamente, los bits oscuros a menudo demuestran ser la solución al rompecabezas. En 2015, los investigadores de los Laboratorios Nacionales Lawrence Livermore (LLNL) experimentaron variaciones rápidas e inesperadas en la carga eléctrica de Sequoia, una de las supercomputadoras más poderosas del mundo. Los cambios fueron grandes, con una caída de energía de 9 megavatios a unos pocos cientos de kilovatios, y creando problemas sustanciales de gestión para las empresas locales.

Al verificar diferentes flujos de datos, surgió la fuente del problema: la caída coincidió con el mantenimiento programado para la planta de enfriamiento masivo. LLNL pudo suavizar su rampa de energía y ayudar a su empresa local. Pero piénselo por un momento: la respuesta solo se descubrió después de que algunas de las principales mentes informáticas de la nación verificaron lo que estaban haciendo sus compañeros de trabajo en el departamento de instalaciones.

El dilema del acaparador

Supongamos que guarda todos sus datos. Ahora sus científicos de datos altamente pagados están empantanados sirviendo como conserjes de datos, lo que el 76% dice que es la parte menos atractiva de su día.

Afortunadamente, la automatización en el desarrollo de software y la gestión de TI está en primer plano. Un número creciente de startups se enfoca en generar automáticamente gemelos digitales y aprovechar las transmisiones de datos de sensores en pantallas y consolas de manera que tengan sentido para los humanos comunes. El movimiento hacia arquitecturas de borde inteligentes, donde se realizan cantidades sustanciales de datos y análisis localmente, en lugar de en la nube, para reducir los costos de latencia y ancho de banda, también ayudará al reducir el tiempo y la sobrecarga de administrar conjuntos de datos masivos.

La IA también ayudará. Hasta hace poco, los videos y las imágenes se consideraban datos "oscuros" porque no podían buscarse fácilmente. Sin embargo, las redes neuronales han cambiado esto, llevando a cosas como el reconocimiento facial a través de búsquedas de fotos. Sin embargo, antes de estos desarrollos, el video y las imágenes a menudo entraban en esa categoría de datos que estaba perennemente en el bloque "¿realmente necesitamos mantener todo esto?".

Muchas de estas tecnologías recién están surgiendo en la corriente principal, pero el futuro parece prometedor.

"Correr asustado por el monstruo de los grandes datos es una posibilidad", dice Neil Strother, analista de investigación principal de Navigant Research, "Las herramientas ahora disponibles para recopilar, organizar y analizar grandes y crecientes conjuntos de datos están aquí y son asequibles. No digo que este tipo de esfuerzo sea trivial, pero tampoco está fuera de su alcance ".

¿Interesado en escuchar a líderes de la industria discutir temas como este? Asista a la 5G Expo, IoT Tech Expo, Blockchain Expo, AI & Big Data Expo y Cyber ​​Security & Cloud Expo World Series con eventos próximos en Silicon Valley, Londres y Amsterdam.

Historias relacionadas

By Erica Flores

Enamorada de la tecnología. Apasionada de la velocidad que la información puede adquirir en este mundo cambiante. Actualmente residiendo en Barcelona.