Exposición de más de 4.000 millones de registros profesionales nos muestra la problemática de las bases de datos sin proteger

Un servidor MongoDB sin autenticación ha dejado accesible en Internet un conjunto de datos de 16,14 TB con casi 4.300 millones de documentos de inteligencia profesional y corporativa, muchos de ellos derivados de perfiles de LinkedIn, que pueden abrir la puerta a campañas masivas de phishing y a operaciones de reconocimiento corporativo asistidas por inteligencia artificial, según una investigación del equipo de Cybernews.
16 de diciembre, 2025

Bob Diachenko, investigador en ciberseguridad y colaborador de la revista Cybernews además de responsable de SecurityDiscovery.com, localizaba recientemente una instancia de una base de datos MongoDB accesible sin autenticación y con un volumen de datos poco habitual incluso en el ámbito de la generación de leads B2B.

El conjunto de los datos almacenados en esta base de datos en particular alcanzaba los 16,14 terabytes y estaba organizado en nueve colecciones, algunas de ellas con más de mil millones de documentos, con esquemas uniformes que reflejan procesos de scraping y enriquecimiento de información profesional altamente automatizados. Aunque cada una de las colecciones agrupaba registros únicos, los investigadores señalan que pueden existir duplicidades entre colecciones dentro del mismo conjunto.

Entre los contenidos que se podían encontrar, tenemos direcciones de correo, números de teléfono, cargos, relaciones profesionales, URLs de perfiles en LinkedIn, historial laboral y formativo, ubicación, idiomas, habilidades declaradas, cuentas en otras redes sociales, fotografías de perfil y puntuaciones de confianza asociadas a las direcciones de correo, razonablemente actualizados y precisos.

Las bases de datos de contactos de este tamaño son herramientas habituales para departamentos de marketing, ventas o reclutamiento, ya que permiten ahorrar tiempo en la identificación de posibles clientes o candidatos.

Pues toda esa información, completa y actualizada, se encontraba sin proteger ni por un triste password, en Internet, a la espera de quien pudiera encontrarla. El hallazgo por parte de los investigadores de Cybernews se produjo el día 23 de noviembre y, tras ser notificados, los propietarios de la instancia cerraron el acceso el 25 de noviembre, aunque se desconoce durante cuánto tiempo permaneció expuesta la base de datos antes de ser detectada y, por lo tanto, si alguien con malas intenciones ha podido sacar provecho de ella.

El volumen y el grado de detalle de la información expuesta convierten el conjunto de estos datos en un activo potencialmente útil para distintos tipos de actores. Los investigadores de Cybernews destacan que un repositorio de este tamaño facilita campañas de phishing altamente dirigidas, fraudes de suplantación de la identidad de directivos (CEO fraud) y operaciones de reconocimiento corporativo basadas en ingeniería social, al ofrecer listados segmentados por cargo, empresa, trayectoria profesional y otros atributos sensibles.

Los delincuentes pueden seleccionar perfiles de alto valor, como directivos o responsables de áreas críticas, y diseñar mensajes que aprovechen la información disponible para incrementar las probabilidades de éxito.

El propio conjunto incluye datos de empleados de grandes corporaciones, lo que permite a los atacantes centrar su atención en empresas concretas, especialmente en aquellas cuyo personal resulta más atractivo como objetivo en mercados ilícitos de datos.

La misma información que los equipos de seguridad pueden emplear para probar defensas frente a ataques de ingeniería social puede utilizarse en sentido inverso por actores maliciosos para identificar debilidades organizativas y facilitar el acceso inicial a sistemas corporativos.

Además, el tamaño de la base de datos la convierte en un candidato idóneo para ataques automatizados y operaciones asistidas por IA, puesto que combinada con otras filtraciones, una base de 4.300 millones de registros puede alimentar modelos de lenguaje capaces de generar mensajes personalizados a partir de los datos de perfil y de enviar, con un esfuerzo adicional relativamente bajo, decenas de millones de correos maliciosos, donde basta con comprometer a un único objetivo de alto valor para que la operación resulte rentable.

Los investigadores también señalan que conjuntos de datos de este tipo pueden servir como base para el enriquecimiento de perfiles mediante la incorporación de información procedente de otras filtraciones, incluyendo contraseñas, identificadores de dispositivos o enlaces a más cuentas en redes sociales, lo que simplifica tanto los ataques de ingeniería social como los de relleno de credenciales.

En este caso, los investigadores apuntan a un error humano como causa más probable: una configuración sin las medidas de autenticación necesarias habría dejado el sistema accesible.

Este caso evidencia la fragilidad de las infraestructuras que sustentan las bases de datos masivas de generación de leads y cómo, cuando la seguridad no se aplica de manera rigurosa, la misma información que impulsa la actividad comercial puede transformarse en un activo estratégico para el cibercrimen, así como la importancia de tratar adecuadamente desde el punto de vista de la seguridad, estos datos por las consecuencias que pueda tener su hallazgo.