Investigadores de la Universidad de Alcalá logran que ocho IAs detecten contenido ilegal en la Dark Web sin entrenamiento previo

ia deep learning

DC Studio - Freepik

La Dark Web no solo es un territorio difícil de monitorizar: también es un entorno donde los contenidos cambian rápido, se mezclan idiomas y se camuflan intenciones. En ese escenario, un equipo de la Universidad de Alcalá (UAH) ha puesto a prueba hasta qué punto la inteligencia artificial comercial puede ayudar a identificar, de forma automática, textos asociados a actividades ilícitas.

La investigación, firmada por el doctorando Víctor Pablo Prado Sánchez junto a Adrián Domínguez-Díaz, Luis De-Marcos y José-Javier Martínez-Herráiz, se ha publicado en la revista internacional Electronics (MDPI) bajo el título Zero-Shot Classification of Illicit Dark Web Content with Commercial LLMs: A Comparative Study on Accuracy, Human Consistency, and Inter-Model Agreement. La novedad del trabajo es que evalúa el rendimiento “en frío” de varios modelos, es decir, sin entrenamiento previo específico sobre ese contenido.

Ocho modelos comerciales, frente a frente, con textos reales de la Dark Web

El estudio compara ocho grandes modelos de lenguaje (LLMs) de uso comercial: GPT-4o, GPT-4o Mini, GPT-3.5 Turbo, Claude 3.5 Haiku, Gemini 2.0 Flash, DeepSeek Chat, DeepSeek Reasoner y Grok. En lugar de ajustar cada sistema con ejemplos etiquetados, el equipo planteó un escenario zero-shot: se les pide clasificar el texto con instrucciones y categorías definidas, sin aportarles un entrenamiento adicional.

Para medir el rendimiento se utilizó CoDA (Comprehensive Darkweb Annotations), un conjunto de datos con 10.000 documentos reales etiquetados manualmente y agrupados en diez categorías. Entre ellas figuran ámbitos como drogas, armas, fraude, hacking o pornografía, además de otras tipologías habituales en cibermercados y foros clandestinos.

El objetivo era comprobar, con un protocolo común, tres aspectos a la vez: la precisión global de cada modelo, su consistencia respecto a las anotaciones humanas y el grado de acuerdo entre modelos cuando enfrentan los mismos textos. Esa triple comparación permite ir más allá del “acierta o falla” y valorar hasta qué punto el comportamiento es estable en un contexto especialmente ruidoso.

Resultados: precisión alta y acuerdo con el criterio humano

Los resultados apuntan a que, incluso sin entrenamiento específico, los modelos alcanzan valores altos de precisión en la clasificación. Según el estudio, los mejores registros en F1 ponderado corresponden a DeepSeek Chat (0,87), Grok (0,868) y Gemini 2.0 Flash (0,861), con diferencias estrechas entre los sistemas punteros.

La investigación también reporta una elevada coincidencia con las etiquetas humanas mediante Cohen’s Kappa (por encima de 0,84) y una consistencia entre modelos medida con Krippendorff’s Alpha (0,884). En la práctica, estos indicadores sugieren que, en muchas categorías, las respuestas no solo son correctas con frecuencia, sino también relativamente coherentes y repetibles.

Otra lectura que deja el trabajo es la “convergencia” entre arquitecturas recientes. El análisis refleja que modelos de proveedores distintos pueden comportarse de forma muy similar en tareas concretas, y que alternativas a OpenAI —como sistemas de DeepSeek, Google y xAI— logran rendimientos comparables e incluso superiores en determinados tipos de contenido.

Para qué puede servir (y qué límites subraya el propio estudio)

La clasificación automática de textos en redes ocultas se utiliza en ciberseguridad y en análisis forense digital como paso previo a tareas más complejas: priorizar alertas, detectar patrones, ordenar grandes volúmenes de información o apoyar la investigación de amenazas. En este punto, la promesa del enfoque zero-shot es clara: reducir la dependencia de datos etiquetados manualmente y mejorar la capacidad de adaptación cuando cambian los mercados, el lenguaje o los códigos de comunicación.

Aun así, el artículo dedica un apartado a límites y dilemas éticos. Entre ellos, la sensibilidad de los datos, la ambigüedad semántica de algunas categorías y el riesgo de sesgos derivados tanto del modelo como del propio conjunto de datos. En otras palabras: automatizar no equivale a “resolver” el problema, y el uso operativo exige controles, transparencia y supervisión humana.

“¿Podemos usar IA generativa de forma fiable en un entorno tan adverso?”

En declaraciones facilitadas a este medio, Víctor Pablo Prado Sánchez sitúa el origen del trabajo en una necesidad muy concreta: mejorar la detección y el análisis de contenido ilícito en un entorno donde “la información es difícil de rastrear y las amenazas evolucionan muy rápido”. Ese punto de partida, explica, les llevó a cuestionar si las herramientas habituales estaban respondiendo al ritmo real de cambio.

Según detalla, el equipo vio pronto un límite claro en los métodos tradicionales: “los métodos supervisados… dependían de datos etiquetados manualmente, se quedaban obsoletos y no se adaptaban bien a la naturaleza cambiante de la Dark Web”. Para él, el problema no era solo técnico: era también de mantenimiento y escalabilidad, porque el esfuerzo de etiquetar y actualizar puede quedarse atrás cuando cambian los formatos, el argot o las dinámicas de los cibermercados.

Ahí es donde entra el enfoque zero-shot. “Empezamos a explorar el potencial de los grandes modelos de lenguaje (como GPT o Claude) para realizar clasificaciones zero-shot, es decir, sin necesidad de entrenamiento previo”, explica Prado Sánchez. Y resume la pregunta que terminó guiando la investigación: “¿podemos usar IA generativa de forma fiable en un entorno tan adverso?”.

Sobre el desarrollo, el investigador describe una evolución por fases, pensada para evitar conclusiones rápidas: “Durante varios años hemos llevado a cabo experimentos controlados evaluando distintos modelos de lenguaje”. Primero, dice, “comprobamos su estabilidad en tareas simples”; después pasaron a “clasificando contenido real de la Dark Web”; y, finalmente, dieron el salto al cara a cara entre sistemas comerciales para medir “su coherencia, su precisión y su alineación con el juicio humano”.

Prado Sánchez subraya que el diseño no buscaba solo “buenas cifras”, sino un método defendible: “Todo esto siguiendo un protocolo metodológico muy estricto, para garantizar reproducibilidad y transparencia”. En su caso, añade, la línea de trabajo ya ha generado “varios artículos científicos en revistas internacionales” y persigue un objetivo práctico: que los resultados sirvan como “base para futuras herramientas de análisis”, “siempre desde una perspectiva ética y responsable”.

El estudio está financiado por el Ministerio de Ciencia e Innovación en el marco del proyecto PARCHE (PID2021-125645OB-I00). En conjunto, la línea de investigación busca aportar métodos que ayuden a analizar contenidos de cibermercados negros en redes de anonimización, con un enfoque explícito de uso responsable.

Más allá de la tabla de resultados, el mensaje final del trabajo es prudente: los LLMs comerciales ya pueden clasificar con precisión notable textos de entornos anónimos y multilingües, pero su aplicación real debe tratarse como una herramienta de apoyo y no como un sustituto del juicio experto. El siguiente paso lógico, apuntan los propios investigadores, es convertir esta evidencia en sistemas auditables y útiles, capaces de funcionar con garantías en escenarios donde cada error tiene consecuencias.

Salir de la versión móvil