Frameworks de Ciberseguridad para IA Generativa: OWASP, MITRE ATLAS, NIST y más
¿Estás protegiendo tus sistemas de IA generativa o solo cruzando los dedos? Análisis de los frameworks esenciales: OWASP Top 10 for LLM, MITRE ATLAS, NIST AI RMF, ISO 42001 y Google SAIF.
¿Estás protegiendo tus sistemas de IA generativa o solo cruzando los dedos?
Cada vez más organizaciones integran LLMs, copilots y agentes de IA en sus operaciones. Pero muy pocas están evaluando los riesgos reales que esto conlleva.
La adopción de IA generativa avanza a velocidad de negocio. La seguridad de esa IA avanza a velocidad de comité. Y esa brecha es exactamente donde los incidentes van a ocurrir.
La buena noticia: ya existen frameworks especializados para abordar la ciberseguridad de la IA generativa. Estos son los que considero esenciales.
Los 5 frameworks esenciales
1. OWASP Top 10 for LLM Applications (2025)
Qué es: El estándar de referencia para los riesgos más críticos en aplicaciones que utilizan modelos de lenguaje (LLM).
Por qué importa: Si desarrollas o consumes aplicaciones con LLMs, este es tu punto de partida. Define los 10 riesgos más críticos y sus mitigaciones.
Riesgos principales:
| # | Riesgo | Descripción |
|---|---|---|
| LLM01 | Prompt Injection | Manipulación del comportamiento del modelo mediante instrucciones maliciosas inyectadas en el prompt |
| LLM02 | Insecure Output Handling | Confianza ciega en las respuestas del modelo sin validación ni sanitización |
| LLM03 | Training Data Poisoning | Contaminación de los datos de entrenamiento para alterar el comportamiento del modelo |
| LLM04 | Model Denial of Service | Consumo excesivo de recursos mediante consultas diseñadas para degradar el servicio |
| LLM05 | Supply Chain Vulnerabilities | Riesgos en dependencias, modelos preentrenados y datasets de terceros |
| LLM06 | Sensitive Information Disclosure | Filtración de datos sensibles presentes en el entrenamiento a través de las respuestas |
| LLM07 | Insecure Plugin Design | Plugins y herramientas conectadas al LLM sin controles de seguridad adecuados |
| LLM08 | Excessive Agency | Permisos excesivos otorgados al modelo para ejecutar acciones en sistemas reales |
| LLM09 | Overreliance | Dependencia excesiva en las respuestas del modelo sin verificación humana |
| LLM10 | Model Theft | Extracción o robo del modelo, sus pesos o su comportamiento |
Recurso: OWASP Top 10 for LLM
2. MITRE ATLAS (Adversarial Threat Landscape for AI Systems)
Qué es: El ATT&CK de la inteligencia artificial. Un framework de tácticas, técnicas y procedimientos (TTPs) que los adversarios utilizan contra sistemas de machine learning e IA.
Por qué importa: Si ya usas MITRE ATT&CK para threat modeling de infraestructura, ATLAS es su extensión natural para los modelos de IA. Indispensable para entender cómo los atacantes explotan sistemas de ML/AI.
Tácticas cubiertas:
- Reconnaissance: recolección de información sobre el modelo (arquitectura, API, datos de entrenamiento)
- Resource Development: creación de datasets adversariales, modelos sombra
- Initial Access: acceso al modelo vía API, prompt injection, supply chain
- ML Attack Staging: preparación de ataques de evasión, envenenamiento, extracción
- ML Model Access: interacción directa con el modelo para explotar vulnerabilidades
- Exfiltration: extracción de datos sensibles o del propio modelo
- Impact: manipulación de resultados, denegación de servicio, daño reputacional
Recurso: MITRE ATLAS
3. NIST AI RMF (AI 600-1) — Gestión de riesgos para IA generativa
Qué es: El complemento del NIST Cybersecurity Framework (CSF 2.0) específico para inteligencia artificial generativa. El documento AI 600-1 aborda los riesgos únicos de la GenAI.
Por qué importa: Si ya trabajas con el CSF 2.0, este es su complemento natural. Proporciona un marco estructurado para identificar, evaluar y gestionar los riesgos de la IA generativa en tu organización.
Áreas de riesgo que cubre:
- CBRN Information: generación de información sobre armas químicas, biológicas, radiológicas o nucleares
- Confabulation: generación de información falsa presentada como verdadera (alucinaciones)
- Data Privacy: riesgos de privacidad en datos de entrenamiento y respuestas
- Environmental Impact: consumo energético y huella de carbono
- Harmful Bias: sesgos discriminatorios en los resultados
- Homogenization: reducción de diversidad cuando todos usan los mismos modelos
- Information Integrity: impacto en la integridad de la información pública
- Information Security: vectores de ataque específicos de GenAI
- Intellectual Property: riesgos de propiedad intelectual en entrenamiento y generación
- Obscene/Degrading Content: generación de contenido inapropiado
- Value Chain/Component: riesgos en la cadena de suministro de IA
Recurso: NIST AI RMF
4. ISO/IEC 42001 — Sistema de gestión de IA
Qué es: El “ISO 27001 de la inteligencia artificial”. Un sistema de gestión dedicado a la gobernanza responsable de la IA. Ya es certificable.
Por qué importa: Si tu organización ya tiene ISO 27001, ISO 42001 es la extensión natural para gobernar los sistemas de IA. Proporciona un marco auditable y certificable para demostrar que la IA se gestiona de forma responsable.
Componentes principales:
- Política de IA: compromiso de la dirección con el uso responsable de IA
- Evaluación de riesgos de IA: identificación y tratamiento de riesgos específicos
- Evaluación de impacto: análisis del impacto de los sistemas de IA en personas y organizaciones
- Ciclo de vida de IA: gestión desde el diseño hasta el retiro del sistema
- Datos y gobernanza: calidad, privacidad y seguridad de los datos utilizados
- Transparencia: explicabilidad de las decisiones del sistema de IA
- Monitoreo continuo: supervisión del comportamiento del modelo en producción
Recurso: ISO/IEC 42001
5. Google SAIF (Secure AI Framework)
Qué es: Un framework con controles concretos para asegurar pipelines de machine learning en producción, desarrollado por Google basándose en su experiencia operando modelos de IA a escala.
Por qué importa: Mientras otros frameworks son más conceptuales, SAIF ofrece controles técnicos específicos y accionables para equipos que ya tienen modelos en producción.
Principios y controles:
- Expandir las bases de seguridad al ecosistema de IA: aplicar los controles de seguridad existentes (red, identidad, datos) a la infraestructura de ML
- Extender la detección y respuesta a amenazas de IA: incluir ataques a modelos en el scope del SOC
- Automatizar las defensas: usar IA para defender IA (detección de anomalías en prompts, respuestas y comportamiento del modelo)
- Armonizar controles a nivel de plataforma: centralizar la seguridad en la plataforma de ML, no en cada modelo individual
- Adaptar los controles al contexto: diferentes niveles de seguridad según el riesgo del caso de uso
- Contextualizar los riesgos en procesos de negocio: vincular los riesgos de IA con los riesgos del negocio
Recurso: Google SAIF
Comparativa de frameworks
| Framework | Enfoque | Tipo | Certificable | Ideal para |
|---|---|---|---|---|
| OWASP Top 10 LLM | Riesgos en aplicaciones LLM | Lista de riesgos | No | Desarrolladores, AppSec |
| MITRE ATLAS | TTPs adversarios contra ML/AI | Threat modeling | No | SOC, threat intelligence, red team |
| NIST AI RMF | Gestión de riesgos de GenAI | Framework de gestión | No | GRC, compliance, CISO |
| ISO 42001 | Gobernanza de IA | Sistema de gestión | Sí | Alta dirección, auditoría, compliance |
| Google SAIF | Controles técnicos para ML | Framework técnico | No | MLOps, ingeniería de seguridad |
¿Por dónde empezar?
Si estás comenzando
- OWASP Top 10 for LLM: entiende los riesgos más comunes antes de implementar controles
- NIST AI RMF: establece un marco de gestión de riesgos básico
Si ya tienes modelos en producción
- MITRE ATLAS: mapea las amenazas reales a tus sistemas de IA
- Google SAIF: implementa controles técnicos en tus pipelines de ML
- ISO 42001: formaliza la gobernanza para demostrar cumplimiento
Si necesitas demostrar compliance
- ISO 42001: es el único certificable y auditable
- NIST AI RMF: complementa con gestión de riesgos documentada
- OWASP: evidencia de evaluación de riesgos técnicos
Conclusión
La pregunta no es si tu organización va a usar IA generativa. La pregunta es si vas a esperar al incidente para preocuparte por su seguridad.
Los frameworks ya existen. Las amenazas ya están documentadas. Los controles ya están definidos. Lo que falta es que las organizaciones los adopten con la misma velocidad con la que están adoptando la IA.
Un prompt injection exitoso, una fuga de datos de entrenamiento o una alucinación que genera una decisión de negocio incorrecta no son escenarios teóricos. Son incidentes que ya están ocurriendo. La diferencia entre las organizaciones que los manejan y las que los sufren es una sola: preparación.
Si tu organización está integrando IA generativa y necesita evaluar sus riesgos de ciberseguridad, estos 5 frameworks son tu punto de partida. No esperes al incidente.