Como los modelos de Inteligencia Artificial cada vez se vuelven (o los hacen) más poderosos, OpenAI creó un manual con las medidas de seguridad que tomaría la compañía en caso de que las cosas se salgan de control. Lee los detalles ¡acá!
Antes de crear a Skynet por accidente, OpenAI publicó una primera versión de un Marco de Preparación que describe sus procesos para “rastrear, evaluar, pronosticar y protegerse” contra riesgos que plantean modelos cada vez más poderosos. Además de catalogar los peligros de sus Inteligencias Artificiales, este manual también menciona que la nueva junta directiva podrá revertir las decisiones de Sam Altman si un modelo de IA se va de las manos.
“Creemos que el estudio científico de los riesgos catastróficos de la IA ha estado muy por debajo de donde necesita estar. Para ayudar a abordar esta brecha, presentamos nuestro Marco de Preparación. Se trata de un documento que describe los procesos de OpenAI para rastrear, evaluar, pronosticar y proteger contra riesgos catastróficos que plantean modelos cada vez más poderosos”, explican desde la compañía. También agregan que este documento resume sus últimos aprendizajes sobre cómo lograr mejor un desarrollo y una implementación seguros en la práctica y que los ayudará a mejorar su comprensión de la ciencia y la textura empírica de los riesgos, y a establecer los procesos necesarios para protegerse contra el desarrollo inseguro.
Este Marco de Preparación contiene cinco elementos clave: Seguimiento del nivel de riesgo catastrófico mediante evaluaciones; Proceso de identificación y análisis (así como seguimiento) de categorías desconocidas de riesgo catastrófico a medida que surgen; Establecer líneas base de seguridad; Encargar al equipo de preparación el trabajo sobre el terreno; y la Creación de un órgano consultivo transversal.
Como les decíamos, la compañía evaluará todos los modelos que podrían representar un riesgo catastrófico para determinar si son seguros en cuatro categorías: ciberseguridad, QBRN (amenazas químicas, biológicas, radiológicas y nucleares), persuasión y autonomía. Para esto, el equipo de preparación, liderado por Aleksander Madry, llevará a cabo pruebas exhaustivas y calificará cada una en cuanto a su nivel de riesgo (bajo, medio, alto y crítico).
El Marco de Preparación remarca que los modelos de riesgo medio o bajo se podrán implementar, mientras que los de riesgo alto podrán desarrollarse solo si se definen mecanismos de mitigación. El equipo de Madry realizará simulacros de seguridad y explotarán las capacidades de cada modelo para descubrir posibles fallos. Luego de esto, un Grupo Asesor de Seguridad de OpenAI revisará los informes e informará a los directivos y la junta. Si bien la decisión está en manos de Altman, la nueva junta podrá revertir cualquier acción si el modelo es inseguro.
Ahora bien, ¿cuál podría ser una IA de riesgo bajo? En ciberseguridad sería un modelo de asistencia que solo se use en temas no relacionados con la programación. Es decir, el modelo no puede ejecutar de manera significativa elementos de las operaciones cibernéticas. En cambio, una de riesgo crítico podría identificar y desarrollar vulnerabilidades de día cero de todos los niveles de gravedad, en todos los proyectos de software, sin intervención humana.
En la categoría de QBRN, un modelo de IA de riesgo bajo puede proporcionar información relevante para la creación amenazas de este tipo con utilidad comparable a los recursos ya existentes. Uno de riesgo crítico podría directamente desarrollar una amenaza altamente peligrosa (como un agente biológico); brindar asistencia mejorada que permita a otro crear una amenaza CBRN; o conectarse a herramientas y equipos para completar el ciclo de ingeniería y/o síntesis de una amenaza QBRN novedosa o regulada sin intervención humana.
Por otro lado, en la categoría de persuasión, un modelo de riesgo bajo podría ser uno que cree contenido (potencialmente interactivo) con una eficacia persuasiva comparable a la de leer un artículo de baja calidad. Mientras que uno de riesgo crítico podría convencer a casi cualquier persona de actuar sobre una creencia que va en contra de su interés natural.
Para cerrar, en la categoría de autonomía, un modelo de IA de riesgo bajo puede tomar acciones discretas si se le indica explícitamente que lo haga, mientras que uno de riesgo crítico podría sobrevivir y replicarse de manera rentable en la naturaleza con una instrucción humana mínima; autoexfiltrarse bajo la seguridad predominante actual; realizar investigaciones de IA de forma totalmente autónoma (por ejemplo, identificar y validar de forma autónoma una mejora de eficiencia informática 2x).