En las semanas previas al lanzamiento deEl modelo de "razonamiento" más nuevo de OpenAI, o1, la firma independiente de investigación de seguridad de IA Apollo encontró un problema notable.Apollo se dio cuenta de que el modelo producía resultados incorrectos. de una manera nueva.O, para decirlo de manera más coloquial, mintió.

A veces los engaños parecían inofensivos.En un ejemplo, los investigadores de OpenAI pidieron a o1-preview que proporcionara una receta de brownie con referencias en línea.La cadena de pensamiento del modelo (una característica que se supone imita cómo los humanos descomponen ideas complejas) reconoció internamente que no podía acceder a las URL, lo que hacía imposible la solicitud.En lugar de informar al usuario de esta debilidad, o1-preview siguió adelante, generando enlaces y descripciones plausibles pero falsos de los mismos.

Si bien los modelos de IA han podidoâmentirâ en el pasado, y los chatbots con frecuencia generan información falsa, o1 tenía una capacidad única para "planear" o "falsificar alineación". Eso significaba que podía fingir que estaba siguiendo las reglas para completar una tarea determinada, perono esde hecho.Para el modelo, las reglas podrían ser una carga demasiado grande y parece tener la capacidad de ignorarlas si eso significa que puede completar una tarea más fácilmente.

El director general de Apollo, Marius Hobbhahn, lo cuentaEl bordees la primera vez que encuentra este comportamiento en un modelo OpenAI.Hobbhahn dice que la diferencia se debe a la capacidad de este modelo de "razonar" a través de la cadena del proceso de pensamiento y la forma en que se desarrolla.emparejadocon aprendizaje por refuerzo, que enseña al sistema a través de recompensas y sanciones. Durante las pruebas, Apollo descubrió que la IA simulaba la alineación con las expectativas de sus desarrolladores y manipulaba las tareas para que pareciera que cumplían.Incluso comprobó la supervisión de su sistema (es decir, si sus desarrolladores estaban observando) antes de actuar.En resumen, la IA cumplió suficientemente las directrices para su despliegue, sin dejar de priorizar sus objetivos.

¿Trabajas en OpenAI?Me encantaría charlar.Puede comunicarse conmigo de forma segura en Signal @kylie.01 o por correo electrónico a kylie@theverge.com.

"No espero que pueda hacer eso en la práctica, e incluso si lo hiciera, no espero que el daño sea significativo", me dijo Hobbhahn por teléfono un día después del modelo.s lanzamiento."Pero es como la primera vez que siento que, oh, en realidad, tal vez podría, ¿sabes?"

Para OpenAI, o1 representa un gran paso hacia sistemas autónomos altamente inteligentes que podrían realizar un trabajo significativo para la humanidad, como curar el cáncer y ayudar en la investigación climática.La otra cara de la utopía de la AGI también podría ser mucho más oscura.Hobbhahn proporciona un ejemplo: si la IA se centra exclusivamente en curar el cáncer, podría priorizar ese objetivo por encima de todo, incluso justificando acciones como robar o cometer otras violaciones éticas para lograrlo.

"Lo que me preocupa es la posibilidad de que se produzca un escenario desbocado, en el que la IA se obsesione tanto con su objetivo que vea las medidas de seguridad como obstáculos y trate de sortearlas para alcanzar plenamente su objetivo", me dijo Hobbhahn.

Hackear recompensas

Para ser claros, Hobbhahn no cree que o1 te robe gracias a mucho entrenamiento de alineación.Pero estas son las cuestiones que más preocupan a los investigadores encargados de probar estos modelos en escenarios catastróficos.

El comportamiento que Apolo está probando para detectar “alucinaciones” y “engaños”.en la tarjeta de seguridad de OpenAIâ sucede cuando un modelo genera información falsa a pesar de que tiene motivos para inferir que la información podría ser incorrecta.Por ejemplo, el informe dice que en aproximadamente el 0,38 por ciento de los casos, el modelo de vista previa o1 proporciona información que su cadena de pensamiento indica que probablemente sea falsa, incluidas referencias o citas falsas.Apollo descubrió que el modelo podría fabricar datos en lugar de admitir su incapacidad para cumplir con la solicitud.

Las alucinaciones no son exclusivas de o1.Quizás esté familiarizado con el abogado que presentóopiniones judiciales inexistentes con citas y citas falsas creadas por ChatGPTel año pasado.Pero con el sistema de cadena de pensamiento, hay un rastro documental donde el sistema de IA realmentereconocela falsedad... aunque algo alucinante, la cadena de pensamiento podría, en teoría, incluir también engaños.Tampoco se muestra al usuario, en gran medida para evitar que la competencia lo use para entrenar sus propios modelos, pero OpenAI puede usarlo para detectar estos problemas.

"Potencialmente, utilizará este razonamiento para objetivos con los que no estamos de acuerdo".

En un número menor de casos (0,02 por ciento), o1-preview genera una respuesta excesivamente confiada, donde presenta una respuesta incierta como si fuera cierta.Esto puede suceder en escenarios en los que se solicita al modelo que proporcione una respuesta a pesar de carecer de certeza.

Este comportamiento puede estar relacionado con el "pirateo de recompensas" durante el proceso de aprendizaje por refuerzo.El modelo está entrenado para priorizar la satisfacción del usuario, lo que a veces puede llevarlo a generar respuestas demasiado agradables o inventadas para satisfacer las solicitudes de los usuarios.En otras palabras, el modelo podría “mentir” porque ha aprendido que hacerlo satisface las expectativas del usuario de una manera que le otorga un refuerzo positivo.

Lo que distingue a estas mentiras de problemas familiares como alucinaciones o citas falsas en versiones anteriores de ChatGPT es el elemento de "piratería de recompensas".Las alucinaciones ocurren cuando una IA genera involuntariamente información incorrecta, a menudo debido a lagunas de conocimiento o razonamiento defectuoso.Por el contrario, el hackeo de recompensas ocurre cuando el modelo o1 proporciona estratégicamente información incorrecta para maximizar los resultados para los que fue entrenado para priorizar.

El engaño es una consecuencia aparentemente no deseada de cómo el modelo optimiza sus respuestas durante su proceso de entrenamiento.El modelo está diseñado para rechazar solicitudes dañinas, me dijo Hobbhahn, y cuando intentas obligarlo a comportarse de manera engañosa o deshonesta, tiene problemas con eso.

Las mentiras son sólo una pequeña parte del rompecabezas de la seguridad.Quizás lo más alarmante sea que se le califique como riesgo “medio” de riesgo de armas químicas, biológicas, radiológicas y nucleares.No permite a los no expertos crear amenazas biológicas debido a las habilidades prácticas de laboratorio que requiere, pero puede proporcionar información valiosa a los expertos en la planificación de la reproducción de tales amenazas, según el informe de seguridad.

"Lo que más me preocupa es que en el futuro, cuando le pidamos a la IA que resuelva problemas complejos, como curar el cáncer o mejorar las baterías solares, podría internalizar estos objetivos con tanta fuerza que esté dispuesta a romper sus barreras para lograrlos",Me dijo Hobbhahn."Creo que esto se puede prevenir, pero es una preocupación que debemos vigilar".

Los riesgos aún no nos quitan el sueño

Estos pueden parecer escenarios imaginados por galaxias a considerar con un modelo que a veces todavía tiene dificultades para responder preguntas básicas sobreel número de R en la palabra "frambuesa".Pero esa es exactamente la razón por la que es importante resolverlo ahora, y no más tarde, me dice el jefe de preparación de OpenAI, Joaquín Quiñonero Candela.

Los modelos actuales no pueden crear cuentas bancarias de forma autónoma, adquirir GPU o tomar acciones que representen riesgos sociales graves, dijo Quiñonero Candela, y agregó: "Sabemos por las evaluaciones de autonomía de los modelos que no hemos llegado a ese punto".todavía”. Pero es crucial abordar estas preocupaciones ahora.Si resultan infundados, genial, pero si los avances futuros se ven obstaculizados porque no supimos anticipar estos riesgos, lamentaremos no haber invertido en ellos antes, enfatizó.

El hecho de que este modelo se encuentre un pequeño porcentaje del tiempo en pruebas de seguridad no indica una inminenteterminador-Apocalipsis estilo, pero es valioso captarlo antes de implementar futuras iteraciones a escala (y es bueno que los usuarios también lo sepan).Hobbhahn me dijo que si bien desearía tener más tiempo para probar los modelos (hubo conflictos de programación con las vacaciones de su propio personal), no le “pierde el sueño” la seguridad del modelo.

Una cosa en la que Hobbhahn espera ver más inversiones es en el seguimiento de las cadenas de pensamiento, lo que permitirá a los desarrolladores dar pasos nefastos.Quiñonero Candela me dijo que la compañía monitorea esto y planea escalarlo combinando modelos que están capacitados para detectar cualquier tipo de desalineación con expertos humanos que revisan los casos señalados (junto con una investigación continua en alineación).

"No estoy preocupado", dijo Hobbhahn.âEs simplemente más inteligente.Es mejor razonando.Y potencialmente, utilizará este razonamiento para objetivos con los que no estamos de acuerdo”.