abstract strawberry
Crédito: Pixabay/CC0 Dominio público

OpenAI, la empresa que creó ChatGPT, ha lanzado un nuevo sistema de inteligencia artificial (IA) llamadoFresa.Está diseñado no sólo para proporcionar respuestas rápidas a preguntas, como ChatGPT, sino también para pensar o "razonar".

Esto plantea varias preocupaciones importantes.Si Strawberry realmente es capaz de algún tipo de razonamiento, ¿podría este sistema de inteligencia artificial engañar a los humanos?

OpenAI puede programar la IA de manera que mitigue su capacidad de manipular humanos.Perolas propias valoraciones de la empresalo califican como de "riesgo medio" por su capacidad para ayudar a los expertos en la "planificación operativa de reproducir una amenaza biológica conocida", en otras palabras, un arma biológica.También se calificó como de riesgo medio por su capacidad para persuadir a los humanos a cambiar su forma de pensar.

Queda por ver cómo podrían utilizar dicho sistema aquellos con malas intenciones, como los estafadores o los piratas informáticos.Sin embargo, la evaluación de OpenAI afirma que los sistemas de riesgo medio pueden liberarse para un uso más amplio, una posición que creo que es equivocada.

La fresa no es una IA "," o programa, sino varios, conocidos colectivamente como o1. Estos modelosestán destinados aresponder preguntas complejas y resolver problemas matemáticos complejos.También son capaces de escribir código informático, para ayudarle a crear su propio sitio web o aplicación, por ejemplo.

Una aparente capacidad de razonar podría sorprender a algunos, ya que generalmente se considera un precursor del juicio y la toma de decisiones, algo que a menudo ha parecido un objetivo lejano para la IA.Entonces, al menos en la superficie, parecería acercar la inteligencia artificial un paso más a la inteligencia humana.

Cuando las cosas parecen demasiado buenas para ser verdad, a menudo hay un problema.Bueno, este conjunto de nuevos modelos de IA está diseñado para maximizar sus objetivos.¿Qué significa esto en la práctica?Para lograr el objetivo deseado, el camino o la estrategia elegida por la IA puedenno siempre necesariamente ser justoo alinearse con los valores humanos.

Verdaderas intenciones

Por ejemplo, si jugaras ajedrez contra Fresa, en teoría, ¿podría su razonamiento permitirlehackear el sistema de puntuación¿En lugar de descubrir las mejores estrategias para ganar el juego?

La IA también podría mentir a los humanos sobre sus verdaderas intenciones y capacidades, lo que plantearía un grave problema de seguridad si se implementara ampliamente.Por ejemplo, si la IA supiera que está infectada con malware, ¿podría "elegir"ocultar este hechosabiendo que un¿Podrían optar por desactivar todo el sistema si lo supieran?

Estos serían ejemplos clásicos de comportamiento poco ético de la IA, donde hacer trampa o engañar es aceptable si conduce a un objetivo deseado.También sería más rápido para la IA, ya que no tendría que perder tiempo descubriendo el siguiente mejor movimiento.Sin embargo, puede que no sea necesariamente moralmente correcto.

Esto lleva a una discusión bastante interesante pero preocupante.¿De qué nivel de razonamiento es capaz Strawberry y cuáles podrían ser sus consecuencias no deseadas?Un poderoso sistema de inteligencia artificial capaz de engañar a los humanos podría plantearnos graves riesgos éticos, legales y financieros.

Esos riesgos se vuelven graves en situaciones críticas, como el diseño de armas de destrucción masiva.OpenAI califica sus propios modelos Strawberry como de "riesgo medio" por su potencial para ayudar a los científicos a desarrollararmas químicas, biológicas, radiológicas y nucleares.

AbiertoAIdice: "Nuestras evaluaciones encontraron que o1-preview y o1-mini pueden ayudar a los expertos con la planificación operativa para reproducir una amenaza biológica conocida".Pero continúa diciendo que los expertos ya tienen una experiencia significativa en estas áreas, por lo que el riesgo sería limitado en la práctica.Agrega: "Los modelos no permiten a los no expertos crear amenazas biológicas, porque crear tal amenaza requiere habilidades prácticas de laboratorio que los modelos no pueden reemplazar".

Poderes de persuasión

La evaluación de OpenAI sobre Strawberry también investigó el riesgo de que pudiera persuadir a los humanos a cambiar sus creencias.Se descubrió que los nuevos modelos o1 eran más persuasivos y manipuladores que ChatGPT.

OpenAI también probó un sistema de mitigación que pudo reducir las capacidades de manipulación del sistema de IA.En general, Strawberry fue etiquetada comoriesgo medio para "persuasión"en las pruebas de Open AI.

Strawberry fue calificada de bajo riesgo por su capacidad para operar de forma autónoma y en materia de ciberseguridad.

La política de Open AI establece que los modelos de "riesgo medio" pueden lanzarse para un uso amplio.En mi opinión, esto subestima la amenaza.El despliegue de tales modelos podría ser catastrófico, especialmente si los malos actores manipulan la tecnología para sus propios fines.

Esto exige controles y equilibrios estrictos que solo serán posibles mediante la regulación y los marcos legales de la IA, como la penalización de las evaluaciones de riesgos incorrectas y el uso indebido de la IA.

El gobierno del Reino Unido destacó la necesidad de "seguridad, protección y solidez" en su libro blanco sobre IA de 2023, pero eso no es suficiente.Existe una necesidad urgente de priorizar la seguridad humana y diseñar protocolos de escrutinio rígidos para modelos de IA como Strawberry.

Este artículo se republica desdeLa conversaciónbajo una licencia Creative Commons.Lea elartículo original.The Conversation

Citación:Según se informa, el programa Strawberry de OpenAI es capaz de razonar.Podría engañar a los humanos (2024, 25 de septiembre)recuperado el 25 de septiembre de 2024de https://techxplore.com/news/2024-09-openai-strawberry-capable-humans.html

Este documento está sujeto a derechos de autor.Aparte de cualquier trato justo con fines de estudio o investigación privados, noparte puede ser reproducida sin el permiso por escrito.El contenido se proporciona únicamente con fines informativos.