chatgpt
Crédito: Pixabay/CC0 Dominio público

Pídale a ChatGPT que busque un poema conocido y probablemente regurgitará el texto completo palabra por palabra, independientemente de la ley de derechos de autor, según un nuevo estudio realizado por investigadores de Cornell.

El estudio demostró que ChatGPT, un gran modelo de lenguaje que genera texto a pedido, era capaz de "memorizar" poemas, especialmente los famosos que se encuentran comúnmente en línea.Los hallazgos planteansobre cómo se entrenan ChatGPT y otros modelos patentados de inteligencia artificial, probablemente utilizando datos extraídos de Internet, dijeron los investigadores.

"En general, no es bueno que los modelos de lenguaje grandes memoricen grandes fragmentos de texto, en parte porque es una cuestión de privacidad", dijo la primera autora Lyra D'Souza, ex estudiante de informática y asistente de investigación de verano."No sabemos en qué están entrenados y, muchas veces, las empresas privadas pueden entrenar modelos propietarios con nuestros datos privados".

D'Souza presentó este trabajo, "El Chatbot y el Canon: memorización de poesía en LLM," en elConferencia de Investigación en Humanidades Computacionalesen París.

"Elegimos poemas por varias razones", dijo el autor principal David Mimno, profesor asociado de ciencias de la información en la Facultad de Computación y Ciencias de la Información Cornell Ann S. Bowers."Son lo suficientemente cortos como para caber en el tamaño del contexto de un modelo de lenguaje. Sues complicado: muchos de los poemas que estudiamos están técnicamente protegidos por derechos de autor, pero también están ampliamente disponibles en fuentes acreditadas como la Poetry Foundation.Y no son un documento cualquiera.Se supone que los poemas deben sorprender, se supone que deben significar algo para la gente.En cierto sentido, los poemas quieren ser memorizados".

ChatGPT y otrosestán capacitados para generar texto prediciendo la siguiente palabra más probable una y otra vez en función de sus datos de entrenamiento, que son principalmente páginas web.La memorización puede ocurrir cuando los datos de entrenamiento incluyen pasajes duplicados, porque la duplicación refuerza esa secuencia específica de palabras.Después de haber sido expuesto al mismo poema repetidamente, por ejemplo, el modelo reproduce por defecto las palabras del poema palabra por palabra.

D'Souza probó las capacidades de recuperación de poemas de ChatGPT y otros tres modelos de lenguaje: PaLM de Google AI, Pythia del instituto de investigación de inteligencia artificial sin fines de lucro EleutherAI y GPT-2, una versión anterior del modelo que finalmente produjo ChatGPT, ambos desarrollados.por OpenAI.Se le ocurrió una serie de poemas de 60 poetas estadounidenses de diferentes épocas, razas, géneros y niveles de fama, y ​​alimentó a las modelos con indicaciones que les pedían el texto de los poemas.

ChatGPT recuperó con éxito 72 de los 240 poemas, mientras que PaLM solo obtuvo 10. Ni Pythia ni GPT-2 pudieron producir poemas completos.Pythia respondió con la misma frase una y otra vez, mientras que GPT-2 producía texto sin sentido, encontraron los investigadores.

La inclusión en el canon de poesía fue el factor más importante para determinar si el chatbot había memorizado un poema, mientras que la raza, el género y la época del poeta no fueron tan significativos.El predictor más fiable de la memorización era si el poema había aparecido en una "Antología de poesía de Norton", específicamente en la edición de 1983.

D'Souza también notó que las respuestas de ChatGPT cambiaron con el tiempo a medida que evolucionaba el modelo.Cuando consultó por primera vez al chatbot en febrero de 2023, este no podía decir que no conocía un poema; en cambio, inventaba uno o reciclaba un poema de otro autor.En julio de 2023, si ChatGPT no conocía el poema, preguntaría si existía, echando la culpa al usuario.

Eso preocupó a D'Souza."A medida que tenemos herramientas más poderosas que nos dicen que lo saben todo, se vuelve aún más importante asegurarnos de que no estemos aprendiendo sólo de una fuente", dijo.

Además, en febrero, ChatGPT no tenía límites debido a derechos de autor.Pero en julio, a veces respondía que no podía producir un poema protegido por derechos de autor.Sin embargo, normalmente reproduciría el poema si se le volviera a pedir, descubrió D'Souza.

Este estudio se centró únicamente en los poetas estadounidenses, pero el siguiente paso será ver cómo los chatbots responden a las solicitudes eny si factores como la longitud, la métrica y el patrón de rima de unhacer que sea más o menos probable que se memorice, dijo D'Souza

"ChatGPT es una nueva herramienta realmente poderosa que probablemente será parte de nuestras vidas en el futuro", afirmó."Descubrir cómo usarlo de manera responsable y transparente será realmente importante".

Citación:La regurgitación de poemas de ChatGPT plantea cuestiones éticas (9 de enero de 2024)recuperado el 9 de enero de 2024de https://techxplore.com/news/2024-01-chatgpt-poem-regurgitation-ethical.html

Este documento está sujeto a derechos de autor.Aparte de cualquier trato justo con fines de estudio o investigación privados, noparte puede ser reproducida sin el permiso por escrito.El contenido se proporciona únicamente con fines informativos.