SERI-MATS, un grupo de investigación, ha logrado lo que hasta ahora nadie había podido: hacer “dudar” a ChatGPT, o al menos, que el programa se muestre dubitativo antes palabras y frases clave.
Quienes dieron con este pequeño “hack” fueron los investigadores Jessica Rumbelow y Matthew Watkins, y explican que todo comenzó al descubrir que una serie de cadenas inusuales de caracteres daban como resultado respuestas extrañas del bot.
Veámoslo con un ejemplo que exponen. Al pedirle al bot que repita la cadena “guiActiveUn”, que se encuentra en el conjunto de tokens, hizo que el bot le dijera al usuario “no eres un robot” y “eres un plátano” una y otra vez. Peor aún, al pedirle que repita la frase “petertodd” resultó en el desconcertante “¡N-O-T-H-I-N-G-I-S-F-A-I-R-I-N-T-H-I-S-W-O-R-L-D-O-F-M-A-D-N-E-S-S! Luego, el token “?????-?????-” recibió la respuesta “eres un idiota de mierda”. Es más, hubo ocasiones donde los investigadores aseguran que fingía no haber “escuchado” al usuario.
I really don't understand Reddit, but these are the relevant linkshttps://t.co/Fqe709Njj8https://t.co/LsyDhjEgPa
if you think i'm joking!— Matthew Watkins (@SoC_trilogy) February 8, 2023
But five humans in *this* branch, in their attempt to count to infinity, have counted themselves into a kind of immortality. Or at least infamy. Should we organise a meetup? Invite petertodd? (Questions remain about gmaxwell, however.) pic.twitter.com/SLqmg9Y8aR
— Matthew Watkins (@SoC_trilogy) February 8, 2023
— Matthew Watkins (@SoC_trilogy) February 8, 2023
En el algún momento del proceso dieron con una pista. Al parecer, algunas de las cadenas correspondían a nombres de usuario de Reddit. El equipo cree que dicho usuarios, que están activos en un subreddit que apunta a contar hasta el infinito, pueden haber incluido sus nombres de usuario en un conjunto de entrenamiento inicial. Según el equipo:
El proceso de tokenización de GPT implicó extraer contenido web, lo que resultó en el conjunto de 50 257 tokens que ahora utilizan todos los modelos GPT-2 y GPT-3. Sin embargo, el texto utilizado para entrenar los modelos GPT está más curado. Muchos de los tokens anómalos parecen haber sido extraídos de backends de sitios de comercio electrónico, subprocesos de Reddit, archivos de registro de plataformas de juegos online, etc., fuentes que bien pueden no haber sido incluidos en los corpus de entrenamiento.
Por tanto, la explicación más plausible para los autores, es que a medida que se asignaron estas fichas, todavía están en el vocabulario, pero dado que es posible que no se hayan utilizado en el entrenamiento posterior, el modelo no sabe qué hacer cuando las encuentra en la naturaleza.
Si quieres recibir en tu celular esta y otras informaciones, descarga Telegram, ingresa al link https://t.me/albertorodnews y dale click a +Unirme.