El ChatGPT-4.5 de OpenAI toma la prueba de Turing con una tasa de éxito del 73%

El ChatGPT-4.5 de Openai ha alcanzado un paso importante una vez considerado como décadas: convencer a la mayoría de los participantes en una evaluación de pruebas que era humano.

En un reciente estudiar En la Universidad de California, San Diego, quien buscó evaluar si los modelos de Idiomas grandes pueden pasar la clásica prueba de Turing Tripartite, GPT-4.5 habría tenido éxito el 73% de las conversaciones textuales.

El estudio mostró el último modelo de lenguaje grande que supera las iteraciones anteriores, como GPT-4.0 y otros, en particular Eliza y Llama-3.1-405 B.

El GPT-4.5, lanzado por OpenAI en febrero, pudo detectar sutiles índices lingüísticos, lo que lo hace más humano, según Cameron Jones, investigador postdoctoral de UC San Diego.

“Si les preguntas cuál es el ser humano, los modelos tienden a responder bien y pueden reclamar de una manera convincente de tener experiencias emocionales y sexuales”, dijo Jones Descifrar. “Pero tienen problemas con cosas como la información de tiempo real o los eventos actuales”.

EL Prueba de turingPropuesta por el matemático británico Alan Turing en 1950, evalúa si una máquina puede imitar la conversación humana bastante convincente de engañar a un juez humano. Si el juez no puede distinguir de manera confiable la máquina del humano, la máquina se considera pasada.

Para evaluar el rendimiento de los modelos de IA, los investigadores probaron dos tipos de indicaciones: un mensaje básico con una instrucción mínima y un mensaje más detallado que ordenó al modelo que adoptara la voz de un joven introvertido y advirtió por Internet que usa el Argot.

“Hemos seleccionado a estos testigos sobre la base de un estudio exploratorio en el que evaluamos cinco indicaciones diferentes y siete LLM diferentes y descubrimos que LLAMA-3.1-405B, GPT-4.5, y este aviso de personaje obtuvo lo mejor”, dijeron los investigadores del estudio.

El estudio también discutió las implicaciones sociales y económicas más amplias de los modelos de gran lenguaje que pasan la prueba de Turing, incluido el uso potencial inapropiado.

“Ciertos riesgos incluyen desinformación, como el astroturfing, donde los bots afirman ser personas para inflar el interés en una causa”, dijo Jones. “Otros involucran fraude o ingeniería social: si un modelo envía un correo electrónico a alguien con el tiempo y parece real, podría persuadirlos para que compartan información confidencial o accedan a cuentas bancarias”.

El lunes, Openai anunció el lanzamiento de la próxima iteración de su modelo insignia GPT, GPT-4.1. Esta nueva IA es aún más avanzada y puede tratar documentos extensos, bases de código o incluso novelas. Operai dijo que sería Sunset GPT-4.5 y lo reemplazaría con GPT 4-1 este verano.

Si bien Turing nunca ha sido testigo del panorama de AI hoy, Jones señaló que la prueba que propuso en 1950 sigue siendo relevante.

“La prueba de Turing siempre es relevante en la forma en que Turing quería”, dijo. “En su artículo, habla sobre máquinas de aprendizaje y sugiere cómo construir algo que pase la prueba de Turing es crear un niño de computadora que aprenda de muchos datos. Esto es esencialmente, así como modernos, los modelos de aprendizaje automático funcionan”.

Cuando se le preguntó sobre la crítica del estudio, Jones reconoció su valor al tiempo que aclara lo que Turing pruebas miden y no.

“Lo principal que diría es que la prueba de Turing no es una prueba perfecta de evidencia de inteligencia o incluso humana”, dijo. “Pero es útil para lo que mide: si una máquina puede convencer a una persona, es humano. Vale la pena medir y tiene implicaciones reales”.

Editado por Sebastian Sinclair

Generalmente inteligente Boletín

Un viaje semanal de IA contado por Gen, un modelo de generador de IA.