Wed. Dec 31st, 2025

La inteligencia artificial nunca se había visto tan avanzada como ahora con ChatGPT de OpenAI. Este modelo utiliza el aprendizaje por refuerzo a partir de la retroalimentación humana y puede ayudarlo a codificar, inventar historias e incluso contar un chiste. Aunque el software tiene algunas limitaciones, ha sido alucinante para los usuarios en las redes sociales al compartir algunos de los descubrimientos que están haciendo con este proyecto. En una publicación de blog, los creadores de ChatGPT explican cómo funciona:

Entrenamos este modelo usando Aprendizaje por refuerzo a partir de retroalimentación humana (RLHF), usando los mismos métodos que InstructGPT, pero con ligeras diferencias en la configuración de recopilación de datos. Entrenamos un modelo inicial mediante un ajuste fino supervisado: los entrenadores humanos de IA proporcionaron conversaciones en las que jugaron en ambos lados: el usuario y un asistente de IA. Les dimos a los capacitadores acceso a sugerencias escritas en modelos para ayudarlos a redactar sus respuestas. Para crear un modelo de recompensa para el aprendizaje por refuerzo, necesitábamos recopilar datos de comparación, que consistían en dos o más respuestas del modelo clasificadas por calidad. Para recopilar estos datos, tomamos conversaciones que los entrenadores de IA tuvieron con el chatbot. Seleccionamos al azar un mensaje escrito por un modelo, probamos varias finalizaciones alternativas e hicimos que los entrenadores de IA las clasificaran. Usando estos modelos de recompensa, podemos ajustar el modelo usando la Optimización de Política Proximal. Realizamos varias iteraciones de este proceso.

Este software está optimizado a partir de un modelo de la serie GPT-3.5. Ambos fueron entrenados en una infraestructura de supercomputación Azure AI. Por ejemplo, un tuit lo que explotó fue cómo un ingeniero sénior de datos de Twitter podría engañar técnicamente a Elon Musk al crear una idea plausible de contribución de código. Lo interesante es cómo la IA aprende y mejora para lo que quiere el usuario, como puedes leer aquí. Otro caso de uso convincente para ChatGPT es la IA que crea un script de Seinfield en el que Jerry necesita aprender el algoritmo de clasificación de burbujas. Y los resultados son impresionantes. ChatGPT también puede ser un buen ejemplo de un compañero de depuración o incluso crear un plan de estrategia comercial. Dicho esto, es importante comprender que el software todavía tiene algunas limitaciones y, a veces, le dirá cosas incorrectas. ChatGPT a veces escribe respuestas que suenan plausibles pero incorrectas o sin sentido; ChatGPT es sensible a los ajustes en la redacción de entrada o al intento de la indicación exacta varias veces. Por ejemplo, dada una frase de una pregunta, el modelo puede afirmar que no sabe la respuesta, pero dada una ligera reformulación, puede responder correctamente; El modelo suele ser excesivamente detallado y abusa de ciertas frases, como reafirmar que es un modelo de lenguaje entrenado por OpenAI; Idealmente, el modelo haría preguntas aclaratorias cuando el usuario proporcionara una consulta ambigua. En cambio, estos modelos actuales suelen adivinar lo que pretendía el usuario; A veces responderá a instrucciones dañinas o exhibirá un comportamiento sesgado. Si bien los usuarios intentan aprovechar la IA, es importante tener en cuenta que no refuerza la violencia, el acoso ni nada que pueda dañar a una persona. Dado que todo el mundo está tratando de usar ChatGPT, es posible que esté a plena capacidad, pero puede aprovechar su oportunidad aquí.


Fuente: BGR

By Sebastian Jimenez

Si hubiera una ciencia basada en el código binario, sería su principal devoto. Dame juegos y circuitos y me harás feliz. Residiendo en Sevilla.