RL 3D Playground | El Códice de la IA

Inicializando motor de física...

psychology RL Playground

Entrena un agente IA usando Q-Learning o Deep Q-Network. ¡Observa cómo aprende a llegar a la meta!

flag Meta: Zona verde (+100)

warning Peligro: Zona roja (-50)

block Obstáculo: Amarillo (-30)

Espacio Play/Pausa

R Reiniciar

1-4 Cambiar Entorno

model_training ¿Qué es RL? expand_more

Un agente explora el entorno, toma acciones y recibe recompensas. Su objetivo: aprender qué acciones maximizan la recompensa acumulada a largo plazo.

grid_on Q-Learning expand_more

Construye una tabla Q que asigna un valor a cada par (estado, acción). El agente elige la acción con mayor Q-valor. Aprende ajustando esos valores con cada experiencia.

hub Deep Q-Network expand_more

Reemplaza la tabla con una red neuronal. Puede generalizar a estados nunca vistos. Usa experience replay para aprender de experiencias pasadas de forma eficiente.

balance Explorar vs Explotar expand_more

ε (epsilon) controla el balance: alto ε = el agente actúa al azar para descubrir nuevas estrategias. Bajo ε = sigue lo aprendido. Se reduce gradualmente durante el entrenamiento.

stars Diseño de Recompensas expand_more

La función de recompensa define qué comportamiento es deseable. Recompensas mal diseñadas producen «atajos» inesperados. Usa el panel para añadir zonas y observa cómo cambia el aprendizaje.

Panel de Control

Agente

psychology

Agente Q-Table

Inactivo

Estadísticas

Episodio

Pasos

0.0

Recompensa

0.0

Mejor

Estados-Q

Éxito

Rendimiento

Recompensas Promedio (10)

Algoritmo

Hiperparámetros

Tasa de Aprendizaje 0.001

Descuento (γ) 0.99

Exploración (ε) 0.20

Entorno

route

Laberinto

motion_mode

Dinámico

view_in_ar

Obstáculos

target

Simple

Visualización

Mostrar trayectoria

Mostrar zonas de recompensa

Mostrar fantasmas

Mostrar mapa de calor Q

Diseño de Recompensas