Un nuevo marco permite el aprendizaje en línea con recompensas y castigos sin recompensas del entorno, utilizando únicamente paquetes perceptuales de canal fijo. Alcanza alta precisión en la inferencia de valores y la optimización de políticas, con B_xi logrando una precisión equilibrada de 0.952 en la señal de recompensa y el rendimiento general de la política alcanzando una precisión de acción óptima de 0.979 en las tareas evaluadas, superando a los controles como recompensa cero y objetivos aleatorizados.