RubricsTree introduce una taxonomía jerárquica de más de 100 rúbricas booleanas clínicamente verificables, evolucionadas a partir de 4.000 consultas reales de usuarios mediante curación con intervención humana. Permite la evaluación escalable y alineada con expertos de agentes de salud personal al enrutar dinámicamente las consultas a rúbricas relevantes, y supera a los métodos base en alineación, sensibilidad contextual y ganancias de rendimiento del modelo de hasta el 66% en HealthBench.
RubricsTree: Marco de evaluación escalable para agentes de salud personal
Traducido del English → Español