Todos los artículos
media r/LocalLLaMA · hace 2 h

La Universidad Estatal de Ohio lanza el agente de investigación profunda QUEST-35B de código abierto

El equipo de PLN de la Universidad Estatal de Ohio ha lanzado QUEST-35B, un agente de investigación profunda de código abierto entrenado en aproximadamente 32 GPUs H100 utilizando 8.000 muestras sintéticas. El equipo ha liberado como código abierto la receta de entrenamiento, el código, los pesos y los conjuntos de datos, con resultados de evaluación que muestran un rendimiento competitivo en comparación con los principales sistemas de investigación profunda de código cerrado.

media r/LocalLLaMA · hace 2 h

La Universidad Estatal de Ohio lanza el agente de investigación profunda QUEST-35B de código abierto

Los investigadores de la Universidad Estatal de Ohio entrenaron QUEST-35B, un agente de investigación profunda, utilizando aproximadamente 32 GPUs H100 y 8.000 muestras sintéticas. Han liberado como código abierto la receta de entrenamiento, el código, los pesos y los conjuntos de datos, con resultados de evaluación que muestran un rendimiento competitivo en comparación con los principales sistemas de investigación profunda propietarios.

arxiv arXiv cs.CL · hace 2 h

Alineación de LLM usando retroalimentación implícita del usuario

Un nuevo conjunto de datos, IFLLM, recopila trayectorias del ratón y datos de fijación ocular de usuarios que interactúan con LLMs. Muestra que la retroalimentación implícita mejora significativamente la alineación de LLMs, aumentando la precisión del modelo de recompensa basado en texto del 55% al 64% y casi triplicando las mejoras en la calidad de respuesta después del entrenamiento DPO en ocho LLMs.

arxiv arXiv cs.CL · hace 2 h

H-RePlan: Recuperación jerárquica para sistemas de agentes multi-dispositivo

H-RePlan introduce un marco de replanificación jerárquica que separa la recuperación de estrategias locales del dispositivo de la replanificación global del orquestador. Supera a las líneas base existentes al lograr una mayor tasa de finalización y adherencia a las instrucciones, con menor costo en tokens, mediante una recuperación consciente del alcance en sistemas de agentes multi-dispositivo.

arxiv arXiv cs.CL · hace 2 h

StylisticBias: Las pistas visuales impulsan la mayoría de los sesgos sociales en MLLMs

StylisticBias introduce una prueba controlada para evaluar el sesgo social a nivel de atributos en modelos de lenguaje multimodales grandes. Revela que la edad y el tipo de cuerpo dominan los efectos a nivel de identidad, mientras que el estilo de moda y 15 atributos visuales clave impulsan la mayoría del sesgo, representando casi el 80% de la variación. La prueba destaca que los juicios del modelo son más sensibles a las pistas relacionadas con la apariencia, especialmente en contextos socioeconómicos y basados en estilo.