Todos los artículos
media r/LocalLLaMA · hace 2 h

La evaluación humana muestra que GLM-5.2 compite con los mejores modelos

Una evaluación humana en el tablero de Design Arena revela que GLM-5.2 tiene un rendimiento casi tan bueno como Fable 5 en tareas de desarrollo de juegos, ubicándose solo un paso por debajo. El modelo, basado en pesos abiertos y licencia MIT, se evalúa como equivalente en capacidad a los mejores modelos Claude disponibles, lo que sugiere que las pruebas estandarizadas ya pueden no reflejar con precisión el rendimiento en el mundo real.

media r/LocalLLaMA · hace 2 h

Caché MoE multinivel: optimización de la activación de expertos en modelos grandes

Los modelos MoE como GLM 5.2 y Deepseek V4 muestran que el 20% superior de los expertos maneja el 85% de las activaciones. Un enfoque de caché multinivel podría desplazar estos expertos a la memoria GPU, aprovechando la VRAM de alta banda ancha para una inferencia más rápida. Sistemas existentes como PowerInfer, llama.cpp de Lidenburg y HOBBIT demuestran implementaciones prácticas de caché y prefetching de expertos.

media r/LocalLLaMA · hace 2 h

¿SFT o RL-first para el entrenamiento del agente de herramientas de Qwen 3.5?

Un usuario pregunta si se sigue recomendando el ajuste fino supervisado (SFT) seguido de aprendizaje por refuerzo (RL) para entrenar agentes de Qwen 3.5 de 4B o 9B para el uso de múltiples herramientas, o si los enfoques solo con RL producen mejores resultados. La publicación también busca orientación sobre el diseño de recompensas y el manejo de la ejecución paralela de herramientas en flujos de trabajo de agentes.

arxiv arXiv cs.CL · hace 2 h

Estimación de la Importancia del Predicado y Destilación Desacoplada de Racional-Puntuación para Alineación de Entidades

Un nuevo método mejora la alineación de entidades en grafos de conocimiento introduciendo la Estimación de la Importancia del Predicado y la Destilación Desacoplada de Racional-Puntuación. Estos módulos mejoran la precisión de clasificación y permiten la verificación con humano en el bucle mediante la detección de predicciones inciertas a través de una estimación desacoplada de la puntuación de confianza.

arxiv arXiv cs.CL · hace 2 h

Optimización de Políticas de Grupo-Gráfico para RL Agénico de Largo Alcance

La Optimización de Políticas de Grupo-Gráfico (G2PO) introduce un enfoque basado en grafos para mejorar el aprendizaje por refuerzo agénico de largo alcance, transformando trayectorias de interacción en grafos de transición de estado. Permite la estimación agregada del valor de estado y el cálculo de ventaja centrado en las aristas, mejorando la asignación de crédito y reduciendo la varianza, logrando hasta un 22.2% de mejora en la tasa de éxito sobre GRPO en los benchmarks WebShop, ALFWorld y AppWorld.

arxiv arXiv cs.CL · hace 2 h

Evaluación comparativa de sistemas de TM y grupos de posteditores en traducción especializada

El estudio compara tres sistemas de TM: DeepL, eTranslation y Systran, y dos grupos de posteditores: lingüistas/traductores y expertos en PLN. Los resultados muestran diferencias significativas en la precisión terminológica y la fluidez, destacando el papel del conocimiento del dominio en la traducción especializada y el rendimiento variable de los sistemas de TM en contextos específicos del idioma.

arxiv arXiv cs.CL · hace 2 h

¿Los espacios de incrustación de LLM recuperan la estructura experta?

Las incrustaciones de LLM preentrenadas muestran una alineación medible con la estructura de síntomas de salud mental definida por expertos. El ajuste fino mejora esta alineación, especialmente a nivel de categorías finas, y los tamaños de modelo más grandes mejoran tanto el rendimiento zero-shot como las ganancias supervisadas. La alineación residual persiste después de controlar por confusores lingüísticos y estilísticos, lo que indica que la recuperación de la estructura experta depende del nivel y requiere pruebas explícitas de confusores.

arxiv arXiv cs.CL · hace 2 h

Inferencia de pertenencia a nivel de entidad mediante interrogación de LLM

Los investigadores proponen la inferencia de pertenencia a nivel de entidad para determinar si un LLM ha estado expuesto a información sobre una entidad del mundo real durante el entrenamiento. Al construir prompts con pistas limitadas de la entidad y analizar las características semánticas en las respuestas generadas, sus cinco estrategias de interrogación logran hasta 0.97 AUC y mejoran la Precisión Balanceada entre un 6.0% y 17.5% en comparación con las líneas base adaptadas para entidades personales.

arxiv arXiv cs.CL · hace 2 h

OCR ilimitado: Análisis similar al humano con memoria constante

OCR ilimitado introduce la Atención de Ventana Deslizante de Referencia (R-SWA) para emular la memoria de trabajo humana, permitiendo la transcripción de documentos largos sin aumentar el uso de memoria. Al reemplazar las capas de atención del decodificador en DeepSeek OCR, mantiene un KV cache constante y logra el procesamiento completo del documento en una sola pasada hacia adelante bajo límites de 32K tokens. R-SWA también es aplicable a tareas de ASR y traducción.

arxiv arXiv cs.CL · hace 2 h

Propiedad de las recomendaciones de IA: Mapa empírico de la propiedad de categorías de marca

Un estudio de 3,750 consultas en cinco industrias encuentra una concentración moderada de recomendaciones, con un coeficiente Gini medio de 0.28. El acuerdo entre modelos sobre las marcas más recomendadas fue solo del 41.6%, y los puntajes de desplazamiento variaron por industria, oscilando entre 0.4:1 y 4.3:1. Los resultados desafían la narrativa de 'el ganador se lo lleva todo' e introducen tres métricas reproducibles para el análisis de inteligencia competitiva.

arxiv arXiv cs.CL · hace 2 h

PIVOTSBench: Benchmark para el razonamiento interpersonal fino en MLLMs

PIVOTSBench es el primer benchmark que evalúa la capacidad de los modelos de lenguaje multimodales grandes (MLLMs) para razonar sobre relaciones interpersonales bidireccionales utilizando Social-IQ 2.0 y datos de YouTube. Incluye tareas auxiliares para evaluar la identificación de pistas visuales y realiza estudios de ablación sobre modalidades visuales e información de roles sociales, analizando cómo las predicciones conjuntas y por pares mejoran el rendimiento en dimensiones relacionales fundamentadas en investigaciones psicológicas.