Todos los artículos
arxiv arXiv cs.LG · hace 13 d

Atención de Álgebra de Lie: Tokens de Elementos de Grupo en Redes Neuronales

La Atención de Álgebra de Lie introduce tokens de atención como elementos del grupo de Lie matricial, utilizando la norma algebraica en forma cerrada de las poses relativas como puntuaciones de atención. Este método logra atención invariante y equivariante sin componentes teóricos de representación, superando a las líneas base de tokens vectoriales en SE(2), SO(3) y Aff(2) con menos parámetros y sin núcleos aprendidos.

arxiv arXiv cs.LG · hace 13 d

UNIEGO: Representación egocéntrica unificada mediada por proxy

UNIEGO introduce un marco de destilación jerárquica multi-profesor que utiliza modelos proxy para mediar la transferencia de conocimiento desde nueve profesores diversos en puntos de vista y modalidades. La etapa de Destilación de Proxy Selectiva (SPD) selecciona adaptativamente proxies confiables durante el entrenamiento, mejorando la calidad y estabilidad de la representación. UNIEGO logra resultados de vanguardia en reconocimiento de acciones, recuperación de video y segmentación de acción en benchmarks ego-exo.

arxiv arXiv cs.LG · hace 13 d

¿Qué tan transparente es DiffusionGemma?

DiffusionGemma tiene una transparencia de variables deficiente debido a su alta profundidad serial opaca, pero esto puede mitigarse mediante un cuello de botella de tokens interpretable, reduciendo la profundidad serial a 1.1X la de Gemma 4. La transparencia algorítmica es más desafiante en los modelos de difusión debido a los cambios dinámicos de tokens, aunque los estudios de caso revelan fenómenos novedosos como el razonamiento no cronológico y el razonamiento con contexto intermedio. Se encuentra que DiffusionGemma es monitoreable de manera similar a Gemma 4.

arxiv arXiv cs.CL · hace 13 d

Alineación de LLM usando retroalimentación implícita del usuario

Un nuevo conjunto de datos, IFLLM, recopila trayectorias del ratón y datos de fijación ocular de usuarios que interactúan con LLMs. Muestra que la retroalimentación implícita mejora significativamente la alineación de LLMs, aumentando la precisión del modelo de recompensa basado en texto del 55% al 64% y casi triplicando las mejoras en la calidad de respuesta después del entrenamiento DPO en ocho LLMs.

arxiv arXiv cs.CL · hace 13 d

H-RePlan: Recuperación jerárquica para sistemas de agentes multi-dispositivo

H-RePlan introduce un marco de replanificación jerárquica que separa la recuperación de estrategias locales del dispositivo de la replanificación global del orquestador. Supera a las líneas base existentes al lograr una mayor tasa de finalización y adherencia a las instrucciones, con menor costo en tokens, mediante una recuperación consciente del alcance en sistemas de agentes multi-dispositivo.

arxiv arXiv cs.CL · hace 13 d

StylisticBias: Las pistas visuales impulsan la mayoría de los sesgos sociales en MLLMs

StylisticBias introduce una prueba controlada para evaluar el sesgo social a nivel de atributos en modelos de lenguaje multimodales grandes. Revela que la edad y el tipo de cuerpo dominan los efectos a nivel de identidad, mientras que el estilo de moda y 15 atributos visuales clave impulsan la mayoría del sesgo, representando casi el 80% de la variación. La prueba destaca que los juicios del modelo son más sensibles a las pistas relacionadas con la apariencia, especialmente en contextos socioeconómicos y basados en estilo.

media r/LocalLLaMA · hace 13 d

Experimento de viabilidad con Tesla P40 y diseño de refrigeración mejorado

Un usuario ha demostrado que las GPUs Tesla P40 pueden modificarse a una configuración de 8+6 pines y utilizarse con disipadores estándar de la 1080 TI. Diseñó un deflector de flujo de aire 2-1-2 que permite un rendimiento sostenido estable de 120-130W, previene el apagado térmico y reduce el ruido a aproximadamente 42dB, mejorando significativamente sobre las opciones de refrigeración existentes.

arxiv arXiv cs.AI · hace 13 d

El Administrador de Tareas Reduce la Latencia de Cola en un 14-75% a Escala Empresarial

Un Administrador de Tareas introduce inferencia de prioridad, fusión de eventos relacionados y preempción para habilitar la operación continua en IA empresarial. Reduce la latencia de colas de alta prioridad entre un 14-77% y mejora la corrección de eventos relacionados en más de 20 puntos porcentuales a escala empresarial, abordando el ruido del descubrimiento de agentes como el principal cuello de botella.

arxiv arXiv cs.AI · hace 13 d

Lean como Oráculo de Recompensa Verificado por Proceso en RL para Demostración de Teoremas

Este trabajo muestra que Lean puede servir como un oráculo simbólico de proceso, proporcionando retroalimentación fina y verificada durante el aprendizaje por refuerzo. Al analizar los intentos de demostración en secuencias de tácticas y usar la elaboración de Lean para marcar pasos válidos y primeros fallos, el sistema genera señales de recompensa densas basadas en teoría de tipos. Los experimentos demuestran que la supervisión a nivel de táctica supera a los métodos solo de resultado en benchmarks como MiniF2F y ProofNet, destacando el papel de Lean tanto como evaluador como fuente de recompensa de entrenamiento.

arxiv arXiv cs.AI · hace 13 d

Modelos de base EEG para la detección de supresión por ráfagas en UCI

Un estudio evalúa Modelos de base EEG para la detección de supresión por ráfagas basada en eventos en entornos de UCI sin calibración específica del paciente. REVE-base logró la puntuación F1 basada en eventos más alta de 0.868 y redujo el error de ráfagas por minuto en un 52.1% en comparación con EEGNet y un 36.2% en comparación con la umbralización adaptativa, demostrando un rendimiento superior. Los resultados de ablation muestran que el ajuste fino completo supera a otras estrategias, y REVE-base preentrenado supera la inicialización aleatoria por 0.723 puntos F1 con el 25% de datos etiquetados, destacando el valor del preentrenamiento para conjuntos de datos limitados.

arxiv arXiv cs.AI · hace 13 d

Fusión global aprendible para tokenización de longitud variable en Transformers de difusión

Un nuevo tokenizador de longitud variable utiliza fusión global aprendible para permitir la alineación de representaciones entre longitudes en modelos de difusión. Este enfoque independiente de los datos supera la semántica dependiente de la posición y mejora el equilibrio entre calidad y costo computacional en la generación de ImageNet 256×256 en comparación con métodos anteriores.

arxiv arXiv cs.AI · hace 13 d

Evolución oculta del contexto visual disfrazado en VLMs

Los tokens visuales ingresan a los modelos de lenguaje grandes como señales crudas y no estructuradas. Su transformación e integración internas dependen de la arquitectura, ya sea como prompts in-context o inyectados en capas intermedias, lo que conduce a distintas trayectorias evolutivas en la representación visual y las características de frecuencia. Encontramos que la atención por sí sola es insuficiente; el rendimiento está impulsado por la calidad de las representaciones visuales en cada capa a través de diferentes paradigmas de integración.