Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 130

Atención de Álgebra de Lie: Tokens de Elementos de Grupo en Redes Neuronales

La Atención de Álgebra de Lie introduce tokens de atención como elementos del grupo de Lie matricial, utilizando la norma algebraica en forma cerrada de las poses relativas como puntuaciones de atención. Este método logra atención invariante y equivariante sin componentes teóricos de representación, superando a las líneas base de tokens vectoriales en SE(2), SO(3) y Aff(2) con menos parámetros y sin núcleos aprendidos.

arxiv arXiv cs.LG · hace 13 d

Multicalibración determinista con complejidad de muestra óptima

Un nuevo algoritmo alcanza la complejidad de muestra minimax-óptima para multicalibración utilizando predictores deterministas, resolviendo un problema abierto de larga data. El método también produce predictores deterministas que satisfacen la indistinguibilidad de resultados y permite omnipredictores y panpredictores deterministas óptimos, abordando preguntas abiertas de trabajos previos.

arxiv arXiv cs.LG · hace 13 d

UNIEGO: Representación egocéntrica unificada mediada por proxy

UNIEGO introduce un marco de destilación jerárquica multi-profesor que utiliza modelos proxy para mediar la transferencia de conocimiento desde nueve profesores diversos en puntos de vista y modalidades. La etapa de Destilación de Proxy Selectiva (SPD) selecciona adaptativamente proxies confiables durante el entrenamiento, mejorando la calidad y estabilidad de la representación. UNIEGO logra resultados de vanguardia en reconocimiento de acciones, recuperación de video y segmentación de acción en benchmarks ego-exo.

arxiv arXiv cs.LG · hace 13 d

¿Qué tan transparente es DiffusionGemma?

DiffusionGemma tiene una transparencia de variables deficiente debido a su alta profundidad serial opaca, pero esto puede mitigarse mediante un cuello de botella de tokens interpretable, reduciendo la profundidad serial a 1.1X la de Gemma 4. La transparencia algorítmica es más desafiante en los modelos de difusión debido a los cambios dinámicos de tokens, aunque los estudios de caso revelan fenómenos novedosos como el razonamiento no cronológico y el razonamiento con contexto intermedio. Se encuentra que DiffusionGemma es monitoreable de manera similar a Gemma 4.

arxiv arXiv cs.CL · hace 13 d

El conjunto de datos RefRad2D permite la fundamentación espacial escalable en radiología

RefRad2D es un conjunto de datos bilingüe a gran escala de 1.2M pares de imagen-texto de TC y RM de la práctica clínica. Entrenado con estos datos, RadGrounder logra resultados competitivos en VQA y realiza fundamentación espacial sin degradar la calidad del lenguaje, permitiendo salidas verificables en radiología.

arxiv arXiv cs.CL · hace 13 d

Alineación de LLM usando retroalimentación implícita del usuario

Un nuevo conjunto de datos, IFLLM, recopila trayectorias del ratón y datos de fijación ocular de usuarios que interactúan con LLMs. Muestra que la retroalimentación implícita mejora significativamente la alineación de LLMs, aumentando la precisión del modelo de recompensa basado en texto del 55% al 64% y casi triplicando las mejoras en la calidad de respuesta después del entrenamiento DPO en ocho LLMs.

arxiv arXiv cs.CL · hace 13 d

H-RePlan: Recuperación jerárquica para sistemas de agentes multi-dispositivo

H-RePlan introduce un marco de replanificación jerárquica que separa la recuperación de estrategias locales del dispositivo de la replanificación global del orquestador. Supera a las líneas base existentes al lograr una mayor tasa de finalización y adherencia a las instrucciones, con menor costo en tokens, mediante una recuperación consciente del alcance en sistemas de agentes multi-dispositivo.

arxiv arXiv cs.CL · hace 13 d

StylisticBias: Las pistas visuales impulsan la mayoría de los sesgos sociales en MLLMs

StylisticBias introduce una prueba controlada para evaluar el sesgo social a nivel de atributos en modelos de lenguaje multimodales grandes. Revela que la edad y el tipo de cuerpo dominan los efectos a nivel de identidad, mientras que el estilo de moda y 15 atributos visuales clave impulsan la mayoría del sesgo, representando casi el 80% de la variación. La prueba destaca que los juicios del modelo son más sensibles a las pistas relacionadas con la apariencia, especialmente en contextos socioeconómicos y basados en estilo.

arxiv arXiv cs.CL · hace 13 d

LedgerAgent: Estado estructurado para agentes de llamada a herramientas adherentes a la política

LedgerAgent introduce un libro contable estructurado para mantener los estados de las tareas separados en agentes que llaman a herramientas. Convierte estos estados en prompts y aplica restricciones de políticas antes de la ejecución de las herramientas, reduciendo las violaciones de políticas y mejorando el rendimiento en dominios de atención al cliente.

media r/LocalLLaMA · hace 13 d

Experimento de viabilidad con Tesla P40 y diseño de refrigeración mejorado

Un usuario ha demostrado que las GPUs Tesla P40 pueden modificarse a una configuración de 8+6 pines y utilizarse con disipadores estándar de la 1080 TI. Diseñó un deflector de flujo de aire 2-1-2 que permite un rendimiento sostenido estable de 120-130W, previene el apagado térmico y reduce el ruido a aproximadamente 42dB, mejorando significativamente sobre las opciones de refrigeración existentes.

github llama.cpp · hace 13 d

llama.cpp libera b9711: nuevos binarios y actualizaciones

llama.cpp lanza la versión b9711 con binarios actualizados para macOS, Linux, Android, Windows y openEuler. La liberación incluye soporte para ARM64, x64, Vulkan, ROCm, OpenVINO, SYCL e HIP, con binarios dedicados para aceleración de CPU y GPU. También está disponible un nuevo paquete de interfaz de usuario.

github llama.cpp · hace 13 d

llama.cpp libera b9712 que corrige la compilación de la UI con código fuente de solo lectura

La versión b9712 de llama.cpp incluye una corrección para problemas de compilación de la UI causados por archivos de código fuente de solo lectura. El lanzamiento proporciona binarios precompilados para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas y opciones de aceleración de hardware, incluyendo Vulkan, CUDA, OpenVINO y SYCL.

media r/LocalLLaMA · hace 13 d

¿SETI @ Home como motor de inferencia LLM distribuido?

SETI @ Home es un proyecto que utiliza computación distribuida para el análisis de datos de radiotelescopios. No se conoce ningún sistema existente que funcione como un motor de inferencia LLM distribuido bajo este nombre. La propuesta sugiere que tal sistema podría construirse, pero sigue siendo especulativo y no implementado.

arxiv arXiv cs.AI · hace 13 d

Agente Economista de IA: Marco de Análisis Económico Basado en Modelos

El Agente Economista de IA utiliza RAG, grafos de conocimiento y LLMs para generar narrativas económicas fundamentadas en teoría y datos. Permite análisis basado en modelos, recuperación de evidencia y generación de informes, asegurando coherencia económica y trazabilidad a través de cálculos explícitos del modelo.

arxiv arXiv cs.AI · hace 13 d

See-and-Reach: Navegación de visión-lenguaje para UAVs en el campo de visión

UAV-VLN-FOV aísla la etapa de ver-y-alcanzar para una evaluación precisa de la navegación de UAV. 3DG-VLN mejora la fundamentación visual y la alineación espacial utilizando pistas de dirección 3D dinámicas, logrando una mejora del 13.82% en la tasa de éxito sobre las líneas base y validado en pruebas del mundo real.

arxiv arXiv cs.AI · hace 13 d

El Administrador de Tareas Reduce la Latencia de Cola en un 14-75% a Escala Empresarial

Un Administrador de Tareas introduce inferencia de prioridad, fusión de eventos relacionados y preempción para habilitar la operación continua en IA empresarial. Reduce la latencia de colas de alta prioridad entre un 14-77% y mejora la corrección de eventos relacionados en más de 20 puntos porcentuales a escala empresarial, abordando el ruido del descubrimiento de agentes como el principal cuello de botella.

arxiv arXiv cs.AI · hace 13 d

Lean como Oráculo de Recompensa Verificado por Proceso en RL para Demostración de Teoremas

Este trabajo muestra que Lean puede servir como un oráculo simbólico de proceso, proporcionando retroalimentación fina y verificada durante el aprendizaje por refuerzo. Al analizar los intentos de demostración en secuencias de tácticas y usar la elaboración de Lean para marcar pasos válidos y primeros fallos, el sistema genera señales de recompensa densas basadas en teoría de tipos. Los experimentos demuestran que la supervisión a nivel de táctica supera a los métodos solo de resultado en benchmarks como MiniF2F y ProofNet, destacando el papel de Lean tanto como evaluador como fuente de recompensa de entrenamiento.

arxiv arXiv cs.AI · hace 13 d

Modelos de base EEG para la detección de supresión por ráfagas en UCI

Un estudio evalúa Modelos de base EEG para la detección de supresión por ráfagas basada en eventos en entornos de UCI sin calibración específica del paciente. REVE-base logró la puntuación F1 basada en eventos más alta de 0.868 y redujo el error de ráfagas por minuto en un 52.1% en comparación con EEGNet y un 36.2% en comparación con la umbralización adaptativa, demostrando un rendimiento superior. Los resultados de ablation muestran que el ajuste fino completo supera a otras estrategias, y REVE-base preentrenado supera la inicialización aleatoria por 0.723 puntos F1 con el 25% de datos etiquetados, destacando el valor del preentrenamiento para conjuntos de datos limitados.

arxiv arXiv cs.AI · hace 13 d

Fusión global aprendible para tokenización de longitud variable en Transformers de difusión

Un nuevo tokenizador de longitud variable utiliza fusión global aprendible para permitir la alineación de representaciones entre longitudes en modelos de difusión. Este enfoque independiente de los datos supera la semántica dependiente de la posición y mejora el equilibrio entre calidad y costo computacional en la generación de ImageNet 256×256 en comparación con métodos anteriores.

arxiv arXiv cs.AI · hace 13 d

Evolución oculta del contexto visual disfrazado en VLMs

Los tokens visuales ingresan a los modelos de lenguaje grandes como señales crudas y no estructuradas. Su transformación e integración internas dependen de la arquitectura, ya sea como prompts in-context o inyectados en capas intermedias, lo que conduce a distintas trayectorias evolutivas en la representación visual y las características de frecuencia. Encontramos que la atención por sí sola es insuficiente; el rendimiento está impulsado por la calidad de las representaciones visuales en cada capa a través de diferentes paradigmas de integración.