Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 49

VADAOrchestra: Orquestación neurosimbólica de flujos de trabajo de razonamiento adaptativo

VADAOrchestra introduce un marco neurosimbólico que combina la orquestación de flujos de trabajo basada en LLM con razonamiento simbólico Datalog+/-. Permite la toma de decisiones adaptativa y explicable mediante la planificación incremental de flujos de trabajo y la ejecución de inferencia lógica bajo demanda, ofreciendo auditabilidad, escalabilidad y verificabilidad en escenarios financieros del mundo real.

arxiv arXiv cs.CL · hace 2 h

Modulación Calibrada por Varianza para la Decodificación de LLM

VCM aborda la trampa de verosimilitud en la decodificación de modelos de lenguaje grandes introduciendo mecanismos dinámicos para remodelar las distribuciones de probabilidad. Mejora la diversidad, coherencia y precisión del razonamiento en generación abierta, QA factual y razonamiento matemático con una sobrecarga computacional mínima.

arxiv arXiv cs.CL · hace 2 h

Gazer: Corrección semántica sin entrenamiento para modelos visuales autoregresivos

Gazer introduce un marco de trabajo sin entrenamiento que utiliza retroalimentación de modelos de lenguaje grande multimodal para corregir errores semánticos en tiempo real durante la generación de modelos visuales autoregresivos. Al integrar etapas de diagnóstico reflexivo y corrección semántica, Gazer mejora la precisión composicional y la alineación semántica en múltiples modelos sin entrenamiento adicional.

arxiv arXiv cs.CL · hace 2 h

MacAgentBench lanza un benchmark de agentes de IA para macOS

MacAgentBench introduce un benchmark integral con 676 tareas en 25 aplicaciones, el 60% de las cuales involucran interacciones tanto de GUI como de CLI. Utiliza evaluación determinista basada en reglas y puntuación multi-punto de gran detalle, revelando que Claude Opus 4.6 en OpenClaw alcanza un 73.7% Pass@1, principalmente debido a su biblioteca de habilidades en lugar del diseño del framework.

arxiv arXiv cs.CL · hace 2 h

Cadena de Pensamiento Multimodal: Capacidades y Limitaciones

El razonamiento de Cadena de Pensamiento Multimodal mejora el rendimiento en razonamiento matemático y científico, pero perjudica la fundamentación visual y el conteo de objetos en tareas de percepción. Los modelos exhiben un patrón 'Mirar Ligero, Pensar Pesado', donde la reflexión visual disminuye mientras aumenta la reflexión verbal, lo que indica un cuello de botella persistente en el razonamiento visual.

arxiv arXiv cs.CL · hace 2 h

Aprendizaje de prompts con restricciones de conceptos para adaptación de CLIP con pocos ejemplos

CCPL introduce un marco ligero que ancla los prompts de clase a prototipos de conceptos congelados, mejorando la adaptación de CLIP con pocos ejemplos al reducir el sobreajuste. Logra un mejor rendimiento de base a nuevo en DTD y EuroSAT en comparación con CoOp, con ganancias consistentes gracias a la regularización de conceptos en el espacio de texto, mientras mantiene neutralidad en OxfordPets.

arxiv arXiv cs.CL · hace 2 h

Factores clave en RL para el razonamiento de LLM revelados

Un análisis teórico muestra que el grado off-policy, determinado por los pasos de gradiente por rollout, impacta significativamente las razones de muestreo de importancia y la dominancia de actualización de tokens. El estudio introduce Adaptive Clip Policy Optimization (ACPO), que ajusta los límites de recorte mediante la varianza del grupo de tokens, superando a DAPO y CISPO en modelos de 3B y 7B en tareas de razonamiento matemático, QA y lógico.

arxiv arXiv cs.CL · hace 2 h

Destilación y Ablación Consciente del Contexto para Text2DSL

Un nuevo sistema Text2DSL utiliza destilación consciente del contexto con un contexto estructurado de gramática BNF, especificación de API y vocabulario de identificadores cerrados. Los estudios de ablación muestran que el vocabulario tiene el mayor impacto en la calidad semántica, mientras que la API y la BNF mejoran significativamente la validez estructural, confirmando que el contexto estructurado es un componente crítico, no superficial.

arxiv arXiv cs.CL · hace 2 h

Los modelos de lenguaje pequeños superan a los LLM de vanguardia en extracción de relaciones

Un SLM de 300M parámetros ajustado finamente con datos de dominio general alcanza un micro-F1 de 0.83 en la extracción de relaciones de dominio general, superando a GPT-5.4 y Claude Sonnet 4.6 en modo zero-shot. En benchmarks literarios, el SLM alcanza 0.92 en el conjunto de datos Biográfico, superando a GPT-5.4 y excediendo a los modelos de vanguardia en promedio. Estos resultados demuestran que los modelos pequeños adaptados a la tarea pueden ofrecer un rendimiento preciso, privado y eficiente en hardware sin depender de modelos generativos a gran escala.

arxiv arXiv cs.CL · hace 2 h

Conjunto de datos y pipeline de OCR para la detección de signos cuneiformes a gran escala

Se presenta un nuevo conjunto de datos con 173 y 106 clases de signos, que permite un OCR cuneiforme de extremo a extremo. Un modelo basado en DETR logra una mejora del 28-37% sobre trabajos previos en métricas estilo COCO, detectando casi 2,9 millones de signos en 87.668 fragmentos de tablillas del corpus eBL.

media r/LocalLLaMA · hace 2 h

Los servidores MCP consumen la ventana de contexto mediante definiciones de herramientas

Cada servidor MCP volca su lista completa de herramientas en el contexto del modelo antes de cualquier prompt, utilizando hasta 24.000 tokens para 62 herramientas. Una puerta de enlace local que implementa descubrimiento perezoso reduce la sobrecarga de definición de herramientas en un 97%, disminuyendo el uso de tokens de ~24k a ~660 por solicitud, con un 90% menos de tokens totales durante una tarea, sin afectar la tasa de éxito de la tarea.

arxiv arXiv cs.CL · hace 2 h

Alineación de tema a marca de tiempo mediante selección de evidencia restringida

Un nuevo método mejora la alineación de tema a marca de tiempo en transcripciones de reuniones seleccionando evidencia con marca de tiempo en lugar de generar códigos de tiempo. En 420 consultas de transcripciones de reuniones municipales, aumenta el Recall@5 a 50.0%, reduce el MAE a 761.0 segundos y incrementa las salidas analizables de 373 a 419, demostrando que la calidad de la recuperación y el diseño de la salida son críticos.

arxiv arXiv cs.CL · hace 2 h

PeerCheck: Mejorando las revisiones académicas generadas por LLM

PeerCheck analiza las diferencias entre las revisiones académicas de LLM y humanas, descubriendo que los LLM se centran en la teoría mientras que los humanos priorizan la metodología y los experimentos. El marco utiliza ingeniería de prompts como Chain-of-Thought y generación aumentada por recuperación, con CoT mejorando significativamente la calidad de las revisiones, aunque RAG introduce un 'paradoja' inesperada que a veces reduce la calidad.

arxiv arXiv cs.CL · hace 2 h

El costo en tokens de la precisión epistémica en IA fundamentada en documentos

Un estudio compara la generación aumentada por recuperación (RAG) y el prompting de contexto largo en IA fundamentada en documentos. El prompting de contexto largo logra una mayor precisión epistémica —73,1 % frente a 65,4 %— pero con un costo en tokens por consulta 26 veces mayor, lo que destaca un impuesto significativo en tokens para un acceso probatorio más amplio.

arxiv arXiv cs.CL · hace 2 h

Árboles de historia: representaciones jerárquicas para narrativas extensas

Los árboles de historia proporcionan estructuras jerárquicas para narrativas extensas al segmentar capítulos en escenas e inferir capas narrativas mediante procedimientos descendentes y ascendentes. Estos árboles permiten una recuperación adaptativa, mejorando el rendimiento en preguntas y respuestas en tres benchmarks de narrativas de contexto largo en comparación con métodos base, con ganancias confirmadas a través de estudios de ablación.

arxiv arXiv cs.CL · hace 2 h

Memoria Personal Latente: Prompts Suaves Dinámicos para la Personalización de LLM

La Memoria Personal Latente (LPM) representa las memorias específicas del usuario como una matriz compacta y persistente de N ranuras latentes. Estas ranuras se mapean a través de una red de atención cruzada compartida en prompts suaves dinámicos condicionados por la entrada, que se antepone a un LLM congelado. LPM supera a LoRA y Prompt Tuning hasta en un 8.8% y 54.4% en PersonaMem v1, reduce el uso de KV-cache en más de 64x, iguala la precisión de LoRA en LoCoMo con 120x menos parámetros, y escala eficientemente con la longitud del contexto, superando al contexto completo a 128K tokens.

arxiv arXiv cs.CL · hace 2 h

Uso de artefactos internos de LLM para mejorar la fiabilidad de la clasificación legal

Este estudio explora el aprovechamiento de artefactos internos de modelos de lenguaje grandes para detectar predicciones incorrectas en tareas de clasificación legal. El enfoque utiliza características de estos artefactos para construir clasificadores que identifiquen salidas erróneas en las predicciones de decisiones de fianza y violaciones de estatutos. Los resultados muestran que los artefactos internos indican de manera confiable respuestas incorrectas, mejorando la fiabilidad general de los sistemas de clasificación legal basados en LLM.

arxiv arXiv cs.CL · hace 2 h

Comparación a nivel de token entre Transformers y modelos híbridos

Un estudio que utiliza Olmo 3 y Olmo Hybrid con pesos abiertos encuentra que los modelos híbridos superan a los transformers en palabras de contenido de clase abierta y delimitadores de apertura. Las ganancias son menos consistentes para las palabras funcionales de clase cerrada y los delimitadores de cierre, con los híbridos destacándose en tareas de estado semántico como la memoria de pronombres y el seguimiento de entidades, mientras que los transformers tienen un mejor rendimiento en tareas de emparejamiento de corchetes. Estos resultados sugieren que las capas recurrentes mejoran las predicciones conscientes del estado, mientras que la atención apoya el reconocimiento de patrones n-gramáticos y sintácticos.

arxiv arXiv cs.CL · hace 2 h

ViGiL3D++ permite la generación diversa de lenguaje para la localización visual 3D

ViGiL3D++ introduce un método escalable e independiente de la escena que genera consultas diversas de localización visual combinando el muestreo de restricciones en grafos de escena con la generación de lenguaje de modelos de lenguaje grandes. Supera a los modelos existentes en múltiples benchmarks de localización visual 3D y revela limitaciones clave de los modelos actuales de visión-lenguaje.

arxiv arXiv cs.CL · hace 2 h

LRE: Memoria de agente de pocos kilobytes con costo neuronal cero

LRE es un sistema solo de CPU, sin modelo de lenguaje, que aprende qué unidades del historial de interacción son fundamentales. Supera a las líneas base en el equilibrio entre precisión y costo, reduciendo el tamaño máximo del contexto hasta un 52% y mejorando la finalización de tareas en un 37% en algunos casos. LRE logra una calidad de respuesta superior con un 68% menos de tokens y no requiere anotaciones ni cómputo neuronal para el entrenamiento.