Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 128

Marco de LLM Agente para Clasificación de Código HTS

Se propone un marco de modelo de lenguaje grande agente basado en consenso para la clasificación precisa de códigos del Arancel Armonizado de 10 dígitos en la logística marítima canadiense. Evaluado en 3,300 registros de productos etiquetados por expertos, el marco muestra que la clasificación HTS de gran detalle sigue siendo un desafío para los LLM avanzados, destacando la necesidad de flujos de trabajo fundamentados en evidencia, conscientes de la incertidumbre y con humanos en el bucle.

arxiv arXiv cs.AI · hace 15 d

Progreso habilitado por IA en Menús Estables de Bienes Públicos

Los experimentos sobre los 'Menús Estables de Bienes Públicos' de EC 2025 muestran que las indicaciones de intuición humana mejoran el rendimiento del LLM y las interacciones multi-turno potencian pasos ambiciosos. Sin embargo, al compararse con un estudiante de primer año de doctorado que utiliza un manuscrito no publicado, se encuentra que el LLM es ligeramente menos efectivo.

arxiv arXiv cs.AI · hace 15 d

PACT: Deliberación de Modelos de Lenguaje Pequeños para Aprendizaje por Refuerzo Reactivo

PACT combina una política de RL reactiva con un Modelo de Lenguaje Pequeño (SLM) de 2B parámetros para generar y validar planes de acción. El plan SLM se ejecuta directamente si se verifica como seguro, factible y completo, omitiendo la política de RL. PACT supera a las líneas base en tres entornos FrozenLake de dificultad creciente.

arxiv arXiv cs.AI · hace 15 d

ActiveSAM: Segmentación de vocabulario abierto rápida y precisa

ActiveSAM es un marco sin entrenamiento y zero-shot que mejora SAM 3 para la segmentación semántica de vocabulario abierto identificando un conjunto activo de clases condicionado por imagen. Mejora el equilibrio entre velocidad y precisión, superando a SegEarth-OV3 en +1.4 mIoU en promedio y ejecutándose hasta 5.5 veces más rápido en conjuntos de datos de gran vocabulario, con una fuerte robustez bajo corrupción de imágenes.

arxiv arXiv cs.AI · hace 15 d

Las auditorías bayesianas revelan plazos inconsistentes en la evaluación de IA

Los archivos públicos de evaluación de IA muestran que un único resultado terminal puede surgir de dos historias pre-terminales distintas, con tiempos estimados para alcanzar el 95% de los techos de rendimiento en 23.03 o 75.13. Un modelo de frontera consciente de la selección de candidatos falla en la recuperación sintética y la calibración de incertidumbre, y es rechazado por puertas de auditoría fijas. Un protocolo de archivo y adjudicación verifica los límites temporales y refuta las afirmaciones de frontera no respaldadas.

arxiv arXiv cs.AI · hace 15 d

TuneJury: Métrica abierta para la alineación de preferencias en la generación de música

TuneJury es un modelo de recompensa por pares a nivel de instancia que predice puntuaciones de preferencia musical a partir de indicaciones de texto y clips de audio. Está entrenado con datos diversos de preferencia humana y demuestra una fuerte capacidad de generalización, con calibración de anclaje que permite una alineación posterior eficiente para sistemas de generación de música.

arxiv arXiv cs.AI · hace 15 d

TokenPilot: Gestión de contexto eficiente en caché para agentes LLM

TokenPilot reduce los costos de inferencia entre un 61% y un 87% tanto en modos aislados como continuos, superando a sistemas anteriores en eficiencia de costos mientras mantiene un rendimiento competitivo. Utiliza compactación consciente de la ingestión y evicción consciente del ciclo de vida para preservar la continuidad de la caché de prompts y minimizar la huella de tokens sin introducir desajustes de prefijo.

arxiv arXiv cs.AI · hace 15 d

FusionRS: Primer conjunto de datos a gran escala de teledetección RGB-infrarrojo

FusionRS presenta el primer conjunto de datos a gran escala RGB-infrarrojo-texto para la modelización de visión-lenguaje en teledetección. Alinea imágenes RGB e infrarrojas con descripciones conscientes del infrarrojo, permitiendo modelos de base de visión-lenguaje bimodales. Los experimentos muestran una mejora en la alineación RGB-IR, recuperación y generación de descripciones, con estudios de ablación que confirman el papel crítico de la supervisión textual específica de la modalidad.

arxiv arXiv cs.AI · hace 15 d

HAMON: Pronóstico óptico pasivo para series temporales de largo plazo

HAMON utiliza componentes ópticos pasivos para realizar pronósticos de series temporales de largo plazo, superando a los mejores modelos digitales en ETTm2 en todos los horizontes y en ETTh2 en todos excepto el horizonte más largo. Logra hasta un 14% menos de MSE y se basa en la propagación óptica física sin capas digitales entrenables, demostrando que la mezcla óptica pasiva puede producir pronósticos competitivos.

arxiv arXiv cs.AI · hace 15 d

Fase en Representaciones Neuronales: Una Prueba Interna de Oppenheim-Lim

Los clasificadores de imágenes como PRISM2D, GFNet y ViT-B/16 muestran que la fase, no la magnitud, impulsa las predicciones en las capas ocultas. ResNet-50 revela un código de signo latente en los bloques tardíos, indicando que la identidad de fase/signo existe a través de las arquitecturas, aunque se expresa de manera diferente debido a los mecanismos de activación y lectura.

media Latent Space · hace 15 d

Satya Nadella sobre Loopcraft y ecosistemas de vanguardia

El CEO de Microsoft, Satya Nadella, presenta 'Loopcraft' como una nueva teoría de la empresa, enfatizando que la verdadera oportunidad en la IA no radica en seleccionar el mejor modelo, sino en construir bucles de aprendizaje que acumulen capital humano y de tokens. Afirma que la prioridad debe ser crear ecosistemas de vanguardia donde cada organización pueda poseer y desarrollar su conocimiento institucional, permitiendo un amplio flujo de valor a través de industrias y países.

media r/LocalLLaMA · hace 15 d

Qwable-v1 lanzado como destilación de Claude Fable-5

Qwable-v1, un modelo de pesos abiertos destilado a partir de Fable-5 de Anthropic, ya está disponible públicamente en Hugging Face. Captura 4.659 rastros de codificación agéntica en texto claro del corpus público de Fable-5 y emite llamadas XML <tool_use> correctamente formateadas a herramientas al estilo de Claude, reflejando la superficie original de herramientas en sus pesos.

media r/LocalLLaMA · hace 15 d

vLLM lanza un nuevo analizador de transmisión para Qwen3+ en la versión nocturna

vLLM ha introducido un nuevo analizador de transmisión para Qwen3+ disponible en su compilación nocturna, abordando problemas como la detención intermedia y las llamadas a herramientas de transmisión fallidas debido a los límites de fragmentos. La actualización reportedly resuelve estos problemas en pruebas limitadas, mejorando la fiabilidad para flujos de trabajo agénticos.

media r/LocalLLaMA · hace 15 d

HalBench evalúa 29 modelos de código abierto en sicolofía y alucinación

HalBench evalúa 29 LLMs de código abierto en un benchmark personalizado para sicolofía y alucinación. Qwen 3.6 y Gemma 4 superan a modelos más grandes, con Qwen 3.6 logrando un 36.6% de resistencia—más alto que GPT-5.4 y Gemini 3.1 Pro. El tamaño del modelo no se correlaciona con respuestas honestas, lo que indica que la arquitectura y los datos de entrenamiento importan más que los parámetros.

blog Simon Willison · hace 15 d

El CAPTCHA de Cloudflare se activa solo para búsquedas con ampersand

Simon Willison configuró el CAPTCHA de Cloudflare para que se active únicamente en consultas de búsqueda que contengan al menos una ampersand. La regla utiliza un filtro personalizado: (http.request.uri.path wildcard r"/search/*" and http.request.uri.query contains "&"). Esto permite que búsquedas simples como /search/?q=lemur pasen sin CAPTCHA.

media r/LocalLLaMA · hace 15 d

Gemma3 270M Model Released on Reddit

Un usuario publicó una imagen del modelo Gemma3 270M en el subreddit r/LocalLLaMA. La publicación incluye un enlace a la imagen y a la sección de comentarios, lo que indica discusión comunitaria alrededor del modelo.

blog Simon Willison · hace 15 d

datasette-agent 0.3a0 se lanza con aprobación del usuario para operaciones de escritura en SQL

datasette-agent 0.3a0 introduce la herramienta execute_write_sql que solicita a los usuarios antes de escribir en las bases de datos, asegurando que se respeten las comprobaciones de permisos. La actualización también mejora el chat del agente datasette con soporte para aprobación del usuario, nuevas opciones de comando como --unsafe para autoaprobación y salidas de herramientas en texto plano para la visualización en CLI.