Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 122

Sobre la estabilidad del ranking de prompts en la evaluación de modelos de lenguaje grandes

Este artículo estudia sistemáticamente la estabilidad de los rankings de prompts bajo fuentes comunes de variabilidad, como semillas aleatorias y subconjuntos limitados de evaluación, en tres LLMs de peso abierto y dos tareas de benchmark.

arxiv arXiv cs.AI · hace 6 h

Explicación neural consistente en ciclo de certificados de verificación formal

Los investigadores proponen una arquitectura neural consistente en ciclo que genera explicaciones en lenguaje natural fieles para certificados de verificación formal, abordando la opacidad de estas pruebas verificables por máquina para no especialistas. El sistema alcanza una solidez verificada en ciclo del 90.0% en datos de prueba de un dominio de cumplimiento financiero, superando significativamente a las líneas base multi-LLM tanto en precisión como en velocidad de inferencia.

media r/LocalLLaMA · hace 6 h

Ornith 35B funciona razonablemente bien con el modelo especulativo Qwen3.6 35B DFlash

Un usuario reporta haber logrado un aumento del 30-40% en la velocidad de generación de tokens al emparejar el modelo Ornith-1.0-35B como modelo borrador con Qwen3.6-35B-A3B-DFlash usando llama-server.

arxiv arXiv cs.AI · hace 7 h

PHANTOM: Un conjunto de datos a gran escala de ataques adversarios multimodales para modelos de visión y lenguaje

Los investigadores han presentado PHANTOM, un conjunto de datos a gran escala y de código abierto que contiene 47.524 ataques adversarios pregenerados diseñados para evaluar la seguridad y robustez de los modelos de visión y lenguaje (VLMs). Este recurso consolida y amplía benchmarks anteriores al cubrir 10 categorías de alto nivel y 55 subcategorías de intenciones dañinas, con el objetivo de reducir las barreras computacionales para la investigación adversarial.

arxiv arXiv cs.AI · hace 7 h

Female-RHINO: Marco integrado en tiempo real con escáneres para análisis automatizado de RM uterina

Este artículo presenta Female-RHINO, un marco asistido por IA en tiempo real que se integra con escáneres de RM para realizar análisis cuantitativo automatizado del útero y generación de informes estructurados durante la adquisición de imágenes. El sistema combina modelos de aprendizaje profundo para segmentación y detección de puntos de referencia, derivando biomarcadores a partir de resonancias magnéticas pélvicas sagitales ponderadas en T2 sin interacción manual.

arxiv arXiv cs.AI · hace 7 h

Era de los LLM: Una prueba estratégica 1v1 para razonamiento, diplomacia y fiabilidad

Los autores presentan Age of LLM, una prueba 1v1 por turnos donde dos modelos de lenguaje grandes compiten en una cuadrícula de 13x7 para destruir la base enemiga bajo condiciones de niebla de guerra y diplomacia completa. Este motor privado mitiga la contaminación de datos mediante el uso de semillas de mapa aleatorias nuevas y oponentes distintos para cada partida.

arxiv arXiv cs.AI · hace 7 h

ATRIA: Informe de ECG trazable y adaptable con agentes iterativos

El artículo presenta ATRIA, un sistema multiagente para informes de ECG que aborda las limitaciones de los modelos existentes de extremo a extremo y de los agentes de paso único al reflejar el flujo de trabajo iterativo del clínico.

arxiv arXiv cs.AI · hace 7 h

Promedio de Clasificaciones Máscara de Optimalidad Por-Sujeto: Un Benchmark Friedman-Nemenyi de Decodificadores BCI de Imaginería Motora EEG

Este estudio evalúa si alguna única canalización de decodificación domina entre sujetos en interfaces cerebro-computadora de imaginación motora mediante la prueba de 1,056 configuraciones en tres conjuntos de datos públicos utilizando benchmarks estadísticos rigurosos.

arxiv arXiv cs.AI · hace 7 h

Resolución de entidades mediante consultas oracle por lotes

Este artículo aborda el problema de resolver entidades en conjuntos de datos grandes utilizando un oracle que agrupa registros en lotes limitados, con el objetivo de lograr un enfoque de pago por uso para controlar los costos mientras se maximiza la recuperación.

arxiv arXiv cs.AI · hace 7 h

IA Agéntica para la Optimización Bínivel de Largo Plazo en Sistemas de Capa Física Basados en Políticas

Este artículo presenta Agentic-LTPO, un marco de optimización bínivel anidado diseñado para abordar las limitaciones de los métodos de objetivo fijo en sistemas de capa física que enfrentan políticas de operador dinámicas y restricciones en tiempo real. El marco utiliza IA agéntica para generar configuraciones de nivel superior que traducen las políticas evolutivas y la experiencia histórica en problemas estructurados de nivel inferior para la toma de decisiones inmediata.

media r/LocalLLaMA · hace 7 h

Segundo Circuito: Una ONG por la libertad digital del pensamiento

Chris Tidesson anuncia la fundación de Second Circuit, una ONG dedicada a apoyar el uso autodeterminado de la IA y fomentar la adopción de software de código abierto entre gobiernos, empresas e individuos. La organización fue establecida originalmente en respuesta al incidente de ChatGPT 4o y actualmente opera una comunidad de Discord durante más de seis meses.

media r/LocalLLaMA · hace 7 h

sobre la declaración de Dario

Esta publicación de Reddit de la comunidad r/LocalLLaMA discute una declaración realizada por Dario Amodei. El contenido se limita al título y los metadatos, sin texto detallado ni análisis proporcionados en la fuente.

arxiv arXiv cs.AI · hace 7 h

¿Pueden los invariantes agregados acelerar la coincidencia continua de subgrafos? Límites, leyes y un índice espectral dinámico

Este estudio evalúa si el filtrado espectral puede acelerar la coincidencia continua de subgrafos (CSM) en grafos dinámicos, encontrando que, aunque el mantenimiento perezoso es ineficaz, el mantenimiento exacto selectivo ofrece ganancias significativas de rendimiento.

arxiv arXiv cs.AI · hace 7 h

Detección de agentes de codificación de IA en código abierto: un censo validado y multimétodo de 180 millones de repositorios

Un marco de detección multicapa que analiza 180 millones de repositorios Git revela que los métodos de señal única subestiman significativamente la prevalencia de agentes de codificación de IA generativa, omitiendo hasta el 97% de la actividad. El estudio identifica más de 320.000 commits por mes de agentes como Claude Code, que domina la adopción silenciosa a través de archivos de configuración en lugar de cuentas de bot.

arxiv arXiv cs.AI · hace 7 h

Comportamiento de transformación de imágenes en el espacio latente

Este artículo investiga cómo las transformaciones clásicas de imágenes afectan los embeddings en el espacio latente utilizando redes codificadoras de Lunit Inc., Bioptimus y Meta Research Team.

arxiv arXiv cs.AI · hace 7 h

MedPCFM: Mejora de la finalización de nubes de puntos médicos mediante la integración de Transformers de puntos y coincidencia de flujos

Este artículo presenta PCFM, un enfoque de coincidencia de flujos para la finalización de nubes de puntos médicas que integra Point Transformer v3 (PTv3) para abordar la modelación generativa insuficientemente estudiada en este dominio. El método se evalúa en los conjuntos de datos SkullFix, SkullBreak y Mandibular Defect frente a bases fuertes deterministas y de difusión.

arxiv arXiv cs.AI · hace 7 h

ReM-MoA: La memoria de razonamiento sostiene la escalabilidad de Mixture-of-Agents

Los autores proponen ReM-MoA, un marco de trabajo Mixture-of-Agents aumentado con memoria diseñado para sostener las ganancias de rendimiento a medida que aumenta la profundidad del modelo, abordando los problemas de degradación y saturación encontrados en variantes existentes. El sistema utiliza una Memoria de Razonamiento Clasificada y un esquema de Enrutamiento de Memoria Diversa Curada para preservar la diversidad de exploración mientras se propagan trazas de razonamiento de alta calidad a través de las capas.

arxiv arXiv cs.AI · hace 7 h

NoContactNoWorries: Estimación del contacto mediante visión y propiocepción para manipulación diestra en la mano

Los investigadores proponen NoContactNoWorries, un marco basado en transformadores que infiere estados de contacto binarios durante la manipulación en la mano fusionando visión RGB-D con propiocepción del robot. Este enfoque sirve como una señal pseudo-táctil escalable, evitando el costo y la fragilidad asociados con sensores táctiles de hardware dedicados.

arxiv arXiv cs.AI · hace 7 h

Control bayesiano para agentes de codificación

Este artículo presenta un controlador bayesiano para orquestar agentes de codificación modernos, abordando las limitaciones de los sistemas de reglas fijas que ignoran la incertidumbre durante el uso de herramientas.

media r/LocalLLaMA · hace 7 h

¿Qué pasó con Petals (Inferencia descentralizada) de BigScience?

El contenido fuente proporcionado es un enlace de publicación de Reddit y no contiene el texto del artículo ni los detalles de la discusión.