Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 51

SVD-Surgeon: Cirugía óptima de valores singulares para compresión de LLM

SVD-Surgeon es un método sin entrenamiento que aplica el marco Optimal Brain Surgeon a la descomposición en valores singulares. Calcula una actualización de forma cerrada para los valores singulares retenidos con el fin de compensar la truncación, mejorando la relación entre perplexidad y compresión en los modelos OPT y LLaMA 2-7B sin necesidad de reentrenamiento.

arxiv arXiv cs.CL · hace 1 h En vivo

La conciencia de evaluación es multivariada, no una capacidad única

Los modelos de lenguaje abiertos muestran que la conciencia de evaluación no es un rasgo unificado. Ocho experimentos en 37 modelos revelan que la detección, los cambios en el comportamiento de seguridad y la estabilidad de las representaciones varían independientemente, con solo correlaciones débiles entre ellas. Esto socava la idea de una puntuación única de conciencia como indicador fiable de la seguridad en el despliegue, destacando la 'ilusión del benchmark'.

arxiv arXiv cs.CL · hace 1 h En vivo

EnterpriseClawBench: Se lanza el benchmark de agentes del mundo real

EnterpriseClawBench es un benchmark construido a partir de sesiones reales en el lugar de trabajo, con 852 tareas reproducibles y metadatos detallados. La mejor configuración logra solo 0.663 (Codex con GPT-5.5), lo que resalta la necesidad de una evaluación multidimensional de los agentes empresariales.

arxiv arXiv cs.CL · hace 1 h En vivo

Los Modelos de Lenguaje Afilados Mejoran el Rendimiento

Los Modelos de Lenguaje Afilados (TLMs) asignan más parámetros a las capas iniciales y menos a las posteriores, reduciendo la perplejidad y mejorando el rendimiento en benchmarks a través de arquitecturas. Esta asignación de capacidad consciente de la profundidad mejora las salidas de los modelos de lenguaje sin añadir cómputo ni parámetros, ofreciendo un principio de diseño simple y universal.

arxiv arXiv cs.CL · hace 1 h En vivo

Los LLMs fallan al autoinformar de manera confiable los prefijos adversarios

Ningún modelo de lenguaje grande detecta de manera confiable cuándo sus respuestas fueron influenciadas por ataques de prefijo adversario. Las señales introspectivas son más fuertes en el razonamiento relacionado con la seguridad, pero dependen de la sonda y pueden amplificarse mediante el ajuste fino con LoRA, lo que paradójicamente aumenta las tasas de éxito del ataque.

arxiv arXiv cs.CL · hace 1 h En vivo

YaRN aleatorizado mejora la generalización de longitud para el razonamiento de contexto largo

YaRN aleatorizado mejora el razonamiento de contexto largo combinando la extrapolación posicional de YaRN con codificación posicional aleatorizada y un currículo de longitud. Supera al ajuste fino estándar en benchmarks como BABILong y MRCR, mostrando ganancias significativas en longitudes de contexto muy fuera de distribución.

media r/LocalLLaMA · hace 1 h En vivo

¿Es Sakana Fugu solo un experimento de CI?

Una publicación en Reddit cuestiona si Sakana Fugu es simplemente un envoltorio de orquestación en lugar de un modelo de IA genuino, sugiriendo que puede ser percibido como un asesino de Mythos 5 debido a implicaciones engañosas. La publicación plantea preocupaciones sobre los usuarios que malinterpretan sus capacidades.

media r/LocalLLaMA · hace 1 h En vivo

El modelo GGUF MiniMax M3 EAGLE3 ahora es compatible con llama.cpp

El decodificador MiniMax M3 EAGLE3 ha sido convertido al formato GGUF y ahora es compatible con llama.cpp. Las pruebas en un sistema de 2x3090, 128GB con cuantización UD-Q2_K_XL mostraron que el rendimiento mejoró de 2.3 a 5 tokens por segundo usando --fit y manteniendo el modelo en VRAM.

media r/LocalLLaMA · hace 1 h En vivo

100 t/s en Qwen3.6-27B Q8 entre 5090 + 3090 Ti con modo de división tensorial

Un usuario logró 100 tokens por segundo en Qwen3.6-27B a Q8_0 usando dos GPUs (RTX 5090 y RTX 3090 Ti). Cambiar de división por capa a modo de división tensorial aumentó el rendimiento de 70 a 100 t/s, con una división tensorial 70/30 que favorece a la 5090 para igualar la potencia de cómputo. El rendimiento varía según el prompt, alcanzando hasta 130 t/s en algunos casos.

media r/LocalLLaMA · hace 1 h En vivo

Limitaciones de la GPU Intel Arc B70 expuestas

La Intel Arc B70 ofrece una relación calidad-precio decente con 32GB de VRAM, pero no admite ejecutar dos GPUs en paralelo bajo ningún marco de software. Más allá de los 32GB de VRAM, el rendimiento cae a velocidades de inferencia a nivel de CPU, lo que la hace impráctica para cargas de trabajo de alta demanda.

media r/LocalLLaMA · hace 1 h En vivo

Boogu-Image-0.1: Serie de modelos unificados de generación y edición de imágenes de código abierto

Boogu-Image-0.1 es una familia de modelos unificados de generación y edición de imágenes de código abierto con licencia Apache-2.0, que incluye variantes Base, Turbo y Edit. Ofrece generación de texto a imagen de alta calidad, generación rápida, edición de imágenes y una sólida renderización de texto en chino e inglés, con un volumen de datos de entrenamiento aproximadamente una orden de magnitud menor que el de los sistemas propietarios, pero logrando un rendimiento competitivo gracias a la mejora en la comprensión del modelo y la calidad de los datos.

media r/LocalLLaMA · hace 1 h En vivo

El Reglamento de IA de la UE exige marcas de agua en textos generados por IA desde agosto de 2024

El Reglamento de IA de la UE requiere que todos los sistemas de IA que generen texto sintético incluyan marcas de agua legibles por máquina y detectables, utilizando soluciones técnicas robustas e interoperables con dos capas. Esto se aplica a todos los modelos de IA, incluidos los de código abierto, y se extiende a cualquier servicio accesible por ciudadanos de la UE, independientemente de su ubicación. El incumplimiento conlleva multas de hasta 35 millones de euros o un porcentaje de los ingresos anuales, y los proveedores de modelos de IA de 'riesgo sistémico' enfrentan una mayor responsabilidad.

media r/LocalLLaMA · hace 1 h En vivo

¿Quién necesita GPUs? Generación de 64 t/s, 285 PP en CPUs de hace 6 años

Un modelo gemma-4-26B-A4B ejecutándose solo en CPU con dos procesadores Xeon 6248R logra 64 tokens por segundo de generación y 285 procesamiento paralelo, demostrando un rendimiento viable en hardware de hace 6 años. El usuario destaca el potencial de los LLMs locales optimizados para CPU para rivalizar con sistemas basados en GPU, enfatizando la eficiencia de costos y la accesibilidad.

media r/LocalLLaMA · hace 1 h En vivo

SK Hynix retrasa el cambio a HBM4 para impulsar la producción de DRAM

SK Hynix está retrasando la conversión de algunas líneas de producción de HBM de quinta generación (HBM3E) hacia HBM4. La empresa tiene como objetivo redirigir la capacidad hacia DRAM de propósito general, que actualmente ofrece márgenes de beneficio operativo más altos, para mejorar los ingresos y la respuesta del mercado.

arxiv arXiv cs.CL · hace 1 h En vivo

Los Q-Sorts Simétricos Miden la Alineación de Valores-Estructura en LLMs

Un nuevo marco utiliza Q-sorts simétricos humano-LLM para evaluar cómo los modelos de lenguaje grandes se alinean estructuralmente con los valores morales. Al comparar clasificaciones de 140 declaraciones morales entre 12 LLMs y una muestra de referencia humana, el estudio identifica heterogeneidad trans-familiar e inalineaciones localizadas, mostrando que las puntuaciones globales de rendimiento pueden ocultar defectos estructurales. Los resultados destacan la necesidad de evaluaciones estructurales para complementar los benchmarks morales tradicionales a nivel de ítem.

arxiv arXiv cs.CL · hace 1 h En vivo

CapRiCorn-1K: Benchmark para la descripción de vídeo y consistencia del sujeto

CapRiCorn-1K es un benchmark que evalúa la calidad de la descripción de vídeo y la consistencia referencial del sujeto a través de diferentes duraciones y dominios de vídeo. Admite configuraciones tanto audiovisuales como solo visuales, revelando que los modelos actuales tienen dificultades para mantener referencias consistentes del sujeto, especialmente en vídeos más largos, con una disminución de la calidad y la consistencia de las descripciones a medida que aumenta la duración del vídeo. Las métricas del benchmark muestran una fuerte alineación con tareas posteriores, validando su efectividad.

arxiv arXiv cs.CL · hace 1 h En vivo

¿Están mejorando realmente los modelos multilingües? Aislamiento de la verdadera transferencia interlingual

Una nueva métrica, el Puntaje de Transferencia Ajustada por Dificultad (HAT), aísla la verdadera transferencia interlingual separándola de las ganancias de precisión en el idioma fuente. El análisis de 20 modelos lingüísticos muestra que la transferencia en modelos pequeños no está rota, el progreso con el tamaño del modelo es más lento de lo esperado y se han producido mejoras claras con el tiempo.

arxiv arXiv cs.CL · hace 2 h

OpenBioRQ: Benchmark para la Fidelidad de la Investigación Biomédica Agéntica

OpenBioRQ introduce un benchmark de 12,553 preguntas de investigación biomédica sin resolver en 12 dominios, diseñado para probar la fidelidad y la abstención de los modelos agénticos. Evalúa los modelos en un entorno de uso de herramientas sin claves de respuesta, utilizando evidencia real de seguimiento en lugar de conocimiento paramétrico, y revela un colapso agéntico significativo en las preguntas más difíciles donde las herramientas ya no se utilizan a pesar de ser críticas.

arxiv arXiv cs.CL · hace 2 h

ViRGo: Enrutamiento adaptativo para recuperación visual y percepción global

ViRGo introduce un marco ligero que adapta la recuperación visual según la escala del objeto. Utiliza localización intrínseca y confianza semántica para enrutar entre percepción global, recuperación basada en parches y recuperación basada en atención, mejorando los compromisos entre precisión y eficiencia sin computación adicional.

arxiv arXiv cs.CL · hace 2 h

Moshi-Face: Diálogo dúplex completo con generación facial

Moshi-Face es el primer modelo de diálogo hablado dúplex completo que procesa conjuntamente entradas de audio y faciales, generando tanto habla como movimiento facial sincronizado. Utiliza un codec facial VQ-VAE para codificar y reconstruir mallas de cabeza 3D a partir de videos faciales en tokens faciales discretos, y un módulo Face Transformer para generar estos tokens de forma no autoregresiva con el fin de lograr una salida audiovisual en tiempo real. Los experimentos muestran que Moshi-Face logra una alineación audiovisual con baja latencia mientras mantiene la calidad original del diálogo.