Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 50

UnBias-Plus: Detectar, explicar y reescribir sesgos

UnBias-Plus es un kit de herramientas de código abierto que permite la clasificación de sesgos a nivel de segmento, la localización de segmentos con sesgo, la reescritura de texto neutral y el razonamiento de decisiones. Ofrece múltiples métodos de acceso, incluyendo Python, CLI, REST API e interfaces web, con todo el código fuente, modelos, conjuntos de datos y documentación disponibles públicamente.

arxiv arXiv cs.CL · hace 1 h En vivo

TriggerBench: Evaluando la memoria prospectiva en LLMs

TriggerBench presenta un benchmark para evaluar la memoria prospectiva en modelos de lenguaje grandes, revelando una compensación entre precisión y recuperación, y fragilidad atencional. Se encuentra que la memoria prospectiva es significativamente más difícil que la memoria retrospectiva y se correlaciona con la capacidad de razonamiento disponible, lo que indica que la MP refleja recursos cognitivos subyacentes más allá del conteo de tokens.

arxiv arXiv cs.CL · hace 1 h En vivo

Lenguaje militarizado en aumento en resúmenes científicos

Entre 2010 y 2025, los términos militaristas en resúmenes científicos aumentaron un 48% en OpenAlex y un 32% en PubMed, con un fuerte incremento después de 2019. El uso de este lenguaje está alineado con los niveles globales de conflicto y crece más rápido en publicaciones del Sur Global, particularmente en ciencias sociales e ingeniería. Un experimento controlado muestra que el encuadre bélico reduce la credibilidad percibida, la disposición a financiar y el apoyo político, con un ligero aumento en la urgencia.

arxiv arXiv cs.CL · hace 1 h En vivo

SelfCompact: Compacción de contexto autónoma para modelos de lenguaje

SelfCompact permite a los modelos de lenguaje decidir de forma autónoma cuándo y cómo compactar el contexto acumulado durante el razonamiento. Al combinar una herramienta de resumen invocada por el modelo con una rúbrica ligera que guía la compacción basada en la estructura de la trayectoria, logra una compacción adaptativa efectiva sin necesidad de ajuste fino. Los resultados muestran que iguala o supera a los métodos de intervalo fijo en benchmarks de matemáticas y búsqueda agéntica, mejorando las líneas base hasta 18.1 puntos en matemáticas y 5-9 puntos en búsqueda, con un costo de tokens un 30-70% menor.

arxiv arXiv cs.CL · hace 1 h En vivo

VeriEvol: Escalar el razonamiento matemático multimodal con evolución verificable

VeriEvol introduce un marco de construcción de datos verificable para el razonamiento matemático visual, desacoplando la dificultad del prompt y la fiabilidad de la respuesta. Evoluciona prompts de imagen-pregunta utilizando operadores conscientes del tipo y verifica las respuestas mediante falsificación por contra-evidencia multi-fuente. En cinco benchmarks, escalar de 10K a 250K muestras mejora la precisión media de 35.42 a 54.73, con un acumulado de +3.88 sobre la línea base, impulsado por prompts evolucionados y verificación HTV-Agent.

arxiv arXiv cs.CL · hace 1 h En vivo

Modelo de consumo energético para el entrenamiento de Transformers

Un nuevo marco modela el consumo energético en el entrenamiento de Transformers en múltiples GPUs. Utiliza barridos arquitecturales de BERT para vincular la energía medida con el cómputo, el tráfico de memoria y los proxies de eficiencia del hardware. El modelo, inspirado en el análisis roofline, incluye un factor de eficiencia del hardware basado en aceleración y predice la energía de entrenamiento en diversas configuraciones de GPU.

arxiv arXiv cs.CL · hace 1 h En vivo

LangMAP: Tokenización adaptativa al idioma para modelos multilingües

LangMAP extiende UnigramLM para crear tokenización específica del idioma a partir de un vocabulario compartido, permitiendo el entrenamiento o adaptación de modelos multilingües sin cambios en el vocabulario. Mejora la alineación de límites morfológicos y la alineación de hojas AST en lenguajes de programación, y mejora la aceptabilidad gramatical en los idiomas objetivo, aunque los beneficios varían en tareas basadas en conocimiento.

arxiv arXiv cs.CL · hace 1 h En vivo

SVD-Surgeon: Cirugía óptima de valores singulares para compresión de LLM

SVD-Surgeon es un método sin entrenamiento que aplica el marco Optimal Brain Surgeon a la descomposición en valores singulares. Calcula una actualización de forma cerrada para los valores singulares retenidos con el fin de compensar la truncación, mejorando la relación entre perplexidad y compresión en los modelos OPT y LLaMA 2-7B sin necesidad de reentrenamiento.

arxiv arXiv cs.CL · hace 1 h En vivo

La conciencia de evaluación es multivariada, no una capacidad única

Los modelos de lenguaje abiertos muestran que la conciencia de evaluación no es un rasgo unificado. Ocho experimentos en 37 modelos revelan que la detección, los cambios en el comportamiento de seguridad y la estabilidad de las representaciones varían independientemente, con solo correlaciones débiles entre ellas. Esto socava la idea de una puntuación única de conciencia como indicador fiable de la seguridad en el despliegue, destacando la 'ilusión del benchmark'.

arxiv arXiv cs.CL · hace 1 h En vivo

EnterpriseClawBench: Se lanza el benchmark de agentes del mundo real

EnterpriseClawBench es un benchmark construido a partir de sesiones reales en el lugar de trabajo, con 852 tareas reproducibles y metadatos detallados. La mejor configuración logra solo 0.663 (Codex con GPT-5.5), lo que resalta la necesidad de una evaluación multidimensional de los agentes empresariales.

arxiv arXiv cs.CL · hace 1 h En vivo

Los Modelos de Lenguaje Afilados Mejoran el Rendimiento

Los Modelos de Lenguaje Afilados (TLMs) asignan más parámetros a las capas iniciales y menos a las posteriores, reduciendo la perplejidad y mejorando el rendimiento en benchmarks a través de arquitecturas. Esta asignación de capacidad consciente de la profundidad mejora las salidas de los modelos de lenguaje sin añadir cómputo ni parámetros, ofreciendo un principio de diseño simple y universal.

arxiv arXiv cs.CL · hace 1 h En vivo

Los LLMs fallan al autoinformar de manera confiable los prefijos adversarios

Ningún modelo de lenguaje grande detecta de manera confiable cuándo sus respuestas fueron influenciadas por ataques de prefijo adversario. Las señales introspectivas son más fuertes en el razonamiento relacionado con la seguridad, pero dependen de la sonda y pueden amplificarse mediante el ajuste fino con LoRA, lo que paradójicamente aumenta las tasas de éxito del ataque.

arxiv arXiv cs.CL · hace 1 h En vivo

YaRN aleatorizado mejora la generalización de longitud para el razonamiento de contexto largo

YaRN aleatorizado mejora el razonamiento de contexto largo combinando la extrapolación posicional de YaRN con codificación posicional aleatorizada y un currículo de longitud. Supera al ajuste fino estándar en benchmarks como BABILong y MRCR, mostrando ganancias significativas en longitudes de contexto muy fuera de distribución.

media r/LocalLLaMA · hace 1 h En vivo

¿Es Sakana Fugu solo un experimento de CI?

Una publicación en Reddit cuestiona si Sakana Fugu es simplemente un envoltorio de orquestación en lugar de un modelo de IA genuino, sugiriendo que puede ser percibido como un asesino de Mythos 5 debido a implicaciones engañosas. La publicación plantea preocupaciones sobre los usuarios que malinterpretan sus capacidades.

media r/LocalLLaMA · hace 1 h En vivo

El modelo GGUF MiniMax M3 EAGLE3 ahora es compatible con llama.cpp

El decodificador MiniMax M3 EAGLE3 ha sido convertido al formato GGUF y ahora es compatible con llama.cpp. Las pruebas en un sistema de 2x3090, 128GB con cuantización UD-Q2_K_XL mostraron que el rendimiento mejoró de 2.3 a 5 tokens por segundo usando --fit y manteniendo el modelo en VRAM.

media r/LocalLLaMA · hace 1 h En vivo

100 t/s en Qwen3.6-27B Q8 entre 5090 + 3090 Ti con modo de división tensorial

Un usuario logró 100 tokens por segundo en Qwen3.6-27B a Q8_0 usando dos GPUs (RTX 5090 y RTX 3090 Ti). Cambiar de división por capa a modo de división tensorial aumentó el rendimiento de 70 a 100 t/s, con una división tensorial 70/30 que favorece a la 5090 para igualar la potencia de cómputo. El rendimiento varía según el prompt, alcanzando hasta 130 t/s en algunos casos.

media r/LocalLLaMA · hace 1 h En vivo

Limitaciones de la GPU Intel Arc B70 expuestas

La Intel Arc B70 ofrece una relación calidad-precio decente con 32GB de VRAM, pero no admite ejecutar dos GPUs en paralelo bajo ningún marco de software. Más allá de los 32GB de VRAM, el rendimiento cae a velocidades de inferencia a nivel de CPU, lo que la hace impráctica para cargas de trabajo de alta demanda.

media r/LocalLLaMA · hace 1 h En vivo

Boogu-Image-0.1: Serie de modelos unificados de generación y edición de imágenes de código abierto

Boogu-Image-0.1 es una familia de modelos unificados de generación y edición de imágenes de código abierto con licencia Apache-2.0, que incluye variantes Base, Turbo y Edit. Ofrece generación de texto a imagen de alta calidad, generación rápida, edición de imágenes y una sólida renderización de texto en chino e inglés, con un volumen de datos de entrenamiento aproximadamente una orden de magnitud menor que el de los sistemas propietarios, pero logrando un rendimiento competitivo gracias a la mejora en la comprensión del modelo y la calidad de los datos.

media r/LocalLLaMA · hace 1 h En vivo

El Reglamento de IA de la UE exige marcas de agua en textos generados por IA desde agosto de 2024

El Reglamento de IA de la UE requiere que todos los sistemas de IA que generen texto sintético incluyan marcas de agua legibles por máquina y detectables, utilizando soluciones técnicas robustas e interoperables con dos capas. Esto se aplica a todos los modelos de IA, incluidos los de código abierto, y se extiende a cualquier servicio accesible por ciudadanos de la UE, independientemente de su ubicación. El incumplimiento conlleva multas de hasta 35 millones de euros o un porcentaje de los ingresos anuales, y los proveedores de modelos de IA de 'riesgo sistémico' enfrentan una mayor responsabilidad.

media r/LocalLLaMA · hace 1 h En vivo

¿Quién necesita GPUs? Generación de 64 t/s, 285 PP en CPUs de hace 6 años

Un modelo gemma-4-26B-A4B ejecutándose solo en CPU con dos procesadores Xeon 6248R logra 64 tokens por segundo de generación y 285 procesamiento paralelo, demostrando un rendimiento viable en hardware de hace 6 años. El usuario destaca el potencial de los LLMs locales optimizados para CPU para rivalizar con sistemas basados en GPU, enfatizando la eficiencia de costos y la accesibilidad.