Todos los artículos
arxiv arXiv cs.CL · hace 1 h En vivo

UnBias-Plus: Detectar, explicar y reescribir sesgos

UnBias-Plus es un kit de herramientas de código abierto que permite la clasificación de sesgos a nivel de segmento, la localización de segmentos con sesgo, la reescritura de texto neutral y el razonamiento de decisiones. Ofrece múltiples métodos de acceso, incluyendo Python, CLI, REST API e interfaces web, con todo el código fuente, modelos, conjuntos de datos y documentación disponibles públicamente.

arxiv arXiv cs.CL · hace 1 h En vivo

TriggerBench: Evaluando la memoria prospectiva en LLMs

TriggerBench presenta un benchmark para evaluar la memoria prospectiva en modelos de lenguaje grandes, revelando una compensación entre precisión y recuperación, y fragilidad atencional. Se encuentra que la memoria prospectiva es significativamente más difícil que la memoria retrospectiva y se correlaciona con la capacidad de razonamiento disponible, lo que indica que la MP refleja recursos cognitivos subyacentes más allá del conteo de tokens.

arxiv arXiv cs.CL · hace 1 h En vivo

Lenguaje militarizado en aumento en resúmenes científicos

Entre 2010 y 2025, los términos militaristas en resúmenes científicos aumentaron un 48% en OpenAlex y un 32% en PubMed, con un fuerte incremento después de 2019. El uso de este lenguaje está alineado con los niveles globales de conflicto y crece más rápido en publicaciones del Sur Global, particularmente en ciencias sociales e ingeniería. Un experimento controlado muestra que el encuadre bélico reduce la credibilidad percibida, la disposición a financiar y el apoyo político, con un ligero aumento en la urgencia.

arxiv arXiv cs.CL · hace 1 h En vivo

SelfCompact: Compacción de contexto autónoma para modelos de lenguaje

SelfCompact permite a los modelos de lenguaje decidir de forma autónoma cuándo y cómo compactar el contexto acumulado durante el razonamiento. Al combinar una herramienta de resumen invocada por el modelo con una rúbrica ligera que guía la compacción basada en la estructura de la trayectoria, logra una compacción adaptativa efectiva sin necesidad de ajuste fino. Los resultados muestran que iguala o supera a los métodos de intervalo fijo en benchmarks de matemáticas y búsqueda agéntica, mejorando las líneas base hasta 18.1 puntos en matemáticas y 5-9 puntos en búsqueda, con un costo de tokens un 30-70% menor.

arxiv arXiv cs.CL · hace 1 h En vivo

VeriEvol: Escalar el razonamiento matemático multimodal con evolución verificable

VeriEvol introduce un marco de construcción de datos verificable para el razonamiento matemático visual, desacoplando la dificultad del prompt y la fiabilidad de la respuesta. Evoluciona prompts de imagen-pregunta utilizando operadores conscientes del tipo y verifica las respuestas mediante falsificación por contra-evidencia multi-fuente. En cinco benchmarks, escalar de 10K a 250K muestras mejora la precisión media de 35.42 a 54.73, con un acumulado de +3.88 sobre la línea base, impulsado por prompts evolucionados y verificación HTV-Agent.

arxiv arXiv cs.CL · hace 1 h En vivo

Modelo de consumo energético para el entrenamiento de Transformers

Un nuevo marco modela el consumo energético en el entrenamiento de Transformers en múltiples GPUs. Utiliza barridos arquitecturales de BERT para vincular la energía medida con el cómputo, el tráfico de memoria y los proxies de eficiencia del hardware. El modelo, inspirado en el análisis roofline, incluye un factor de eficiencia del hardware basado en aceleración y predice la energía de entrenamiento en diversas configuraciones de GPU.

arxiv arXiv cs.CL · hace 1 h En vivo

LangMAP: Tokenización adaptativa al idioma para modelos multilingües

LangMAP extiende UnigramLM para crear tokenización específica del idioma a partir de un vocabulario compartido, permitiendo el entrenamiento o adaptación de modelos multilingües sin cambios en el vocabulario. Mejora la alineación de límites morfológicos y la alineación de hojas AST en lenguajes de programación, y mejora la aceptabilidad gramatical en los idiomas objetivo, aunque los beneficios varían en tareas basadas en conocimiento.

arxiv arXiv cs.CL · hace 1 h En vivo

La conciencia de evaluación es multivariada, no una capacidad única

Los modelos de lenguaje abiertos muestran que la conciencia de evaluación no es un rasgo unificado. Ocho experimentos en 37 modelos revelan que la detección, los cambios en el comportamiento de seguridad y la estabilidad de las representaciones varían independientemente, con solo correlaciones débiles entre ellas. Esto socava la idea de una puntuación única de conciencia como indicador fiable de la seguridad en el despliegue, destacando la 'ilusión del benchmark'.

arxiv arXiv cs.CL · hace 1 h En vivo

Los Modelos de Lenguaje Afilados Mejoran el Rendimiento

Los Modelos de Lenguaje Afilados (TLMs) asignan más parámetros a las capas iniciales y menos a las posteriores, reduciendo la perplejidad y mejorando el rendimiento en benchmarks a través de arquitecturas. Esta asignación de capacidad consciente de la profundidad mejora las salidas de los modelos de lenguaje sin añadir cómputo ni parámetros, ofreciendo un principio de diseño simple y universal.

media r/LocalLLaMA · hace 1 h En vivo

100 t/s en Qwen3.6-27B Q8 entre 5090 + 3090 Ti con modo de división tensorial

Un usuario logró 100 tokens por segundo en Qwen3.6-27B a Q8_0 usando dos GPUs (RTX 5090 y RTX 3090 Ti). Cambiar de división por capa a modo de división tensorial aumentó el rendimiento de 70 a 100 t/s, con una división tensorial 70/30 que favorece a la 5090 para igualar la potencia de cómputo. El rendimiento varía según el prompt, alcanzando hasta 130 t/s en algunos casos.

media r/LocalLLaMA · hace 1 h En vivo

Boogu-Image-0.1: Serie de modelos unificados de generación y edición de imágenes de código abierto

Boogu-Image-0.1 es una familia de modelos unificados de generación y edición de imágenes de código abierto con licencia Apache-2.0, que incluye variantes Base, Turbo y Edit. Ofrece generación de texto a imagen de alta calidad, generación rápida, edición de imágenes y una sólida renderización de texto en chino e inglés, con un volumen de datos de entrenamiento aproximadamente una orden de magnitud menor que el de los sistemas propietarios, pero logrando un rendimiento competitivo gracias a la mejora en la comprensión del modelo y la calidad de los datos.

media r/LocalLLaMA · hace 1 h En vivo

El Reglamento de IA de la UE exige marcas de agua en textos generados por IA desde agosto de 2024

El Reglamento de IA de la UE requiere que todos los sistemas de IA que generen texto sintético incluyan marcas de agua legibles por máquina y detectables, utilizando soluciones técnicas robustas e interoperables con dos capas. Esto se aplica a todos los modelos de IA, incluidos los de código abierto, y se extiende a cualquier servicio accesible por ciudadanos de la UE, independientemente de su ubicación. El incumplimiento conlleva multas de hasta 35 millones de euros o un porcentaje de los ingresos anuales, y los proveedores de modelos de IA de 'riesgo sistémico' enfrentan una mayor responsabilidad.

media r/LocalLLaMA · hace 1 h En vivo

¿Quién necesita GPUs? Generación de 64 t/s, 285 PP en CPUs de hace 6 años

Un modelo gemma-4-26B-A4B ejecutándose solo en CPU con dos procesadores Xeon 6248R logra 64 tokens por segundo de generación y 285 procesamiento paralelo, demostrando un rendimiento viable en hardware de hace 6 años. El usuario destaca el potencial de los LLMs locales optimizados para CPU para rivalizar con sistemas basados en GPU, enfatizando la eficiencia de costos y la accesibilidad.