Todos los artículos
arxiv arXiv cs.CL · hace 1 h En vivo

La conciencia de evaluación es multivariada, no una capacidad única

Los modelos de lenguaje abiertos muestran que la conciencia de evaluación no es un rasgo unificado. Ocho experimentos en 37 modelos revelan que la detección, los cambios en el comportamiento de seguridad y la estabilidad de las representaciones varían independientemente, con solo correlaciones débiles entre ellas. Esto socava la idea de una puntuación única de conciencia como indicador fiable de la seguridad en el despliegue, destacando la 'ilusión del benchmark'.

arxiv arXiv cs.CL · hace 1 h En vivo

Los Modelos de Lenguaje Afilados Mejoran el Rendimiento

Los Modelos de Lenguaje Afilados (TLMs) asignan más parámetros a las capas iniciales y menos a las posteriores, reduciendo la perplejidad y mejorando el rendimiento en benchmarks a través de arquitecturas. Esta asignación de capacidad consciente de la profundidad mejora las salidas de los modelos de lenguaje sin añadir cómputo ni parámetros, ofreciendo un principio de diseño simple y universal.

media r/LocalLLaMA · hace 1 h En vivo

100 t/s en Qwen3.6-27B Q8 entre 5090 + 3090 Ti con modo de división tensorial

Un usuario logró 100 tokens por segundo en Qwen3.6-27B a Q8_0 usando dos GPUs (RTX 5090 y RTX 3090 Ti). Cambiar de división por capa a modo de división tensorial aumentó el rendimiento de 70 a 100 t/s, con una división tensorial 70/30 que favorece a la 5090 para igualar la potencia de cómputo. El rendimiento varía según el prompt, alcanzando hasta 130 t/s en algunos casos.

media r/LocalLLaMA · hace 1 h En vivo

Boogu-Image-0.1: Serie de modelos unificados de generación y edición de imágenes de código abierto

Boogu-Image-0.1 es una familia de modelos unificados de generación y edición de imágenes de código abierto con licencia Apache-2.0, que incluye variantes Base, Turbo y Edit. Ofrece generación de texto a imagen de alta calidad, generación rápida, edición de imágenes y una sólida renderización de texto en chino e inglés, con un volumen de datos de entrenamiento aproximadamente una orden de magnitud menor que el de los sistemas propietarios, pero logrando un rendimiento competitivo gracias a la mejora en la comprensión del modelo y la calidad de los datos.

media r/LocalLLaMA · hace 1 h En vivo

El Reglamento de IA de la UE exige marcas de agua en textos generados por IA desde agosto de 2024

El Reglamento de IA de la UE requiere que todos los sistemas de IA que generen texto sintético incluyan marcas de agua legibles por máquina y detectables, utilizando soluciones técnicas robustas e interoperables con dos capas. Esto se aplica a todos los modelos de IA, incluidos los de código abierto, y se extiende a cualquier servicio accesible por ciudadanos de la UE, independientemente de su ubicación. El incumplimiento conlleva multas de hasta 35 millones de euros o un porcentaje de los ingresos anuales, y los proveedores de modelos de IA de 'riesgo sistémico' enfrentan una mayor responsabilidad.

media r/LocalLLaMA · hace 1 h En vivo

¿Quién necesita GPUs? Generación de 64 t/s, 285 PP en CPUs de hace 6 años

Un modelo gemma-4-26B-A4B ejecutándose solo en CPU con dos procesadores Xeon 6248R logra 64 tokens por segundo de generación y 285 procesamiento paralelo, demostrando un rendimiento viable en hardware de hace 6 años. El usuario destaca el potencial de los LLMs locales optimizados para CPU para rivalizar con sistemas basados en GPU, enfatizando la eficiencia de costos y la accesibilidad.

arxiv arXiv cs.CL · hace 1 h En vivo

Los Q-Sorts Simétricos Miden la Alineación de Valores-Estructura en LLMs

Un nuevo marco utiliza Q-sorts simétricos humano-LLM para evaluar cómo los modelos de lenguaje grandes se alinean estructuralmente con los valores morales. Al comparar clasificaciones de 140 declaraciones morales entre 12 LLMs y una muestra de referencia humana, el estudio identifica heterogeneidad trans-familiar e inalineaciones localizadas, mostrando que las puntuaciones globales de rendimiento pueden ocultar defectos estructurales. Los resultados destacan la necesidad de evaluaciones estructurales para complementar los benchmarks morales tradicionales a nivel de ítem.

arxiv arXiv cs.CL · hace 1 h En vivo

CapRiCorn-1K: Benchmark para la descripción de vídeo y consistencia del sujeto

CapRiCorn-1K es un benchmark que evalúa la calidad de la descripción de vídeo y la consistencia referencial del sujeto a través de diferentes duraciones y dominios de vídeo. Admite configuraciones tanto audiovisuales como solo visuales, revelando que los modelos actuales tienen dificultades para mantener referencias consistentes del sujeto, especialmente en vídeos más largos, con una disminución de la calidad y la consistencia de las descripciones a medida que aumenta la duración del vídeo. Las métricas del benchmark muestran una fuerte alineación con tareas posteriores, validando su efectividad.

arxiv arXiv cs.CL · hace 1 h En vivo

¿Están mejorando realmente los modelos multilingües? Aislamiento de la verdadera transferencia interlingual

Una nueva métrica, el Puntaje de Transferencia Ajustada por Dificultad (HAT), aísla la verdadera transferencia interlingual separándola de las ganancias de precisión en el idioma fuente. El análisis de 20 modelos lingüísticos muestra que la transferencia en modelos pequeños no está rota, el progreso con el tamaño del modelo es más lento de lo esperado y se han producido mejoras claras con el tiempo.

arxiv arXiv cs.CL · hace 2 h

OpenBioRQ: Benchmark para la Fidelidad de la Investigación Biomédica Agéntica

OpenBioRQ introduce un benchmark de 12,553 preguntas de investigación biomédica sin resolver en 12 dominios, diseñado para probar la fidelidad y la abstención de los modelos agénticos. Evalúa los modelos en un entorno de uso de herramientas sin claves de respuesta, utilizando evidencia real de seguimiento en lugar de conocimiento paramétrico, y revela un colapso agéntico significativo en las preguntas más difíciles donde las herramientas ya no se utilizan a pesar de ser críticas.

arxiv arXiv cs.CL · hace 2 h

Moshi-Face: Diálogo dúplex completo con generación facial

Moshi-Face es el primer modelo de diálogo hablado dúplex completo que procesa conjuntamente entradas de audio y faciales, generando tanto habla como movimiento facial sincronizado. Utiliza un codec facial VQ-VAE para codificar y reconstruir mallas de cabeza 3D a partir de videos faciales en tokens faciales discretos, y un módulo Face Transformer para generar estos tokens de forma no autoregresiva con el fin de lograr una salida audiovisual en tiempo real. Los experimentos muestran que Moshi-Face logra una alineación audiovisual con baja latencia mientras mantiene la calidad original del diálogo.