Todos los artículos
arxiv arXiv cs.CL · hace 5 h

HarmVideoBench: Evaluación de la comprensión de videos dañinos en modelos multimodales grandes

Los investigadores presentan HarmVideoBench, un benchmark diagnóstico multicapa diseñado para evaluar la capacidad de los modelos de visión y lenguaje grandes (VLM) para comprender videos dañinos más allá de las señales superficiales. El benchmark aborda limitaciones en trabajos existentes al incorporar razonamientos explicativos y evaluar tres dimensiones jerárquicas del daño: Evidencia Observable, Significado Interno del Clip y Razonamiento Más Allá del Clip.

arxiv arXiv cs.CL · hace 5 h

La actualización de creencias sintácticas como motor de la dificultad en el procesamiento de oraciones de sendero del jardín

El artículo propone la Actualización de Creencias Sintácticas, un modelo que predice la dificultad de procesamiento en oraciones de sendero del jardín midiendo la magnitud de las actualizaciones de creencias sintácticas mediante la divergencia de Rényi generalizada. Este enfoque supera a la sorpresa léxica al proporcionar un mejor ajuste a los datos de tiempo de lectura humana.

arxiv arXiv cs.CL · hace 5 h

Caminos con Intenciones Reales: El Entrenamiento Consciente de la Intención Mejora la Clasificación de Seguridad de LLMs en Diversos Regímenes de Entrenamiento

Los autores presentan AIMS, un conjunto de datos de 1.724 prompts de seguridad difíciles anotados por humanos, emparejados con descripciones de intención y etiquetas de daño, para evaluar el entrenamiento consciente de la intención en múltiples regímenes. Argumentan que modelar la intención del usuario como una señal explícita mejora significativamente la robustez de los clasificadores de seguridad.

arxiv arXiv cs.CL · hace 5 h

Preguntar, no juzgar: preguntas binarias para la evaluación y auto-mejora interpretable de LLM

Los autores proponen BINEVAL, un marco que descompone los criterios de evaluación en preguntas binarias atómicas para proporcionar puntuaciones multidimensionales e interpretables para modelos de lenguaje grandes. Este enfoque genera retroalimentación transparente a nivel de pregunta y puntuaciones generales calibradas al hacer que un LLM responda preguntas de evaluación detalladas de forma independiente para cada salida.

media r/LocalLLaMA · hace 6 h

BatonBot: Flujo de trabajo Kanban local de código abierto para agentes de codificación con IA

El autor presenta BatonBot, una aplicación local-first de código abierto diseñada para optimizar los flujos de trabajo de codificación con IA al reducir la necesidad de supervisión constante por parte del usuario. La herramienta aborda la ineficiencia de las interacciones secuenciales de agentes permitiendo a los usuarios configurar tareas y rastrear el progreso visualmente en un tablero estilo Kanban.

media r/LocalLLaMA · hace 6 h

audio.cpp: 12 modelos de audio en un solo entorno de ejecución C++ con hasta 5x de mejora de velocidad

El proyecto de código abierto audio.cpp proporciona un marco de inferencia nativo en C++ para modelos de audio basados en ggml, que actualmente admite 12 familias de modelos lanzadas, incluyendo TTS, ASR y conversión de voz. Las pruebas de rendimiento en Ubuntu/CUDA demuestran que el rendimiento de texto a voz en este entorno de ejecución es hasta 5 veces más rápido que las implementaciones de referencia correspondientes en Python.

media r/LocalLLaMA · hace 6 h

JetSpec: El descodificado especulativo con redacción paralela de árboles permite una aceleración de inferencia LLM sin pérdidas de hasta 9.64x

JetSpec introduce un método de descodificación especulativa llamado redacción causal de árboles en paralelo que co-optimiza el costo y la calidad del borrador para reducir la latencia de generación de LLM. El enfoque logra una aceleración end-to-end de hasta 9.64x en MATH-500 y 4.58x en chat abierto mientras mantiene la precisión sin pérdidas.

media r/LocalLLaMA · hace 6 h

Los precios de las tarjetas gráficas se vuelven locos, ¿debería comprar una segunda tarjeta?

Un usuario en r/LocalLLaMA está considerando añadir una segunda GPU a su equipo para inferencia de LLM local, pero se ve disuadido por el fuerte aumento de los precios de las tarjetas AMD Radeon RX 7900 XTX y XT. El autor señala que, aunque los precios nuevos de la RX 7900 XTX han subido a 1200€, las unidades usadas están alrededor de 900€, y la RX 7900 XT económica comienza en 700€.

media r/LocalLLaMA · hace 6 h

Manejo del aislamiento por agente y del ciclo de vida del entorno en una biblioteca de orquestación

El autor detalla la arquitectura de una biblioteca de orquestación agnóstica al arnés, centrada en gestionar los entornos de los agentes mediante abstracciones distintas de espacio de trabajo y tiempo de ejecución. El sistema define cuatro estados secuenciales—no aprovisionado, aprovisionado, iniciado y retirado—para controlar el ciclo de vida de cada instancia de agente.

media r/LocalLLaMA · hace 6 h

Usuario de Reddit cuestiona el valor de la RTX 6000 Pro ante el aumento de precios

Un usuario de Reddit en la comunidad r/LocalLLaMA está buscando consejos sobre la compra de una GPU NVIDIA RTX 6000 Pro. El autor señala que el precio ha aumentado significativamente, pasando de aproximadamente $8,000 hace seis meses a alrededor de $13,000 actualmente. Está buscando comentarios de propietarios existentes sobre su satisfacción con el hardware. Específicamente, el usuario pregunta si la tarjeta vale la pena la inversión para ejecutar modelos como Qwen 2.5 7B. La publicación tiene como objetivo ayudar al comprador a justificar el gasto ante su esposa recopilando experiencias de uso en el mundo real.

media r/LocalLLaMA · hace 6 h

LFM2.5 230M se ejecuta en el navegador a 1,400 tok/s mediante kernels WebGPU personalizados

El modelo LFM2.5-230M de LiquidAI ahora se ejecuta localmente en el navegador utilizando kernels WebGPU personalizados. Estos kernels especializados fueron desarrollados originalmente por Fable 5 antes de su cierre y Opus 4.8. La demostración fue grabada en un dispositivo M4 Max, alcanzando una velocidad de generación de 1,400 tokens por segundo. Todo el procesamiento ocurre completamente dentro del entorno del navegador del usuario sin dependencias de servidores externos. Una versión GGUF del modelo está disponible para descargar en Hugging Face junto con la checkpoint estándar. Los usuarios pueden interactuar con la demostración en vivo alojada por webml-community en Hugging Face Spaces.