Todos los artículos
arxiv arXiv cs.CL · hace 1 h En vivo

Póster: Exploración de la detección de estafas basada en audio en turco

Esta investigación presenta el primer conjunto de datos multimodal público de 100 pares alineados de audio-transcripción para llamadas de estafa y benignas en turco. Evalúa siete modelos de lenguaje grandes bajo entradas de audio crudo, transcripción automática y transcripción corregida por humanos, encontrando que las entradas basadas en transcripción superan al procesamiento directo de audio, con la corrección humana teniendo un impacto mínimo.

arxiv arXiv cs.CL · hace 1 h En vivo

AGORA: Benchmark para el razonamiento de documentos en entornos laborales basados en agentes

Agora presenta un benchmark con 362 preguntas y 9,664 documentos auténticos de entornos laborales que suman 372M tokens, superando la ventana de contexto de cualquier modelo. Evalúa la capacidad de los agentes para explorar documentos deliberadamente, reconciliar inconsistencias y razonar entre dominios, revelando que incluso los mejores modelos alcanzan solo un 59.4% de precisión.

arxiv arXiv cs.CL · hace 1 h En vivo

NatureBench evalúa las capacidades de descubrimiento científico de los agentes de codificación de IA

NatureBench presenta una batería de 90 tareas basadas en artículos de la familia Nature para evaluar la capacidad de los agentes de codificación de IA para lograr descubrimientos científicos. Bajo un protocolo con búsqueda web deshabilitada, el mejor modelo supera el estado del arte anterior solo en el 17.8% de las tareas. Los agentes tienen éxito principalmente al traducir problemas científicos en tareas de aprendizaje supervisado, no mediante invención científica original.

arxiv arXiv cs.CL · hace 1 h En vivo

AdversaBench: Red-Teaming automatizado de LLM con confirmación multi-juez

AdversaBench presenta una pipeline de red-teaming end-to-end que genera prompts adversarios mediante cinco operadores estructurados, evalúa los modelos objetivo y confirma fallos a través de un panel de tres jueces con desempate por meta-juez. Los experimentos en 45 prompts semilla en razonamiento, seguimiento de instrucciones y uso de herramientas muestran que cada semilla produce un fallo confirmado, revelando patrones clave en la vulnerabilidad de LLM mediante la efectividad del operador, los conteos de iteración de fallos, el acuerdo entre jueces y la transferibilidad cross-model.

arxiv arXiv cs.CL · hace 1 h En vivo

MEMPROBE: Benchmark para la recuperación de memoria a largo plazo en agentes

MEMPROBE es un benchmark que evalúa la memoria a largo plazo en agentes de IA mediante la reconstrucción del estado oculto de un usuario a partir de la memoria del agente después de la interacción. Prueba 5 sistemas de memoria en 50 usuarios simulados con 31 dimensiones cada uno, encontrando que la finalización de tareas es alta incluso para agentes sin memoria, mientras que la recuperación de memoria permanece moderada y disminuye bajo la recuperación top-k. MEMPROBE permite una evaluación directa y auditable de la retención de memoria y propone la recuperación como un objetivo clave para el desarrollo futuro de agentes.

arxiv arXiv cs.CL · hace 1 h En vivo

Marco metodológico para evaluar el sesgo social en LLM

Un marco unificado estandariza las evaluaciones de benchmark para comparar configuraciones aisladas frente a comparativas en la detección de sesgos sociales. Los resultados muestran que las configuraciones comparativas amplifican la discriminación latente, especialmente con razonamiento Chain-of-Thought, y este sesgo persiste incluso con respuestas neutrales de respaldo. El efecto escala con el tamaño del modelo, lo que sugiere que los despliegues comparativos son inseguros en escenarios del mundo real ambiguos.

arxiv arXiv cs.CL · hace 1 h En vivo

Qwen-AgentWorld: Modelos de mundo lingüístico para agentes generales

Qwen-AgentWorld-35B-A3B y Qwen-AgentWorld-397B-A17B son los primeros modelos de mundo lingüístico que simulan entornos agénticos en siete dominios utilizando razonamiento de cadena de pensamiento largo. Entrenados mediante una canalización de tres etapas—CPT, SFT y RL—estos modelos superan a los modelos fronterizos existentes en AgentWorldBench, un benchmark derivado de interacciones del mundo real de cinco modelos en nueve tareas establecidas.

arxiv arXiv cs.CL · hace 1 h En vivo

Estudios de proverbios multilingües revelan la preservación del significado cultural en los LLM

Un estudio evalúa cómo los modelos de lenguaje grandes preservan el significado cultural al generar narrativas a partir de proverbios equivalentes en 15 idiomas. Los resultados muestran consistencia semántica en las lecciones morales, con cambios sistemáticos en la agencia narrativa y la estructura, y una fuerte convergencia entre familias de modelos. La investigación destaca que las evaluaciones actuales pueden sobreestimar la preservación cultural al centrarse únicamente en la similitud semántica.

arxiv arXiv cs.CL · hace 1 h En vivo

RAG que preserva la privacidad mediante reescritura semántica multi-agente

Un marco multi-agente sanitiza el contenido recuperado eliminando identificadores sensibles mediante reescritura semántica, reduciendo la filtración de privacidad en ataques dirigidos. Mantiene una fuerte fidelidad contextual con una puntuación BLEU-1 de 0.122, superando a SAGE con 0.117, y opera como un paso de preprocesamiento asíncrono sin latencia añadida para la inferencia en línea.

media r/LocalLLaMA · hace 1 h En vivo

Mimo 2.5 es rápido en contextos largos con dos RTX Pro 6000

Mimo 2.5 mantiene un rendimiento rápido en longitudes de contexto largas en dos tarjetas RTX Pro 6000 utilizando un mecanismo de atención de ventana deslizante local/global 5:1, similar al de Gemma 3. Completa tareas en aproximadamente 4 minutos, significativamente más rápido que MiniMax M3, que tarda alrededor de 40 minutos, a pesar de que ambos modelos tienen una calidad similar bajo los límites de VRAM.

blog Simon Willison · hace 1 h En vivo

datasette 1.0a35 lanza nuevas funciones de creación y alteración de tablas

Datasette 1.0a35 introduce una nueva interfaz "Create table" con soporte para definir columnas, restricciones y claves foráneas a través de su API JSON. También añade una acción "Alter table" que permite modificar tablas existentes, incluidos cambios en las columnas, ajustes de tipo y eliminación de columnas o tablas, con una API de contexto de plantillas estable para plantillas personalizadas hasta Datasette 2.0.

media r/LocalLLaMA · hace 1 h En vivo

Más de 650 modelos de NER/de-ID biomédicos con licencia Apache-2.0 se ejecutan 30-40 veces más rápido en Apple Silicon

Un nuevo proyecto de código abierto ofrece más de 650 modelos biomédicos de NER y desidentificación con licencia Apache-2.0 que se ejecutan en el dispositivo a través de MLX. En un MacBook Pro de hace 3 años con M3 Max, los modelos clínicos de NER logran aceleraciones de 30-40 veces en comparación con PyTorch-CPU, con salidas fp32 e identidades idénticas, gracias a la eficiencia arquitectónica en Apple Silicon. Los modelos, que incluyen NER biomédico de 434M y desidentificación de PII, están disponibles públicamente en Hugging Face y GitHub, con total reproducibilidad proporcionada en el código y la metodología.

media r/LocalLLaMA · hace 1 h En vivo

Lanzamiento de los benchmarks de OpenMythos con resultados de SWE-bench y ciberseguridad

Los benchmarks de OpenMythos ya están disponibles, evaluando el rendimiento en SWE-bench Pro, CyberGym y cybench. El modelo muestra capacidades sólidas para un modelo pequeño centrado en ciberseguridad, aunque se planea más entrenamiento para mejorar el rendimiento. Los resultados destacan discrepancias entre las puntuaciones de SWE-bench de Qwen 3.5 y 3.6 debido a diferentes métodos de evaluación y filtrado de problemas.