Todos los artículos
arxiv arXiv cs.CL · hace 1 h En vivo

Evaluación de referencia de modelos de lenguaje pequeños para PLN en árabe

Una evaluación de referencia de 240 elementos de prueba en árabe a través de ocho dominios y diez habilidades evalúa doce modelos de lenguaje pequeños en configuraciones zero-shot. Gemma 3 (12B) obtuvo la puntuación general más alta (4.548/5), seguido por Aya y C4AI Command Arabic, con un rendimiento vinculado más a la alineación en árabe y al seguimiento de instrucciones que al tamaño del modelo. Los modos de fallo comunes incluyen filtración de prompt, alucinación y débil adherencia a la tarea.

arxiv arXiv cs.CL · hace 1 h En vivo

Cambios económicos y evolución cultural en el drama francés

El drama francés muestra un cambio de temas aristocráticos a burgueses a medida que se desarrollaba el capitalismo. Los temas burgueses respondieron a los choques del PIB a partir del siglo XVIII, con las preocupaciones económicas domésticas volviéndose sensibles solo después de 1820. Los efectos de pares y la sensibilidad económica explican conjuntamente esta transición, respaldada por simulaciones.

arxiv arXiv cs.CL · hace 1 h En vivo

La alineación en dos etapas mejora la pedagogía de tutoría matemática

Una canalización de alineación en dos etapas mejora el rendimiento pedagógico de los modelos de lenguaje grandes en la corrección de errores matemáticos. El enfoque combina el ajuste fino supervisado con la Optimización Directa de Preferencias utilizando datos sintéticos sobre andamiaje y factualidad, superando a los modelos base y existentes en precisión y calidad de enseñanza. Las evaluaciones humanas muestran que el modelo compite con una línea base propietaria, ofreciendo mayor apertura y reproducibilidad.

arxiv arXiv cs.CL · hace 1 h En vivo

La prueba MedHal-Loc evalúa la fidelidad de localización en detectores de alucinaciones médicas

MedHal-Loc introduce un benchmark para evaluar si los detectores de alucinaciones médicas localizan con precisión los errores. Encuentra que, aunque algunas arquitecturas localizan bien por encima del azar, una pipeline basada en grafos de conocimiento no funciona mejor que el azar debido a la mala extracción de entidades, a pesar de un fuerte rendimiento de detección. Los resultados muestran que la capacidad de detección no garantiza una localización fiel, desafiando las suposiciones sobre la explicabilidad arquitectónica.

arxiv arXiv cs.CL · hace 1 h En vivo

Estudio de ablación de componentes RAG agénticos con modelo local de 7B

Un estudio de ablación controlado evalúa los componentes RAG agénticos utilizando un modelo local de 7B en HotpotQA. La recuperación híbrida fija supera a la enrutamiento adaptativo por 1.8 EM y 1.9 F1, mientras que dos iteraciones de recuperación capturan el 95% de las ganancias de cinco. La descomposición de consultas y el reordenamiento con cross-encoder muestran mejoras estadísticamente significativas pero menores.

arxiv arXiv cs.CL · hace 1 h En vivo

PeerMathDial: Primer conjunto de datos sobre resolución de problemas matemáticos entre estudiantes

PeerMathDial es el primer conjunto de datos de diálogos de resolución colaborativa de problemas matemáticos entre pares en aulas de escuela secundaria. Incluye 55 diálogos de 27 estudiantes, con un total de 6,406 turnos, y presenta una taxonomía de actos de diálogo basada en el corpus. El conjunto de datos permite investigar la evolución del diálogo, las relaciones entre rasgos estudiantiles y comportamiento, y el rendimiento de LLMs al simular interacciones entre estudiantes.

media r/LocalLLaMA · hace 2 h

Microsoft lanza FastContext de código abierto para agentes de codificación LLM

Microsoft ha liberado como código abierto FastContext-1.0, un subagente ligero de exploración de repositorios que separa la exploración del repositorio de código de la resolución de tareas en agentes de codificación LLM. Utiliza llamadas de herramientas paralelas solo de lectura para devolver rutas de archivo compactas y rangos de líneas, mejorando la precisión de extremo a extremo y reduciendo el uso de tokens hasta un 60.3%, con el modelo 4B-RL superando a un modelo 30B-SFT en SWE-bench Pro.

blog Simon Willison · hace 2 h

Inyección de prompt como confusión de rol

Los investigadores identifican la 'confusión de rol' como una vulnerabilidad clave en los LLM, donde los modelos interpretan mal la entrada del usuario debido a similitudes estilísticas con las etiquetas de rol internas. Destilizar los prompts del usuario reduce el éxito del ataque del 61% al 10%, lo que muestra que cambios sutiles en el estilo del texto pueden alterar drásticamente el comportamiento del modelo, incluso cuando el contenido parece idéntico para los humanos.

media r/LocalLLaMA · hace 2 h

El potencial de Gemma 4 para superar a Mistral y Qwen3.6 mediante finetuning

Gemma 4 muestra un fuerte rendimiento base y características únicas como soporte global de MTP, QAT y capacidades visuales listas para usar. Aunque actualmente carece de finetunes generalizados, modelos como MeroMero, Equinox y Gembrain ya han demostrado alta calidad, lo que sugiere que con el esfuerzo de la comunidad, Gemma 4 podría superar a Mistral o Qwen3.6 en tareas específicas como codificación y escritura creativa.

media r/LocalLLaMA · hace 2 h

Idea para ejecutar GLM2 con una cuantización decente en configuración de GPU y DDR3

El usuario propone utilizar cuatro GPUs 5060 Ti con 64GB de VRAM en total, funcionando a PCIe Gen 3, para ejecutar GLM2 a un nivel de cuantización razonable. Sugiere añadir 512GB de RAM DDR3 en un servidor con 16 carriles PCIe y bifurcación 4x4 para descargar el almacenamiento del KV cache, buscando una inferencia eficiente sin depender de clústeres de memoria unificada. Se estima que la configuración costará alrededor de $1700 en total, con viabilidad potencial para GLM2 a un nivel de cuantización decente.

media r/LocalLLaMA · hace 2 h

MacBook Pro M5 Pro 64GB para inferencia de IA local

Un usuario está evaluando un MacBook Pro con el chip M5 Pro y 64GB de memoria unificada para ejecutar grandes modelos de IA locales como Qwen 35B A3B o modelos de 8B en marcos de agentes de IA como Opencode o Pi. Está preocupado por la longitud del contexto, el rendimiento, la multitarea con aplicaciones como IDEs y Chromium, y el posible sobrecalentamiento, buscando comentarios de otros con configuraciones similares.

media r/LocalLLaMA · hace 2 h

Top-N-Sigma: Eliminar softmax+sort incondicional

El muestreador Top-N-Sigma actualmente realiza una operación de softmax y ordenamiento incondicional al final, lo cual es inútil cuando va seguido de Dist. Este PR elimina ese paso, mejorando el rendimiento en un 50% en un MacBook Pro M3 Max para el modelo google_gemma-4-E4B-it-Q8_0, reduciendo el tiempo por token en 10ms. El cambio puede afectar las cadenas del muestreado y aún no se ha verificado para todos los backends y modelos.