la versión b9847 de llama.cpp corrige Gemma E4B MTP FlashAttention
El proyecto llama.cpp ha lanzado la versión b9847, que incluye una corrección para Gemma E4B MTP FlashAttention en CUDA y la eliminación de una declaración de plantilla sin usar.
El proyecto llama.cpp ha lanzado la versión b9847, que incluye una corrección para Gemma E4B MTP FlashAttention en CUDA y la eliminación de una declaración de plantilla sin usar.
El autor comparte una configuración práctica para usar modelos de lenguaje grandes locales en hardware modesto, específicamente una laptop con 32 GB de RAM y una NVIDIA RTX 4070 con 8 GB de VRAM. La estrategia central implica ejecutar el modelo Qwen3.6-35B-A3B localmente como un 'agente de codificación pequeño' mientras se descarga la planificación compleja a una instancia en la nube basada en GLM 5.2.
El artículo documenta cómo las mediciones de los evaluadores LLM propietarios pueden volverse inválidas en cuestión de semanas, presentando el marco EPC para detectar dicha inestabilidad. Aplica este diagnóstico a través de ocho condiciones experimentales, revelando que la inestabilidad condicional por versión hace que los estudios de evaluadores con una sola instantánea sean poco confiables.
Este estudio evalúa el impacto de los métodos de remuestreo como SMOTE y el submuestreo aleatorio en la calibración de probabilidades en conjuntos de árboles, encontrando que, aunque el costo de SMOTE es pequeño, el submuestreo degrada severamente la calibración.
Este estudio evalúa el rendimiento de modelos de lenguaje grandes de peso abierto que se ejecutan on-premises para tareas de text-to-SQL utilizando un benchmark reproducible en la división de desarrollo de BIRD. Compara tres familias de modelos a lo largo de dos generaciones, ablando técnicas específicas para mejorar la precisión y determinar su valor real.
El artículo presenta EarningsInOne, un nuevo corpus que alinea noticias sobre ganancias, transcripciones de llamadas de conferencia y precios para el universo SP 1500 desde 2022 hasta 2025. Este recurso cierra la brecha entre economistas financieros e investigadores de PLN mediante la provisión de configuraciones de trading unificadas y métricas de evaluación tanto para señales cuantitativas como cualitativas.
El artículo presenta un método novedoso para el mapeo automático entre sistemas de clasificación de enfermedades, como ICD-9-CM e ICD-10-CM, que aborda las limitaciones de los enfoques basados en embeddings existentes, los cuales a menudo pasan por alto escenarios complejos de uno a muchos. Al emplear un pipeline de bloqueo y coincidencia inspirado en la resolución de entidades, los autores utilizan modelos de lenguaje grandes (LLM) para identificar mapeos válidos dentro de bloques candidatos.
Los investigadores proponen Mandol, un sistema de memoria aglomerativo diseñado para consolidar representaciones de memoria fragmentadas en una arquitectura unificada para agentes conversacionales a largo plazo. Este enfoque aborda los problemas de alta latencia y ruido inherentes a los sistemas existentes que dependen de bases de datos vectoriales y gráficas heterogéneas.
Este artículo de posición argumenta que los humanos poseen un sesgo evolucionado para seguir instrucciones, un sesgo inductivo innato moldeado por la evolución para interpretar y ejecutar instrucciones lingüísticas. Esta característica cognitiva permite el aprendizaje rápido de tareas instruidas (RITL) y posibilita la generalización rápida del comportamiento a partir del lenguaje.
Los autores proponen Fund2Persona, un marco que fundamenta los perfiles de asesores financieros en divulgaciones de fondos, transiciones de tenencias y comentarios de los gestores para abordar la dificultad de escalar una experiencia consistente en sistemas LLM. El sistema refina estos perfiles a través de un bucle actor-evaluador-parche agéntico, superando las simples indicaciones de perfil que a menudo derivan hacia recomendaciones genéricas.
Este artículo evalúa cinco métodos ligeros de detección de alucinaciones, viables para CPU, para proporcionar alternativas prácticas para investigadores con recursos limitados que no pueden usar soluciones intensivas en GPU o propietarias. El estudio evalúa ROUGE-L, similitud semántica, BERTScore, un detector NLI DeBERTa entrenado con FEVER y un conjunto de similitud y NLI a través de las tareas de pregunta-respuesta, diálogo y resumén del benchmark HaluEval.
Los autores presentan SrDetection, un marco unificado para detectar filtración de datos en modelos de lenguaje grandes (LLMs) de código que opera tanto en configuraciones gray-box como black-box. El método genera variantes semánticamente equivalentes de muestras de referencia para identificar casos donde los datos originales son desproporcionadamente más fáciles para el modelo debido a la exposición durante el preentrenamiento.
El artículo presenta Memoria Procedural Neural (NPM), un marco sin entrenamiento que permite a los agentes de Modelos de Lenguaje Grande utilizar la dirección de activación implícita para memoria procedural en lugar de depender de instrucciones textuales explícitas. Al destilar habilidades de experiencias históricas en vectores de dirección, NPM activa directamente mecanismos neuronales relevantes para la tarea para guiar la ejecución.
Este estudio analiza el desarrollo de tecnologías en Procesamiento de Lenguaje Natural (NLP) desde una perspectiva centrada en entidades, extrayendo métodos, conjuntos de datos, métricas y herramientas para medir su impacto mediante redes de co-ocurrencia. La investigación revela que, aunque los modelos de lenguaje preentrenados como BERT y Transformer se han vuelto predominantes, el número promedio de entidades por artículo está aumentando, lo que indica una carga de conocimiento creciente para los investigadores.
Los autores proponen MATCH, un marco que aumenta los mecanismos de atención dispersa con información integrada dinámicamente en el contexto para abordar los cuellos de botella de escalabilidad de la atención tradicional en escenarios de contexto largo.
Este estudio presenta un marco a nivel de token que descompone las leyes de escalado de modelos de lenguaje en eventos de aprendizaje localizados de tokens contextualizados individuales, desafiando la visión de que la dificultad del patrón de cola pesada es la única causa.
Este estudio propone un marco a nivel de oración para identificar, analizar y rastrear la evolución de las motivaciones para mencionar algoritmos en artículos académicos, utilizando el procesamiento del lenguaje natural como caso de estudio. Los investigadores clasifican estas motivaciones mediante modelos preentrenados y aumento de datos, revelando que los modelos de aprendizaje profundo superan a los enfoques tradicionales de aprendizaje automático.
Los autores proponen KbSD, un marco que aborda la escasez de recompensas en la búsqueda agéntica mediante el uso de supervisión densa a nivel de token y optimización adaptativa por cuadrante para calibrar cuándo los modelos deben confiar en la memoria paramétrica frente a la evidencia recuperada. Este enfoque utiliza un proceso de auto-distilación con asimetría de información donde un maestro aumentado con pistas genera demostraciones de razonamiento calibradas para un modelo estudiante sin requerir un modelo externo más grande.
Los autores proponen ARKD, un marco de destilación adaptativa ponderada por KL basado en aprendizaje por refuerzo que aborda las limitaciones de los métodos con un solo objetivo KL en la compresión de Modelos de Lenguaje Grande. Al utilizar una red de política para asignar dinámicamente pesos a la divergencia KL directa e inversa según las características distribucionales del maestro y el estudiante, el método logra una alineación dual en los modos principales y de cola larga.
Un estudio demuestra que el tiempo de procesamiento por palabra en el modelo de lenguaje de espacio de estados Mamba se alinea con los tiempos de lectura humanos. La investigación muestra que el paso de tiempo de discretización dinámica de Mamba es un predictor significativo de cuánto tardan los humanos en leer palabras, incluso controlando otros factores como la sorpresa de GPT-2.