Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 128

Evaluación sistemática de la detección ligera de alucinaciones en QA, diálogo y resumén

Este artículo evalúa cinco métodos ligeros de detección de alucinaciones, viables para CPU, para proporcionar alternativas prácticas para investigadores con recursos limitados que no pueden usar soluciones intensivas en GPU o propietarias. El estudio evalúa ROUGE-L, similitud semántica, BERTScore, un detector NLI DeBERTa entrenado con FEVER y un conjunto de similitud y NLI a través de las tareas de pregunta-respuesta, diálogo y resumén del benchmark HaluEval.

arxiv arXiv cs.CL · hace 4 h

SrDetection: Un marco autorreferencial para la detección de filtración de datos en LLMs de código

Los autores presentan SrDetection, un marco unificado para detectar filtración de datos en modelos de lenguaje grandes (LLMs) de código que opera tanto en configuraciones gray-box como black-box. El método genera variantes semánticamente equivalentes de muestras de referencia para identificar casos donde los datos originales son desproporcionadamente más fáciles para el modelo debido a la exposición durante el preentrenamiento.

arxiv arXiv cs.CL · hace 4 h

Memoria Procedural Neural: Potenciando Agentes LLM con Dirección de Activación Implícita

El artículo presenta Memoria Procedural Neural (NPM), un marco sin entrenamiento que permite a los agentes de Modelos de Lenguaje Grande utilizar la dirección de activación implícita para memoria procedural en lugar de depender de instrucciones textuales explícitas. Al destilar habilidades de experiencias históricas en vectores de dirección, NPM activa directamente mecanismos neuronales relevantes para la tarea para guiar la ejecución.

arxiv arXiv cs.CL · hace 4 h

Revelando el desarrollo tecnológico del procesamiento de lenguaje natural: una perspectiva centrada en entidades científicas

Este estudio analiza el desarrollo de tecnologías en Procesamiento de Lenguaje Natural (NLP) desde una perspectiva centrada en entidades, extrayendo métodos, conjuntos de datos, métricas y herramientas para medir su impacto mediante redes de co-ocurrencia. La investigación revela que, aunque los modelos de lenguaje preentrenados como BERT y Transformer se han vuelto predominantes, el número promedio de entidades por artículo está aumentando, lo que indica una carga de conocimiento creciente para los investigadores.

arxiv arXiv cs.CL · hace 4 h

MATCH: Modulación de la atención mediante recuperación en contexto para transformadores de contexto largo

Los autores proponen MATCH, un marco que aumenta los mecanismos de atención dispersa con información integrada dinámicamente en el contexto para abordar los cuellos de botella de escalabilidad de la atención tradicional en escenarios de contexto largo.

arxiv arXiv cs.CL · hace 4 h

Las leyes de escalado suaves ocultan el aprendizaje paso a paso de tokens

Este estudio presenta un marco a nivel de token que descompone las leyes de escalado de modelos de lenguaje en eventos de aprendizaje localizados de tokens contextualizados individuales, desafiando la visión de que la dificultad del patrón de cola pesada es la única causa.

arxiv arXiv cs.CL · hace 4 h

Explorando las motivaciones para la mención de algoritmos en PLN: Un enfoque de aprendizaje profundo

Este estudio propone un marco a nivel de oración para identificar, analizar y rastrear la evolución de las motivaciones para mencionar algoritmos en artículos académicos, utilizando el procesamiento del lenguaje natural como caso de estudio. Los investigadores clasifican estas motivaciones mediante modelos preentrenados y aumento de datos, revelando que los modelos de aprendizaje profundo superan a los enfoques tradicionales de aprendizaje automático.

arxiv arXiv cs.CL · hace 4 h

KbSD: Auto-distilación consciente del límite de conocimiento para la calibración conductual

Los autores proponen KbSD, un marco que aborda la escasez de recompensas en la búsqueda agéntica mediante el uso de supervisión densa a nivel de token y optimización adaptativa por cuadrante para calibrar cuándo los modelos deben confiar en la memoria paramétrica frente a la evidencia recuperada. Este enfoque utiliza un proceso de auto-distilación con asimetría de información donde un maestro aumentado con pistas genera demostraciones de razonamiento calibradas para un modelo estudiante sin requerir un modelo externo más grande.

arxiv arXiv cs.CL · hace 4 h

ARKD: Destilación bidireccional de divergencia KL guiada por aprendizaje por refuerzo adaptativo para generación de texto

Los autores proponen ARKD, un marco de destilación adaptativa ponderada por KL basado en aprendizaje por refuerzo que aborda las limitaciones de los métodos con un solo objetivo KL en la compresión de Modelos de Lenguaje Grande. Al utilizar una red de política para asignar dinámicamente pesos a la divergencia KL directa e inversa según las características distribucionales del maestro y el estudiante, el método logra una alineación dual en los modos principales y de cola larga.

arxiv arXiv cs.CL · hace 4 h

Los pasos de tiempo de Mamba se alinean con los tiempos de lectura humana

Un estudio demuestra que el tiempo de procesamiento por palabra en el modelo de lenguaje de espacio de estados Mamba se alinea con los tiempos de lectura humanos. La investigación muestra que el paso de tiempo de discretización dinámica de Mamba es un predictor significativo de cuánto tardan los humanos en leer palabras, incluso controlando otros factores como la sorpresa de GPT-2.

arxiv arXiv cs.CL · hace 5 h

Evolución de la novedad en la investigación china de Biblioteconomía y Ciencias de la Información

Este estudio analiza la distribución de la novedad en artículos chinos de Biblioteconomía y Ciencias de la Información (LIS) publicados entre 2000 y 2022, examinando tendencias en revistas, temas y períodos temporales. Utilizando BERTopic para la identificación de temas y la teoría de la innovación combinatoria para la puntuación de novedad, la investigación investiga cómo los patrones de colaboración influyen en la innovación académica.

arxiv arXiv cs.CL · hace 5 h

Gráficos de razonamiento clínico: evaluación estructurada del razonamiento diagnóstico de LLMs revela competencia sin consistencia

Este estudio introduce gráficos de razonamiento clínico para evaluar los patrones de razonamiento diagnóstico de modelos de lenguaje grandes, revelando que, aunque logran competencia, carecen de esquemas de razonamiento consistentes. Los autores extrajeron representaciones gráficas estructuradas a partir de 750 trazos en cinco LLMs y probaron la existencia de patrones de razonamiento estables en casos clínicamente similares.

arxiv arXiv cs.CL · hace 5 h

SABER-Math: Benchmark automatizado para la evaluación de recuperación de información en matemáticas

Los investigadores presentan SABER-Math, el primer benchmark completamente automatizado para evaluar la recuperación de información matemática sin anotación experta, abordando la dificultad de aislar los efectos del recuperador en el rendimiento posterior.

arxiv arXiv cs.CL · hace 5 h

MemDelta: Líneas base controladas y confusores ocultos en la evaluación de memoria de agentes

El artículo presenta MemDelta, un protocolo de evaluación controlada para sistemas de memoria de agentes que aísla componentes individuales para evitar que variables confusas distorsionen los resultados. Utilizando el conjunto de datos LongMemEval-S con 500 preguntas a través de tres familias de modelos, el estudio revela que las ganancias reportadas a menudo mezclan cambios en métodos de memoria con variaciones en modelos de lenguaje o pipelines de recuperación.

arxiv arXiv cs.CL · hace 5 h

¿Puede LLM-as-a-Judge verificar confiablemente rúbricas en escenarios agénticos?

Este estudio investiga la fiabilidad del uso de Modelos de Lenguaje Grande como jueces para verificar rúbricas en complejos escenarios agénticos, presentando RuVerBench como el primer benchmark para este propósito. La investigación evalúa modelos de vanguardia en tareas de investigación profunda y codificación, revelando que, aunque el rendimiento es sólido, persiste un ruido significativo en la verificación.

arxiv arXiv cs.CL · hace 5 h

Hacia intuiciones físicas para la dinámica de alineación: Un estudio de caso con cristalización de aleatoriedad

Este artículo propone utilizar la teoría de transiciones de fase termodinámicas para comprender la dinámica de la alineación de modelos de lenguaje durante el post-entrenamiento, específicamente a través de la lente de la cristalización de materiales. Los autores argumentan que este marco físico proporciona un vocabulario fundamentado para razonar sobre cómo cambian los modelos y de dónde origina la estructura inducida por la alineación.

arxiv arXiv cs.CL · hace 5 h

ParametricSkills: Convertir habilidades textuales en adaptadores LoRA

Los autores proponen ParametricSkills, un marco que convierte habilidades de texto libre en parámetros en el momento de la prueba mediante el entrenamiento de una hiperred para generar adaptadores LoRA. Este enfoque permite la explotación de habilidades sin contexto, abordando la dificultad de adherirse a las instrucciones en escenarios complejos.

arxiv arXiv cs.CL · hace 5 h

Pequeños cerebros, grandes hazañas: Explorando modelos de lenguaje compactos

Este estudio investiga el rendimiento de los modelos de lenguaje pequeños durante la etapa de generación dentro de un sistema de Generación Aumentada por Recuperación (RAG). La investigación evalúa estos modelos utilizando conjuntos de datos diversos de código abierto y propietarios para evaluar su efectividad en varias áreas temáticas.

github llama.cpp · hace 5 h

Lanzamiento b9846 de llama.cpp con optimización de matmul Vulkan para Asahi Linux

El proyecto llama.cpp ha lanzado la versión b9846, que incluye una optimización del backend Vulkan para Asahi Linux. Esta actualización revierte el bucle del tamaño de bloque en la multiplicación de matrices para mejorar la compatibilidad y el rendimiento en hardware Apple Silicon ejecutando Linux.

arxiv arXiv cs.CL · hace 6 h

LatentRevise: Aprendizaje a partir de razonamiento con cero aciertos

El artículo presenta LatentRevise, un método de revisión latente de primer orden diseñado para recuperar señales de entrenamiento en aprendizaje por refuerzo con recompensas verificables (RLVR) para prompts donde las trayectorias correctas se muestrean raramente. Al optimizar los embeddings de entrada de un prefijo de razonamiento basándose en rollouts fallidos y respuestas doradas, el método genera datos útiles a partir de intentos previamente improductivos.