Todos los artículos
arxiv arXiv cs.CL · hace 4 h

Modelos del Mundo de Autoevolución para la Planificación de Agentes LLM

El artículo presenta WorldEvolver, un marco que dota a los agentes LLM de horizonte largo de una previsión confiable mediante la revisión del contexto en el momento del despliegue sin modificar los parámetros del modelo. Aborda el problema de las predicciones no confiables que degradan la toma de decisiones a través de un enfoque de autoevolución que mejora la fidelidad predictiva y el rendimiento de la planificación.

media Hugging Face Forums · hace 4 h

Trajlens: un validador para LeRobotDataset, audita 100 datasets del Hub

El autor presenta Trajlens, un linter de código abierto para la categoría LeRobotDataset en Hugging Face Hub, y reporta los resultados de la auditoría de 100 datasets públicos aleatorios etiquetados con 'lerobot'. La auditoria reveló que solo 19 datasets pasaron la validación, mientras que 13 fallaron debido a errores específicos del upstream y 47 encontraron errores de carga o tiempos de espera.

media Hugging Face Forums · hace 4 h

Propuesta Arquitectónica: La Red Adversarial Epistemológica (EAN) para IA de Código Abierto

Una solicitud de función propone la Red Adversarial Epistemológica (EAN), una arquitectura diseñada para transformar la IA de un sistema que refleja el consenso institucional en un motor de verificación descentralizado y multiperspectivo. Este enfoque tiene como objetivo eliminar las maniobras de poder político y corporativo al eliminar cualquier modelo de "fuente de verdad" única.

media r/LocalLLaMA · hace 5 h

Cómo estoy usando modelos locales en la programación del mundo real

El autor comparte una configuración práctica para usar modelos de lenguaje grandes locales en hardware modesto, específicamente una laptop con 32 GB de RAM y una NVIDIA RTX 4070 con 8 GB de VRAM. La estrategia central implica ejecutar el modelo Qwen3.6-35B-A3B localmente como un 'agente de codificación pequeño' mientras se descarga la planificación compleja a una instancia en la nube basada en GLM 5.2.

arxiv arXiv cs.CL · hace 5 h

Un marco de diagnóstico y auditoría multi-evaluadora de las dinámicas de preferencia impulsadas por el evaluador en agentes LLM autoadaptativos

El artículo documenta cómo las mediciones de los evaluadores LLM propietarios pueden volverse inválidas en cuestión de semanas, presentando el marco EPC para detectar dicha inestabilidad. Aplica este diagnóstico a través de ocho condiciones experimentales, revelando que la inestabilidad condicional por versión hace que los estudios de evaluadores con una sola instantánea sean poco confiables.

arxiv arXiv cs.CL · hace 5 h

¿Qué tan lejos llegan los LLM abiertos on-prem en Text-to-SQL? Una frontera de tamaño x técnica entre familias en BIRD

Este estudio evalúa el rendimiento de modelos de lenguaje grandes de peso abierto que se ejecutan on-premises para tareas de text-to-SQL utilizando un benchmark reproducible en la división de desarrollo de BIRD. Compara tres familias de modelos a lo largo de dos generaciones, ablando técnicas específicas para mejorar la precisión y determinar su valor real.

arxiv arXiv cs.CL · hace 5 h

Números rápidos, lenguaje lento: Uniendo señales de ganancias cuantitativas y cualitativas

El artículo presenta EarningsInOne, un nuevo corpus que alinea noticias sobre ganancias, transcripciones de llamadas de conferencia y precios para el universo SP 1500 desde 2022 hasta 2025. Este recurso cierra la brecha entre economistas financieros e investigadores de PLN mediante la provisión de configuraciones de trading unificadas y métricas de evaluación tanto para señales cuantitativas como cualitativas.

arxiv arXiv cs.CL · hace 5 h

Gestión de la cardinalidad del mapa en el mapeo automático de clasificación de enfermedades

El artículo presenta un método novedoso para el mapeo automático entre sistemas de clasificación de enfermedades, como ICD-9-CM e ICD-10-CM, que aborda las limitaciones de los enfoques basados en embeddings existentes, los cuales a menudo pasan por alto escenarios complejos de uno a muchos. Al emplear un pipeline de bloqueo y coincidencia inspirado en la resolución de entidades, los autores utilizan modelos de lenguaje grandes (LLM) para identificar mapeos válidos dentro de bloques candidatos.

arxiv arXiv cs.CL · hace 5 h

¿Son los humanos seguidores de instrucciones evolucionados? Un sesgo inductivo subyacente permite el aprendizaje rápido de tareas instruidas

Este artículo de posición argumenta que los humanos poseen un sesgo evolucionado para seguir instrucciones, un sesgo inductivo innato moldeado por la evolución para interpretar y ejecutar instrucciones lingüísticas. Esta característica cognitiva permite el aprendizaje rápido de tareas instruidas (RITL) y posibilita la generalización rápida del comportamiento a partir del lenguaje.

arxiv arXiv cs.CL · hace 5 h

Fund2Persona: Construcción de perfiles de asesores financieros a partir de datos de fondos

Los autores proponen Fund2Persona, un marco que fundamenta los perfiles de asesores financieros en divulgaciones de fondos, transiciones de tenencias y comentarios de los gestores para abordar la dificultad de escalar una experiencia consistente en sistemas LLM. El sistema refina estos perfiles a través de un bucle actor-evaluador-parche agéntico, superando las simples indicaciones de perfil que a menudo derivan hacia recomendaciones genéricas.

arxiv arXiv cs.CL · hace 6 h

Evaluación sistemática de la detección ligera de alucinaciones en QA, diálogo y resumén

Este artículo evalúa cinco métodos ligeros de detección de alucinaciones, viables para CPU, para proporcionar alternativas prácticas para investigadores con recursos limitados que no pueden usar soluciones intensivas en GPU o propietarias. El estudio evalúa ROUGE-L, similitud semántica, BERTScore, un detector NLI DeBERTa entrenado con FEVER y un conjunto de similitud y NLI a través de las tareas de pregunta-respuesta, diálogo y resumén del benchmark HaluEval.

arxiv arXiv cs.CL · hace 6 h

SrDetection: Un marco autorreferencial para la detección de filtración de datos en LLMs de código

Los autores presentan SrDetection, un marco unificado para detectar filtración de datos en modelos de lenguaje grandes (LLMs) de código que opera tanto en configuraciones gray-box como black-box. El método genera variantes semánticamente equivalentes de muestras de referencia para identificar casos donde los datos originales son desproporcionadamente más fáciles para el modelo debido a la exposición durante el preentrenamiento.

arxiv arXiv cs.CL · hace 6 h

Memoria Procedural Neural: Potenciando Agentes LLM con Dirección de Activación Implícita

El artículo presenta Memoria Procedural Neural (NPM), un marco sin entrenamiento que permite a los agentes de Modelos de Lenguaje Grande utilizar la dirección de activación implícita para memoria procedural en lugar de depender de instrucciones textuales explícitas. Al destilar habilidades de experiencias históricas en vectores de dirección, NPM activa directamente mecanismos neuronales relevantes para la tarea para guiar la ejecución.

arxiv arXiv cs.CL · hace 6 h

Revelando el desarrollo tecnológico del procesamiento de lenguaje natural: una perspectiva centrada en entidades científicas

Este estudio analiza el desarrollo de tecnologías en Procesamiento de Lenguaje Natural (NLP) desde una perspectiva centrada en entidades, extrayendo métodos, conjuntos de datos, métricas y herramientas para medir su impacto mediante redes de co-ocurrencia. La investigación revela que, aunque los modelos de lenguaje preentrenados como BERT y Transformer se han vuelto predominantes, el número promedio de entidades por artículo está aumentando, lo que indica una carga de conocimiento creciente para los investigadores.