Todos los artículos
arxiv arXiv cs.CL · hace 3 h

DialogPII: Un conjunto de datos multilingüe de transcripciones de diálogo sintéticas para detectar información personal

Los investigadores presentan DialogPII, un conjunto de datos multilingüe de transcripciones de diálogo sintéticas diseñado para apoyar el desarrollo y la evaluación de sistemas automáticos para detectar información personalmente identificable. Este recurso aborda preocupaciones de privacidad en dominios sensibles proporcionando datos anotados en 11 idiomas y ocho escenarios de interacción.

arxiv arXiv cs.CL · hace 3 h

Mejora del ASR débilmente supervisado a gran escala mediante filtrado y selección

Los autores proponen un enfoque de entrenamiento novedoso para el reconocimiento automático del habla (ASR) de extremo a extremo que aborda las etiquetas ruidosas y la falta de especificidad de dominio en conjuntos de datos débilmente supervisados a gran escala. El método implica un preentrenamiento en el conjunto de datos completo, un preentrenamiento continuado en un subconjunto filtrado basado en la tasa de error de caracteres (CER), y un ajuste fino en muestras acústicamente similares de ese subconjunto.

arxiv arXiv cs.CL · hace 4 h

DriftGuard: Detección multi-monitor consciente de la seguridad y adaptación selectiva para la moderación de toxicidad en evolución

Este artículo presenta DriftGuard, un marco que combina la detección de deriva con múltiples monitores y la actualización selectiva de modelos para abordar la toxicidad en evolución en sistemas de moderación automatizada. El sistema rastrea cambios específicos relevantes para la seguridad, como la deriva de daño a la identidad y la deriva de riesgo tóxico, en lugar de depender únicamente de cambios distribucionales globales.

arxiv arXiv cs.CL · hace 4 h

5ting en la Tarea 8 de SemEval-2026: RAG multi-turn end-to-end fuerte mediante reranking basado en LLM y control de fidelidad

Los autores presentan 5ting, un sistema diseñado para la Tarea 8 de SemEval-2026 (MTRAGEval) que evalúa sistemas de Generación Aumentada por Recuperación (RAG) multi-turn. El sistema aborda desafíos como la deriva del contexto, la subespecificación y el riesgo de alucinación combinando recuperación densa con reranking basado en LLM y control de fidelidad.

arxiv arXiv cs.CL · hace 4 h

El voto mayoritario silencia los valores de la minoría: Desacuerdo entre anotadores en el límite entre odio/ofensivo en HateXplain

El estudio demuestra que colapsar el desacuerdo entre anotadores en etiquetas de voto mayoritario durante la anotación de discurso de odio no es neutral, ya que el 42.6% de todo el desacuerdo se concentra específicamente en el límite entre odio/ofensivo. Este patrón indica que los anotadores aplican diferentes umbrales para determinar dónde comienza el odio, creando un problema estructural en cómo se define la verdad fundamental.

arxiv arXiv cs.CL · hace 4 h

Traducción de documentos que preserva la estructura mediante un pipeline de LLM multi-etapa: Un estudio de caso en maratí

Este artículo presenta un marco para traducir documentos gubernamentales de maratí a inglés que mantiene la fidelidad del diseño y la integridad estructural, abordando las limitaciones de los sistemas existentes que descuidan el formato. El sistema integra OCR consciente del diseño, extracción de texto basada en coordenadas, traducción con LLM y reconstrucción HTML para garantizar la alineación espacial y la consistencia jerárquica.

arxiv arXiv cs.CL · hace 4 h

Clasificación de conceptos matemáticos con conjuntos de votación de LLM en Mathswitch

El proyecto de código abierto Mathswitch importa registros de conceptos matemáticos desde fuentes como Wikidata y Wikipedia, vinculando registros que se refieren al mismo concepto sin reorganizar el contenido original. Para abordar el ruido en los datos importados, como elementos no matemáticos o ambiguos, los autores prueban si un conjunto de votación de jueces LLM puede filtrar eficazmente este ruido.

arxiv arXiv cs.CL · hace 4 h

Etiquetado de datos de entrenamiento para coincidencia de entidades usando modelos de lenguaje grandes

Este artículo investiga el uso de modelos de lenguaje grandes como modelos maestros en flujos de trabajo de destilación de conocimiento para etiquetar automáticamente datos de entrenamiento para modelos estudiantes más pequeños en tareas de coincidencia de entidades. El estudio evalúa varias estrategias de selección de pares, modelos maestros y estudiantes, y métodos de postprocesamiento en cinco conjuntos de referencia estándar.

media Hugging Face Forums · hace 4 h

AgentSeal: Una auditoría de disponibilidad de corpus para SWE-bench Pro

La herramienta de auditoría AgentSeal v5 evaluó la disponibilidad pública de los artefactos en el benchmark SWE-bench Pro para evaluar riesgos potenciales de contaminación. El estudio encontró que, si bien 12 instancias mostraban una superposición de contenido determinista y 76 repositorios eran miembros probables del corpus, la mayoría de las pruebas consistían en replicación pública con fecha desconocida en lugar de contaminación pre-cutoff demostrada.

arxiv arXiv cs.CL · hace 5 h

Los impactos de seguridad heterogéneos del ajuste fino multilingüe benigno

Un estudio empírico exhaustivo revela que el ajuste fino de modelos de lenguaje grandes con datos multilingües benignos aumenta significativamente su tendencia a cumplir con prompts adversarios inseguros, un fenómeno denominado deriva de seguridad multilingüe. La investigación demuestra que los resultados de seguridad son altamente sensibles tanto al idioma utilizado para el ajuste fino como al idioma de evaluación, con tasas de cumplimiento que se cuadruplican en ciertos entornos.

arxiv arXiv cs.CL · hace 5 h

wav2VOT: Estimación automática del tiempo de inicio de voz, duración del cierre y realización de explosión con wav2vec2

El artículo presenta wav2VOT, una herramienta para la estimación automática del tiempo de inicio de voz, la duración del cierre y la realización de explosión que aprovecha el modelo wav2vec2. Aborda la necesidad de herramientas precisas de anotación de habla en la investigación fonética al demostrar cómo los grandes modelos de habla pueden aplicarse a estas tareas específicas.

arxiv arXiv cs.CL · hace 5 h

Análisis de compatibilidad de licencias de corpora para lenguas africanas con pocos recursos

Este artículo audita el origen de las licencias de más de veinte familias de corpus utilizadas en PLN africano, revelando que, aunque las licencias Creative Commons dominan las publicaciones, sus reglas de compatibilidad rara vez se aplican. Los autores construyen una matriz de compatibilidad de seis niveles y la aplican a tres lenguas de estudio de caso: Kituba/Munukutuba, Zarma y Moore.

arxiv arXiv cs.CL · hace 5 h

Atención de contexto largo gestionada por memoria: Un estudio preliminar de memoria local a la solicitud editable

Este estudio investiga la atención de contexto largo gestionada por memoria separando un núcleo recurrente o disperso rápido de ranuras de memoria local a la solicitud explícitas y editables, junto con una recuperación dispersa en tiempo de consulta. La investigación tiene como objetivo abordar las limitaciones de los métodos de atención lineales, recurrentes y dispersos existentes para gestionar cuándo se deben escribir, sobrescribir, proteger o descartar los hechos.

arxiv arXiv cs.CL · hace 5 h

PASTA: Un enfoque de paráfrasis y autoentrenamiento para la actualización de conocimientos en LLM

Este artículo presenta PASTA, un marco diseñado para integrar información factual detallada de artículos de noticias en Modelos de Lenguaje Grande (LLM) para abordar el desafío de la actualización de conocimientos. El enfoque combina aumento de datos, generación de preguntas y respuestas, y un novedoso proceso de autoaprendizaje de Optimización Directa de Preferencia (DPO) para habilitar la sobrescritura de conocimientos y la supresión de alucinaciones.

arxiv arXiv cs.CL · hace 5 h

MedEvoEval: Evaluación de la evolución continua de agentes médicos mediante episodios clínicos simulados

Los autores presentan MedEvoEval, un marco de evaluación longitudinal ejecutable diseñado para evaluar la evolución continua de agentes médicos a través de episodios clínicos ambulatorios simulados. Este sistema va más allá de las evaluaciones estáticas al rastrear cómo los agentes adquieren evidencia, utilizan recursos y refinan su toma de decisiones a lo largo de múltiples interacciones.

arxiv arXiv cs.CL · hace 5 h

Puentes latentes para respuesta de preguntas multitable

Los autores presentan GRAB, una arquitectura constructor-codificador-puente diseñada para la respuesta de preguntas sobre tablas que eleva los datos relacionales a un grafo heterogéneo y los codifica mediante paso de mensajes. El método transfiere señales a un modelo de lenguaje grande congelado a través de un pequeño conjunto de tokens latentes condicionados por la consulta, proporcionando una representación estructural compacta mientras preserva las capacidades generales de razonamiento del LLM.

arxiv arXiv cs.CL · hace 6 h

FinInvest-GTCN: Modelado causal temporal-gráfico explicable para la optimización de decisiones de inversión con conciencia de riesgo

Los investigadores presentan FinInvest-GTCN, una Red Temporal-Causal-Gráfica diseñada para optimizar las decisiones de inversión en capital de riesgo abordando desafíos como datos heterogéneos y series temporales no estacionarias. El modelo redefine la tarea desde la recomendación de contenido hasta la evaluación cuantitativa de riesgo-retorno, utilizando un codificador de grafos relacionales, fusión temporal multiescala y una cabeza de decisión causal para generar predicciones interpretables.