Todos los artículos
arxiv arXiv cs.CL · hace 2 h

Gemelos digitales cognitivos: riesgos éticos y gobernanza

Los gemelos digitales cognitivos (CDT) son modelos computacionales dinámicos de la cognición individual, actualizados a partir de datos personales para simular o actuar en nombre de los usuarios. Este artículo presenta un marco de gobernanza 5A—autoridad, autonomía, acceso y control, responsabilidad y disponibilidad—para abordar riesgos éticos como la tergiversación, asimetrías de poder por proxy y gemelos sombra, enfatizando la necesidad de gobernar la representación cognitiva en sí misma, no solo la toma de decisiones o el uso de datos.

arxiv arXiv cs.CL · hace 2 h

Marco de Doble Vía para Conversión de LaTeX con Plantillas Restringidas

Un nuevo Marco de Doble Vía desacopla el formato de plantillas del procesamiento de documentos mediante una vía offline que extrae las restricciones de la plantilla en un manifiesto reutilizable y una vía online con un pipeline híbrido. Limita el uso de LLM a tareas de razonamiento como el manejo de metadatos y bibliografía, mientras aplica motores basados en reglas para operaciones deterministas, mejorando la fidelidad estructural, el cumplimiento del diseño y el éxito de compilación en comparación con los métodos base.

arxiv arXiv cs.CL · hace 2 h

Autoevolución de agentes con capacidad de llamada de herramientas mediante aprendizaje de preferencia en puntos de divergencia

ToolGraph mejora los agentes multi-turno que utilizan herramientas integrando topología de esquemas, pesos de transición y controles conscientes del historial. El entrenamiento con DPO en 161 pares de preferencia en puntos de divergencia mejora el rendimiento: ToolGraph+DPO logra una ganancia relativa de recompensa del 16.8% sobre la línea base, especialmente en tareas de aerolíneas y comercio minorista, emergiendo la positividad de la recompensa como la señal diagnóstica clave.

arxiv arXiv cs.CL · hace 2 h

PRIDE: Destilación de conocimiento mejorada con información privilegiada para la generación de diálogos empáticos

PRIDE introduce un método de destilación de conocimiento que transfiere el razonamiento empático de modelos grandes a más pequeños utilizando información privilegiada disponible solo durante el entrenamiento. Logra un rendimiento competitivo o superior en tareas relacionadas con la empatía mediante el uso de prompts estructurados, atención multi-fuente y una pérdida de alineación dual.

arxiv arXiv cs.CL · hace 2 h

El Benchmark AFTER Evalúa la Memoria Procedural en Agentes LLM

AFTER introduce un benchmark de 382 tareas empresariales en seis roles y 22 habilidades para evaluar la transferencia de habilidades entre tareas, roles y modelos. Los resultados muestran que la memoria procedural mejora el rendimiento en 3.7-6.7 puntos por refinamiento y alcanza una precisión cruzada entre modelos del 73.1%, con algunas habilidades generalizándose ampliamente y otras especializándose en flujos de trabajo específicos del rol.

arxiv arXiv cs.CL · hace 2 h

Koshur Pixel: Primer conjunto de datos sintético a gran escala de OCR para cachemiro

Koshur Pixel presenta un conjunto de datos sintético de OCR con 613,078 pares de imagen-texto generados a partir del corpus KS-PRET-5M utilizando SynthOCR-Gen. Incluye más de 25 estrategias de aumento y abarca diversas fuentes tipográficas y escalas textuales, desde palabras hasta documentos de página completa, permitiendo un entrenamiento escalable para sistemas de OCR en cachemiro.

arxiv arXiv cs.CL · hace 2 h

El idioma moldea el crédito histórico en los grandes modelos de lenguaje

Un estudio de 11 grandes modelos de lenguaje a través de 21 invenciones disputadas muestra que el idioma de la consulta influye sistemáticamente en qué inventor recibe el crédito. Los reclamantes de menor estatus aparecen con mayor frecuencia cuando las preguntas se formulan en su idioma nativo, mientras que las figuras angloparlantes dominantes permanecen consistentes. Los hallazgos sugieren que el idioma actúa como un interruptor que activa versiones nacionales distintas de la historia, indicando que los LLM funcionan como sistemas de memoria cultural.

arxiv arXiv cs.CL · hace 2 h

La reputación de marca construida por IA está vinculada al idioma

Las reputaciones de marca generadas por IA varían significativamente según el idioma, con las lenguas urálicas y bálticas mostrando un sentimiento más positivo y las lenguas germánicas, incluido el inglés, siendo más críticas. El idioma de la consulta impacta en qué marcas se recomiendan, especialmente para los campeones locales, donde las consultas en el idioma nativo aumentan la visibilidad en 0.80 puntos en comparación con las consultas en inglés. La monitorización exclusivamente en inglés no logra captar la total visibilidad de IA de las marcas con sede local, creando un punto ciego lingüístico medible.

arxiv arXiv cs.CL · hace 2 h

Modelo TTS de Flow-Matching Simula el Efecto Lombard

Se presenta un modelo de texto a voz basado en flow-matching para simular el efecto Lombard, donde las personas hablan más fuerte y con mayor claridad en entornos ruidosos. El modelo permite un control continuo y desacoplado del esfuerzo vocal y la articulación, con énfasis a nivel de palabra para mejorar la claridad. Los experimentos muestran una mejor claridad acústica e inteligibilidad en condiciones ruidosas en comparación con los sistemas base.

arxiv arXiv cs.CL · hace 2 h

DART: Enrutamiento sin entrenamiento para presupuestos de pensamiento adaptativos

DART permite a los modelos de razonamiento híbrido enrutar consultas entre respuesta directa y pensamiento extendido sin datos de entrenamiento. Utiliza dos borradores sin pensar para decidir el modo de respuesta y estima el presupuesto de pensamiento a partir del desacuerdo entre borradores. DART mejora la precisión hasta en 9.0 puntos en matemáticas y 22.-5 puntos en razonamiento de código, mientras reduce los tokens de pensamiento entre un 15-69% y un 51-63% respectivamente.

arxiv arXiv cs.CL · hace 2 h

AgentCIBench evalúa los riesgos de privacidad en agentes de uso informático

AgentCIBench presenta un benchmark para evaluar los riesgos de privacidad en agentes de uso informático. Identifica tres modos de fallo clave: co-localización visual, exceso de información por ambigüedad de tarea y desalineación del destinatario, y encuentra que 11 de los 15 agentes evaluados filtran datos personales en más del 50% de los escenarios, con una filtración promedio del 67.9%.

arxiv arXiv cs.CL · hace 2 h

Contagio de memoria: propagación de sesgo en la memoria del agente

Los investigadores identifican el Contagio de Memoria, un fenómeno donde el sesgo del evaluador se propaga a lo largo del tiempo en la memoria del agente. Incluso con una consolidación de memoria perfecta, el sesgo se extiende a futuros agentes que recuperan información desde el mismo almacén de memoria, detectándose contaminación tan baja como p=0.2. El efecto varía según el tipo de sesgo: el sesgo de longitud se atenúa, mientras que el sesgo de autoridad se amplifica, lo que indica una interacción dependiente del sesgo.

arxiv arXiv cs.CL · hace 2 h

Análisis sensible a la tarea de la autocorrección intrínseca

Un estudio examina cuándo funciona la autocorrección intrínseca analizando su rendimiento en diferentes estructuras de tareas. La investigación encuentra que la autocorrección produce ganancias consistentes solo cuando la tarea admite verificación explícita de restricciones, revisión de razonamiento complejo o evaluación de estrategias. Los resultados muestran que SC es efectiva solo en contextos de tareas específicos, no universalmente.

arxiv arXiv cs.CL · hace 2 h

MuPPET: Benchmark para la privacidad de LLMs en múltiples partes

MuPPET introduce un benchmark para la privacidad contextual en conversaciones entre múltiples partes. Los experimentos revelan que los modelos filtran significativamente más información privada en entornos grupales que en interacciones uno a uno, siendo los modelos de pesos abiertos más pequeños especialmente vulnerables. Las defensas de privacidad existentes proporcionan solo protección parcial y no abordan el problema central del seguimiento de las partes.

arxiv arXiv cs.CL · hace 2 h

Expansión fundamentada en juicios para la generación de revisiones por pares

Un nuevo método de colaboración humano-IA llamado expansión fundamentada en juicios permite la generación responsable de revisiones por pares. El enfoque implica que un revisor proporcione una afirmación evaluativa, la cual el sistema expande en candidatos a comentarios de revisión mediante un proceso estructurado de generar-verificar-refinar. El estudio aborda la evaluación escalable y la curación del conjunto de candidatos, mostrando que la predicción conforme equilibra eficazmente el tamaño de los candidatos y la cobertura.

arxiv arXiv cs.CL · hace 2 h

KDoS: Síntesis optimizada por distribución para la expansión del conocimiento de LLM

KDoS introduce la densidad de conocimiento para guiar la generación de datos sintéticos a través de un mecanismo de retroalimentación en tres etapas. Los experimentos en modelos de 0.6B a 16B y escalas de datos de 1B a 5B tokens muestran que una distribución óptima del conocimiento maximiza consistentemente la expansión del límite de conocimiento, es estable entre diferentes arquitecturas de modelos y supera a los métodos base en seis benchmarks de conocimiento.

arxiv arXiv cs.CL · hace 2 h

Benchmark IMLogic y Framework RootMem para la Recuperación de Memoria Lógica Implícita

IMLogic es el primer benchmark de alta calidad para evaluar la recuperación de memoria lógica implícita en escenarios de diálogo largo. RootMem introduce una representación estructurada y preservadora de decisiones llamada memoria raíz para destilar lógica personalizada reutilizable a partir de historiales de usuario, y utiliza un enrutador basado en LLM para activar las memorias relevantes, superando a las líneas base de recuperación existentes en precisión.

arxiv arXiv cs.CL · hace 2 h

El ancho de segmentación y el tamaño del clúster impactan la resíntesis de habla en GSLMs

Variar el ancho de segmentación y el tamaño del clúster en modelos de lenguaje hablado generativos permite una síntesis de habla inteligible y natural a tasas de bits más bajas que las de referencia. La calidad de la continuación del habla permanece estable a estas tasas de bits más bajas según múltiples métricas, lo que indica que los ajustes convencionales pueden no ser necesarios. Las métricas basadas en LLM se correlacionan mejor con los juicios humanos pero aún muestran una alineación baja, subrayando la necesidad de mejorar la evaluación automática.