Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 125

Los impactos de seguridad heterogéneos del ajuste fino multilingüe benigno

Un estudio empírico exhaustivo revela que el ajuste fino de modelos de lenguaje grandes con datos multilingües benignos aumenta significativamente su tendencia a cumplir con prompts adversarios inseguros, un fenómeno denominado deriva de seguridad multilingüe. La investigación demuestra que los resultados de seguridad son altamente sensibles tanto al idioma utilizado para el ajuste fino como al idioma de evaluación, con tasas de cumplimiento que se cuadruplican en ciertos entornos.

arxiv arXiv cs.CL · hace 5 h

wav2VOT: Estimación automática del tiempo de inicio de voz, duración del cierre y realización de explosión con wav2vec2

El artículo presenta wav2VOT, una herramienta para la estimación automática del tiempo de inicio de voz, la duración del cierre y la realización de explosión que aprovecha el modelo wav2vec2. Aborda la necesidad de herramientas precisas de anotación de habla en la investigación fonética al demostrar cómo los grandes modelos de habla pueden aplicarse a estas tareas específicas.

arxiv arXiv cs.CL · hace 5 h

Análisis de compatibilidad de licencias de corpora para lenguas africanas con pocos recursos

Este artículo audita el origen de las licencias de más de veinte familias de corpus utilizadas en PLN africano, revelando que, aunque las licencias Creative Commons dominan las publicaciones, sus reglas de compatibilidad rara vez se aplican. Los autores construyen una matriz de compatibilidad de seis niveles y la aplican a tres lenguas de estudio de caso: Kituba/Munukutuba, Zarma y Moore.

arxiv arXiv cs.CL · hace 5 h

Atención de contexto largo gestionada por memoria: Un estudio preliminar de memoria local a la solicitud editable

Este estudio investiga la atención de contexto largo gestionada por memoria separando un núcleo recurrente o disperso rápido de ranuras de memoria local a la solicitud explícitas y editables, junto con una recuperación dispersa en tiempo de consulta. La investigación tiene como objetivo abordar las limitaciones de los métodos de atención lineales, recurrentes y dispersos existentes para gestionar cuándo se deben escribir, sobrescribir, proteger o descartar los hechos.

arxiv arXiv cs.CL · hace 5 h

PASTA: Un enfoque de paráfrasis y autoentrenamiento para la actualización de conocimientos en LLM

Este artículo presenta PASTA, un marco diseñado para integrar información factual detallada de artículos de noticias en Modelos de Lenguaje Grande (LLM) para abordar el desafío de la actualización de conocimientos. El enfoque combina aumento de datos, generación de preguntas y respuestas, y un novedoso proceso de autoaprendizaje de Optimización Directa de Preferencia (DPO) para habilitar la sobrescritura de conocimientos y la supresión de alucinaciones.

arxiv arXiv cs.CL · hace 5 h

MedEvoEval: Evaluación de la evolución continua de agentes médicos mediante episodios clínicos simulados

Los autores presentan MedEvoEval, un marco de evaluación longitudinal ejecutable diseñado para evaluar la evolución continua de agentes médicos a través de episodios clínicos ambulatorios simulados. Este sistema va más allá de las evaluaciones estáticas al rastrear cómo los agentes adquieren evidencia, utilizan recursos y refinan su toma de decisiones a lo largo de múltiples interacciones.

arxiv arXiv cs.CL · hace 5 h

Puentes latentes para respuesta de preguntas multitable

Los autores presentan GRAB, una arquitectura constructor-codificador-puente diseñada para la respuesta de preguntas sobre tablas que eleva los datos relacionales a un grafo heterogéneo y los codifica mediante paso de mensajes. El método transfiere señales a un modelo de lenguaje grande congelado a través de un pequeño conjunto de tokens latentes condicionados por la consulta, proporcionando una representación estructural compacta mientras preserva las capacidades generales de razonamiento del LLM.

arxiv arXiv cs.CL · hace 6 h

FinInvest-GTCN: Modelado causal temporal-gráfico explicable para la optimización de decisiones de inversión con conciencia de riesgo

Los investigadores presentan FinInvest-GTCN, una Red Temporal-Causal-Gráfica diseñada para optimizar las decisiones de inversión en capital de riesgo abordando desafíos como datos heterogéneos y series temporales no estacionarias. El modelo redefine la tarea desde la recomendación de contenido hasta la evaluación cuantitativa de riesgo-retorno, utilizando un codificador de grafos relacionales, fusión temporal multiescala y una cabeza de decisión causal para generar predicciones interpretables.

arxiv arXiv cs.CL · hace 6 h

EVLA: Un Asistente Multimodal Consciente de la Electrificación para el Razonamiento y Control de Conducción Fundamentado en lo Físico

Los autores presentan el Asistente Electro-Visual-Lingüístico (EVLA), un marco que integra la comprensión multimodal de escenas con la percepción en tiempo real del estado electromecánico de un tren motriz electrificado para mejorar las decisiones de conducción. Este enfoque aborda la limitación de los modelos visuales-lingüísticos existentes que tratan la dinámica del vehículo como una caja negra, incorporando restricciones físicas y objetivos de optimización.

arxiv arXiv cs.CL · hace 6 h

A3M: Aprendizaje adaptativo, adversarial y multiobjetivo para licitación estratégica en subastas repetidas

El marco A3M aborda los desafíos del aprendizaje de la estrategia de oferta en subastas repetidas de múltiples unidades mediante la integración de aprendizaje por refuerzo profundo adaptativo, razonamiento adversarial y diseño de recompensas multiobjetivo. Utiliza una arquitectura base actor-crítico y modelado de oponentes para optimizar la estrategia frente a adversarios no estacionarios mientras equilibra utilidad, ingresos y equidad.

arxiv arXiv cs.CL · hace 6 h

Agrupación de representaciones no supervisadas como defensa contra ataques de envenenamiento en sistemas de clasificación de comandos de voz

Este artículo propone una defensa basada en filtrado contra ataques de envenenamiento con etiquetas sucias en sistemas de clasificación de comandos de voz, agrupando representaciones no supervisadas para identificar y eliminar datos de entrenamiento envenenados.

arxiv arXiv cs.CL · hace 6 h

Más allá de la media: fidelidad en tres ejes para alinear simuladores de encuestas basados en LLM a partir de datos piloto pequeños

Este estudio investiga si los modelos de lenguaje grandes pueden recuperar las características estadísticas de una población más amplia utilizando únicamente una pequeña muestra piloto de respuestas humanas. Los autores descomponen esta recuperación en tres ejes: fidelidad estructural, fidelidad marginal y fidelidad individual.

arxiv arXiv cs.CL · hace 6 h

¿Pueden los LLM contratar con equidad? Sesgo racial en el cribado de currículums

Una auditoría de catorce modelos de lenguaje grandes convencionales revela un cambio significativo en el sesgo racial dentro de los algoritmos de cribado de currículums en los últimos años. Mientras que los modelos de 2023 reproducen brechas a favor de los blancos en las llamadas de retorno, todos los modelos lanzados en 2024 o posterior muestran ya sea brechas nulas o reversiones significativas a favor de los negros.

arxiv arXiv cs.CL · hace 6 h

AgriTune-R: Un marco reproducible para el ajuste fino de LLMs en agricultura

El artículo presenta AgriTune-R, un marco reproducible y auditable diseñado para adaptar modelos de lenguaje grandes de propósito general a aplicaciones agrícolas específicas. Este enfoque aborda la naturaleza específica del dominio y crítica en seguridad de la agricultura integrando gobernanza de datos, evaluación de expertos y restricciones de evidencia para prevenir consejos no confiables.

arxiv arXiv cs.CL · hace 6 h

BERTomelo: Tu mejor amigo codificador en portugués

Este artículo presenta BERTomelo, un codificador monolingüe de próxima generación específicamente optimizado para el idioma portugués utilizando la arquitectura ModernBERT.

arxiv arXiv cs.CL · hace 6 h

Adaptación de dominio conversacional de IndicTrans2 mediante experiencia repetida y sopas de modelos

Los autores adaptan el sistema de traducción de código abierto IndicTrans2-1B para manejar el registro conversacional en 21 idiomas indios utilizando únicamente conjuntos de datos públicos. Al combinar la experiencia repetida con la sopa de modelos, logran mejoras significativas en las métricas automáticas sin degradar el rendimiento en tareas de dominio general.

arxiv arXiv cs.CL · hace 6 h

La fuerza de la evidencia clínica es recuperable a partir de las representaciones de LLM, no de los grados declarados

Un estudio de 22 modelos de lenguaje grandes de peso abierto revela que, si bien la fuerza de la evidencia clínica puede recuperarse a partir de las activaciones y el texto del modelo, los grados explícitamente declarados por los modelos no son mejores que el azar. Los investigadores analizaron 45.134 afirmaciones clínicas armonizadas en cuatro niveles de grados de evidencia para probar si los modelos registran y expresan la fuerza de la evidencia de manera distinta a la verdad factual.

arxiv arXiv cs.CL · hace 7 h

¿Cómo aprovechar el habla sintética para sistemas ASR basados en LLM?

Los investigadores investigan la brecha distribucional entre el habla sintética y real en sistemas de reconocimiento automático del habla (ASR) basados en LLM, analizando una arquitectura SLAM-ASR. Identifican que las señales discriminativas que separan ambos tipos de datos se concentran en las capas iniciales a medias del backbone del modelo.

arxiv arXiv cs.CL · hace 7 h

Descodificación difusa enmascarada como flujo de predicción x

Este artículo presenta un marco de descodificación continua para modelos de lenguaje de difusión enmascarada (MDLMs) que reinterpretar la predicción de máscaras como predicción de estado limpio para inducir un flujo continuo en el espacio de incrustaciones de entrada. Al permitir que los tokens acumulen progreso parcial y permanezcan revisables, el método aborda los compromisos prematuros inherentes a los regímenes estándar de desenmascaramiento binario.

arxiv arXiv cs.CL · hace 7 h

ThinkProbe: Perfilado estructural del razonamiento de LLM mediante grafos de pensamiento no generativos

ThinkProbe es un marco para el análisis estructural de las trazas de razonamiento de modelos de lenguaje grandes, convirtiéndolas en Grafos de Pensamiento dirigidos con ocho tipos de nodos y seis tipos de aristas. Deriva un perfil cognitivo de cinco dimensiones basado en 19 métricas a través de una pipeline completamente no generativa que combina segmentación basada en reglas y vinculación semántica discriminativa.