Todos los artículos — korshunov.ai

Todos los artículos Página 7 / 29

RPCL mejora la extracción de pares emoción-causa multimodales

RPCL, un marco de trabajo solo de entrenamiento, mejora la confianza en los pares de extracción de pares emoción-causa multimodales al imponer márgenes de confianza discriminativos y estables. Supera a un modelo base en ECF, MECAD y MEC4 entre 2.58 y 2.83 puntos porcentuales en F1 de par e mejora el AUPRC medio de pares en todos los conjuntos de datos, con una separación más fuerte entre pares de referencia y negativos difíciles.

arxiv arXiv cs.CL · hace 1 h En vivo

SAGE: Optimización estocástica de prompts mediante exploración guiada por agentes

SAGE es un marco de trabajo multiagente para la optimización de prompts que combina ejecución de código diagnóstico con validación cuantitativa. Mejora la retención de chatbots de salud mental agregando ocho ciclos de pruebas A/B ruidosas en ganancias estadísticamente significativas, demostrando efectividad en tareas de diálogo abierto mediante la integración de retroalimentación cualitativa y cuantitativa.

arxiv arXiv cs.CL · hace 1 h En vivo

REVES: Entrenamiento aumentado para escalado en tiempo de prueba

REVES introduce un marco iterativo de dos etapas que mejora el razonamiento de los modelos de lenguaje grandes mediante revisión y verificación secuenciales. Logra +6.5 puntos sobre las líneas base de RL y +4.0 puntos sobre el entrenamiento estándar de múltiples turnos en LiveCodeBench, utilizando un modelo base de 4B con menos rollouts que sistemas más grandes. El método mejora la corrección de errores y se generaliza a rompecabezas fuera de distribución como n_queens y mini_sudoku.

arxiv arXiv cs.CL · hace 1 h En vivo

Los LLM tienen dificultades con la negación en el lenguaje figurado

Un estudio descubre que los modelos de lenguaje grandes tienen dificultades para interpretar la negación en el lenguaje figurado. El rendimiento varía significativamente según el estilo del prompt, lo que destaca una limitación clave en la comprensión de estructuras lingüísticas complejas por parte de los modelos actuales.

arxiv arXiv cs.CL · hace 1 h En vivo

Graph-ESBMC-PLC: Verificación formal de programas PLCopen LD gráficos

Graph-ESBMC-PLC permite la verificación formal de programas de diagramas de escalera IEC 61131-3 mediante la introducción de un resolutor basado en DFS que convierte las conexiones gráficas de LD en una representación intermedia GOTO válida. La validación en tres programas del mundo real muestra la generación completa de IR y la verificación exitosa de propiedades de seguridad en k=2 dentro de 70ms, sin regresión en los benchmarks textuales.

arxiv arXiv cs.CL · hace 1 h En vivo

SenFlow: Detección avanzada de texto generado por IA en documentos híbridos

SenFlow introduce un método novedoso para detectar texto generado por IA en documentos híbridos modelando dependencias interoracionales. Logra un rendimiento de vanguardia en MOSAIC, una prueba con 16,000 documentos de PubMed y XSum, con una ganancia de +4.15 pp en Macro-F1 en transferencia entre dominios. SenFlow revela que el contenido generado por IA aún exhibe patrones de longitud de oración dependientes del generador, explotables por detectores a nivel de oración a pesar del filtrado de perplejidad.

media r/LocalLLaMA · hace 1 h En vivo

Buscando una herramienta alojada localmente para crear subtítulos en inglés a partir de vídeos

Un usuario busca una aplicación autocontenida y alojada localmente para generar subtítulos en inglés (en formato .srt o .ass) a partir de archivos de vídeo. Considera Qwen-ASR y Whisper como opciones sólidas, pero reporta un mal sincronismo de los subtítulos en las implementaciones de ComfyUI y un rendimiento poco fiable con modelos antiguos como los de storytoolkitAI. Pide recomendaciones que funcionen bien en Windows y puedan manejar múltiples idiomas.

arxiv arXiv cs.CL · hace 1 h En vivo

Desacoplar la búsqueda del razonamiento en agentes LLM

La fundamentación de búsqueda desacoplada (DSG) separa la funcionalidad de búsqueda de los modelos de razonamiento, permitiendo una fundamentación de búsqueda agnóstica al proveedor, ajustable y reutilizable. DSG logra una precisión casi nativa en SimpleQA con un costo de búsqueda 91% menor y una tasa de acierto en caché caliente del 99.4%, mientras reduce la latencia en un 68% y preserva los contratos de salida concisos.

arxiv arXiv cs.CL · hace 1 h En vivo

GraphPO: Optimización de políticas basada en grafos para modelos de razonamiento

GraphPO introduce un marco de grafos acíclicos dirigidos para representar rollouts de razonamiento, fusionando caminos semánticamente equivalentes para reducir la exploración redundante. Asigna ventajas de eficiencia y corrección a las aristas, mejorando la eficiencia de inferencia y la supervisión del proceso mientras reduce la varianza de estimación de ventaja. Los experimentos muestran que GraphPO supera a los métodos basados en cadenas y árboles en tres LLMs en tareas de razonamiento y búsqueda agéntica bajo presupuestos idénticos de tokens o respuestas.

arxiv arXiv cs.CL · hace 1 h En vivo

Evaluación de la demencia basada en el habla con mitigación de errores

Este estudio mejora la precisión en el cribado de la demencia utilizando características derivadas del habla del Syndrom-Kurz-Test alemán. Los modelos combinan puntuaciones de transcripción y embebidos de Whisper para reducir los errores de puntuación y aproximar las calificaciones de expertos compensando la falta de subpruebas motoras. El enfoque logra una fuerte correlación con las calificaciones de expertos y distingue eficazmente los grupos de estado cognitivo.

arxiv arXiv cs.CL · hace 1 h En vivo

CADE: Incrustación directa de pasos de tiempo para respuesta a preguntas en series temporales

CADE introduce incrustación directa de pasos de tiempo y alineación contrastiva para preservar la estructura de las series temporales en LLM. Al mapear cada paso de tiempo directamente al espacio de incrustación del LLM, evita cuellos de botella de tokenización y supera a las líneas base existentes en seis tareas de TSQA.

arxiv arXiv cs.CL · hace 1 h En vivo

G-IdiomAlign: Benchmark con pivote de glosa para la alineación de modismos multilingües

G-IdiomAlign introduce un benchmark con pivote de glosa que utiliza glosas en inglés de Wiktionary para anclar los modismos. Incluye protocolos de equivalencia de opción múltiple controlada y generación contrastiva basada en glosas, mostrando que las glosas mejoran el rendimiento en la alineación semántica, aunque los resultados siguen siendo modestos, lo que indica un potencial significativo para mejorar la generación de modismos entre idiomas.

arxiv arXiv cs.CL · hace 1 h En vivo

Fusión de Modelos Dirigible para Razonamiento Multilingüe

La Fusión de Modelos Dirigible (ST-Merge) introduce un mecanismo de atención cruzada con compuertas para ponderar adaptativamente los modelos fuente durante el razonamiento multilingüe. Supera a las líneas base existentes en cuatro benchmarks de razonamiento multilingüe en 21 idiomas al priorizar dinámicamente los modelos según las características de la entrada.

arxiv arXiv cs.CL · hace 1 h En vivo

Sumi: Modelo de lenguaje de difusión uniforme abierto desde cero

Sumi es un modelo de lenguaje de difusión uniforme de 7B parámetros preentrenado desde cero con 1.5T tokens. Compite con modelos autoregresivos en tareas de conocimiento, razonamiento y codificación, pero tiene un rendimiento inferior en benchmarks de sentido común, probablemente debido a su mezcla de datos centrada en la educación. Los pesos del modelo, los puntos de control y la receta completa de entrenamiento se han liberado públicamente.

arxiv arXiv cs.CL · hace 1 h En vivo

Liderazgo como control de coordinación en equipos de LLM multiagente

El control de coordinación a nivel de procesos aporta valor únicamente cuando el consenso mayoritario inicial es poco fiable, la tarea es recuperable y la interacción no guiada falla en reparar errores. A través de múltiples modelos y tareas, ningún estilo de liderazgo supera a los demás en precisión, lo que se alinea con la teoría contingente en lugar de sugerir un fallo del enfoque.

arxiv arXiv cs.CL · hace 1 h En vivo

Descodificación NAR-MBR para reconocimiento de voz rápido y preciso

La descodificación NAR-MBR mejora el reconocimiento de voz maximizando la utilidad esperada a partir de muestras de modelos no autoregresivos. Logra un mejor rendimiento que los métodos NAR anteriores y es más rápida que la descodificación autoregresiva en múltiples corpus.

arxiv arXiv cs.CL · hace 1 h En vivo

Eliminación de la Enfermedad del Índice mediante Separación Física Baseline-Log

En un proyecto de colaboración de IA con 391 sesiones, los LLMs exhibieron 'Enfermedad del Índice'—un fallo donde la complejidad simbólica conduce a salidas autorreferenciales desconectadas de la realidad. El 'Principio Pang' afirma que el lenguaje natural transmite una calidad semántica superior sobre los sistemas simbólicos, y el mecanismo de 'Separación Física Baseline-Log' redujo el volumen de instrucciones de IA en un 75% y eliminó la recurrencia de la Enfermedad del Índice en sesiones posteriores.

arxiv arXiv cs.CL · hace 1 h En vivo

Se lanza el conjunto de datos manuscritos Urdu Katib para investigación en UHTR

El conjunto de datos manuscritos Urdu Katib (UKHD) es un nuevo conjunto de datos de referencia de líneas de texto manuscrito offline en urdu, curado a partir de escritos históricos de Katib en caligrafía Nastalique. Evalúa modelos basados en CRNN, con la arquitectura CNN-BGRU-CTC mostrando las tasas de error más bajas, lo que la convierte en una base sólida para el reconocimiento de texto manuscrito en urdu.

arxiv arXiv cs.CL · hace 1 h En vivo

El Marco de Coevolución Humano-IA Revela la Emergencia de la Inteligencia Social

El Marco de Dinámicas de Coevolución Humano-IA (HACD-H) introduce un modelo unificado para la interacción humano-IA a largo plazo, integrando adaptación emocional, memoria y personalidad en un sistema cognitivo social autoorganizado. Los resultados muestran que la inteligencia social emerge a través de la coevolución, con una correlación negativa significativa entre la inteligencia social y la energía cognitiva social (r = -0.391, p < 0.001), y una reducción progresiva de la energía con el tiempo en las trayectorias de interacción.

arxiv arXiv cs.CL · hace 1 h En vivo

IndicContextEval: Benchmark para la Utilización de Contexto en LLMs de Audio

IndicContextEval introduce un benchmark multilingüe de 56 horas que presenta habla natural de 555 hablantes en 8 idiomas indios y 23 dominios. Emplea un marco de prompting de 7 niveles para probar progresivamente la utilización del contexto, incluyendo metadatos, descripciones e inputs adversarios. La evaluación de cinco modelos muestra diferencias significativas en el anclaje contextual, subrayando la necesidad de una evaluación explícita del uso del contexto en AudioLLMs.