Todos los artículos
arxiv arXiv cs.CL · hace 1 h En vivo

Las métricas basadas en LLM mejoran la evaluación de la significancia clínica en radiología

Un estudio introduce métricas ligeras e interpretables que afilan el límite entre errores clínicamente significativos y variaciones inofensivas en los informes de radiología. Estas métricas superan a los grandes LLM médicos y compiten con modelos propietarios, habiéndose demostrado que el entrenamiento de un solo paso es eficaz para despliegues sensibles al costo. El ajuste de dos pasos no mejora consistentemente el rendimiento y desvía el enfoque de la detección de errores hacia la robustez.

arxiv arXiv cs.CL · hace 1 h En vivo

GateMem: Evaluación de la gobernanza de memoria en agentes de memoria compartida con múltiples principios

GateMem presenta un benchmark para agentes de memoria compartida con múltiples principios, evaluando utilidad, control de acceso y olvido activo en los dominios médico, de oficina, educativo y doméstico. Ningún método logra un rendimiento sólido en los tres aspectos de gobernanza; el uso de prompts de contexto largo ofrece los mejores resultados a alto costo, mientras que los enfoques basados en recuperación y memoria externa reducen el costo pero aún sufren fugas de información.

arxiv arXiv cs.CL · hace 1 h En vivo

La receta de datos mejora el razonamiento de contexto largo en LLMs

Un enfoque centrado en los datos mejora el razonamiento de contexto largo en modelos de lenguaje grandes, utilizando ocho conjuntos de datos curados con 14K ejemplos en tareas de recuperación, síntesis multi-evidencia y razonamiento. Al combinarse con entrenamiento GRPO basado mínimamente en resultados, logra ganancias promedio de +7.2 a +6.4 puntos en siete benchmarks, superando los conjuntos de entrenamiento RL previos, y mejora el rendimiento agénico en +4.8 y +7.0 puntos en GAIA y BrowseComp respectivamente.

arxiv arXiv cs.CL · hace 1 h En vivo

ScholarSum: Resumen abstractivo estudiante-profesor mediante razonamiento con grafos de conocimiento

ScholarSum introduce un marco de grafo de conocimiento jerárquico que emula un proceso estudiante-profesor para la resumización científica. Genera resúmenes fluidos y consistentes con los hechos, primero estructurando los documentos en unidades semánticas y luego refinando borradores mediante recuperación de evidencia y revisión iterativa por un componente similar a un profesor. Los experimentos muestran que ScholarSum supera a los métodos existentes en completitud y fidelidad factual.

arxiv arXiv cs.CL · hace 1 h En vivo

ImpSH mejora la detección de discurso de odio implícito en múltiples dominios

ImpSH, un marco basado en tripletes, alinea publicaciones con declaraciones implícitas y utiliza negativos semi-duros delimitados por contexto para mejorar la detección de discurso de odio implícito. Las evaluaciones en IHC, SBIC y DynaHate muestran que ImpSH supera a los métodos contrastivos supervisados estándar en configuraciones de dominio cruzado, con mayor estabilidad de representación y reducción de falsos negativos bajo cambios de dominio.

arxiv arXiv cs.CL · hace 1 h En vivo

Destilación con datos sintéticos para análisis de sentimiento financiero

Un marco transfiere conocimiento de modelos grandes ajustados por instrucciones a otros compactos utilizando datos sintéticos generados mediante estructuración de pocos ejemplos. La selección de semillas basada en agrupamiento produce ejemplos sintéticos más representativos que el muestreo aleatorio, permitiendo que los modelos compactos logren un rendimiento sólido con mínima etiquetación humana. En texto financiero complejo y ruidoso, el modelo estudiante supera al modelo maestro, mientras se mantiene competitivo en texto formal.

arxiv arXiv cs.CL · hace 1 h En vivo

RPCL mejora la extracción de pares emoción-causa multimodales

RPCL, un marco de trabajo solo de entrenamiento, mejora la confianza en los pares de extracción de pares emoción-causa multimodales al imponer márgenes de confianza discriminativos y estables. Supera a un modelo base en ECF, MECAD y MEC4 entre 2.58 y 2.83 puntos porcentuales en F1 de par e mejora el AUPRC medio de pares en todos los conjuntos de datos, con una separación más fuerte entre pares de referencia y negativos difíciles.

arxiv arXiv cs.CL · hace 1 h En vivo

SAGE: Optimización estocástica de prompts mediante exploración guiada por agentes

SAGE es un marco de trabajo multiagente para la optimización de prompts que combina ejecución de código diagnóstico con validación cuantitativa. Mejora la retención de chatbots de salud mental agregando ocho ciclos de pruebas A/B ruidosas en ganancias estadísticamente significativas, demostrando efectividad en tareas de diálogo abierto mediante la integración de retroalimentación cualitativa y cuantitativa.

arxiv arXiv cs.CL · hace 1 h En vivo

REVES: Entrenamiento aumentado para escalado en tiempo de prueba

REVES introduce un marco iterativo de dos etapas que mejora el razonamiento de los modelos de lenguaje grandes mediante revisión y verificación secuenciales. Logra +6.5 puntos sobre las líneas base de RL y +4.0 puntos sobre el entrenamiento estándar de múltiples turnos en LiveCodeBench, utilizando un modelo base de 4B con menos rollouts que sistemas más grandes. El método mejora la corrección de errores y se generaliza a rompecabezas fuera de distribución como n_queens y mini_sudoku.

arxiv arXiv cs.CL · hace 1 h En vivo

Graph-ESBMC-PLC: Verificación formal de programas PLCopen LD gráficos

Graph-ESBMC-PLC permite la verificación formal de programas de diagramas de escalera IEC 61131-3 mediante la introducción de un resolutor basado en DFS que convierte las conexiones gráficas de LD en una representación intermedia GOTO válida. La validación en tres programas del mundo real muestra la generación completa de IR y la verificación exitosa de propiedades de seguridad en k=2 dentro de 70ms, sin regresión en los benchmarks textuales.

arxiv arXiv cs.CL · hace 1 h En vivo

SenFlow: Detección avanzada de texto generado por IA en documentos híbridos

SenFlow introduce un método novedoso para detectar texto generado por IA en documentos híbridos modelando dependencias interoracionales. Logra un rendimiento de vanguardia en MOSAIC, una prueba con 16,000 documentos de PubMed y XSum, con una ganancia de +4.15 pp en Macro-F1 en transferencia entre dominios. SenFlow revela que el contenido generado por IA aún exhibe patrones de longitud de oración dependientes del generador, explotables por detectores a nivel de oración a pesar del filtrado de perplejidad.

media r/LocalLLaMA · hace 1 h En vivo

Buscando una herramienta alojada localmente para crear subtítulos en inglés a partir de vídeos

Un usuario busca una aplicación autocontenida y alojada localmente para generar subtítulos en inglés (en formato .srt o .ass) a partir de archivos de vídeo. Considera Qwen-ASR y Whisper como opciones sólidas, pero reporta un mal sincronismo de los subtítulos en las implementaciones de ComfyUI y un rendimiento poco fiable con modelos antiguos como los de storytoolkitAI. Pide recomendaciones que funcionen bien en Windows y puedan manejar múltiples idiomas.

arxiv arXiv cs.CL · hace 1 h En vivo

Desacoplar la búsqueda del razonamiento en agentes LLM

La fundamentación de búsqueda desacoplada (DSG) separa la funcionalidad de búsqueda de los modelos de razonamiento, permitiendo una fundamentación de búsqueda agnóstica al proveedor, ajustable y reutilizable. DSG logra una precisión casi nativa en SimpleQA con un costo de búsqueda 91% menor y una tasa de acierto en caché caliente del 99.4%, mientras reduce la latencia en un 68% y preserva los contratos de salida concisos.

arxiv arXiv cs.CL · hace 1 h En vivo

GraphPO: Optimización de políticas basada en grafos para modelos de razonamiento

GraphPO introduce un marco de grafos acíclicos dirigidos para representar rollouts de razonamiento, fusionando caminos semánticamente equivalentes para reducir la exploración redundante. Asigna ventajas de eficiencia y corrección a las aristas, mejorando la eficiencia de inferencia y la supervisión del proceso mientras reduce la varianza de estimación de ventaja. Los experimentos muestran que GraphPO supera a los métodos basados en cadenas y árboles en tres LLMs en tareas de razonamiento y búsqueda agéntica bajo presupuestos idénticos de tokens o respuestas.

arxiv arXiv cs.CL · hace 1 h En vivo

Evaluación de la demencia basada en el habla con mitigación de errores

Este estudio mejora la precisión en el cribado de la demencia utilizando características derivadas del habla del Syndrom-Kurz-Test alemán. Los modelos combinan puntuaciones de transcripción y embebidos de Whisper para reducir los errores de puntuación y aproximar las calificaciones de expertos compensando la falta de subpruebas motoras. El enfoque logra una fuerte correlación con las calificaciones de expertos y distingue eficazmente los grupos de estado cognitivo.