Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 63

Poda en cascada de múltiples granularidades para inferencia de LLM en dispositivos locales en IoT industrial

Este artículo presenta un marco de poda en cascada de múltiples granularidades diseñado para desplegar modelos de lenguaje grandes en dispositivos periféricos del Internet Industrial de las Cosas (IIoT) eliminando capas, cabezales de atención y canales de alimentación hacia adelante en un orden de grueso a fino. El método utiliza una recuperación ligera de bajo rango entre etapas para re-estimar la importancia de los componentes, abordando el colapso de los métodos estructurados de poda existentes a altas tasas de compresión.

arxiv arXiv cs.CL · hace 6 h

InfoKV: Compresión de caché KV consciente de la información para razonamiento largo

Los investigadores presentan InfoKV, un marco de trabajo consciente de la entropía que comprime los cachés de clave-valor combinando la incertidumbre predictiva a nivel de token con puntuaciones de atención para mejorar el razonamiento de contexto largo.

arxiv arXiv cs.CL · hace 6 h

Predictividad neuronal heterogénea de modelos de lenguaje durante la comprensión naturalista

Este estudio demuestra que los modelos de lenguaje congelados pueden servir como predictores neuronales efectivos para la actividad cerebral durante la comprensión de habla y texto naturales, al tiempo que distinguen la utilidad predictiva de las afirmaciones sobre la organización neuronal compartida. El análisis de datos MEG y ECoG reveló ganancias de predicción positivas generalizadas en comparación con las líneas base de bajo nivel, aunque las ventajas a nivel de participante fueron localizadas en lugar de uniformes.

arxiv arXiv cs.CL · hace 6 h

SamaVaani: Auditoría y desviación de sesgos en ASR clínico multilingüe para idiomas indios

Este estudio audita la fiabilidad de ocho modelos de Reconocimiento Automático del Habla (ASR) de última generación sobre datos reales de entrevistas psiquiátricas en kannada, hindi e inglés indio. Los resultados revelan una variabilidad sustancial entre modelos e idiomas, con algunos sistemas que compiten en inglés indio pero fallan en el habla regional.

arxiv arXiv cs.CL · hace 6 h

GAVEL: Verificación y localización de errores en descripciones fundamentadas

Los modelos de visión e idioma frecuentemente generan salidas alucinadas donde el texto y las imágenes están desalineados, lo que requiere métodos que no solo detecten estos errores sino que también los expliquen y localicen la evidencia visual. Los autores presentan GAVEL, una tarea diseñada para abordar conjuntamente la verificación, la explicación y la localización para pares de imagen-texto, acompañada por un conjunto de datos y benchmark correspondientes.

arxiv arXiv cs.CL · hace 6 h

Jailbreaking para la Jane promedio: Elección de jailbreaks óptimos mediante algoritmos de bandits

Este estudio investiga si actores maliciosos no expertos pueden lograr con éxito el jailbreaking de modelos de lenguaje grandes utilizando algoritmos de bandit para seleccionar ataques óptimos y mejorar las consultas. Los autores proponen una nueva estrategia de ataque basada en el marco de los multi-armed bandit para aprender eficientemente el mejor jailbreak a partir de un gran conjunto de opciones mediante exploración ruidosa.

arxiv arXiv cs.CL · hace 7 h

Inducción de jerarquías centradas en términos a partir de corpus heterogéneos

Los investigadores proponen un marco de trabajo centrado en términos para inducir taxonomías jerárquicas a partir de diversas fuentes de texto, abordando las limitaciones de los métodos existentes que dependen de representaciones a nivel de documento. Este enfoque mapea documentos en un espacio de representación compartido mediante la extracción automática de términos para permitir una alineación robusta entre fuentes y construir jerarquías interpretables.

arxiv arXiv cs.CL · hace 7 h

RedVox: Brechas de seguridad y equidad en modelos de voz entre idiomas

Un nuevo estudio revela brechas significativas de seguridad y equidad en modelos de voz multilingües, encontrando que solo el 8% de los lanzamientos de última generación documentan algún análisis multilingüe. Para abordar esto, los autores presentan RedVox, un benchmark construido con voces reales que cubren solicitudes inseguras en cinco idiomas.

arxiv arXiv cs.CL · hace 7 h

Modelos de Mundo Einstein: Visualización de contrafactuales para el razonamiento de LLM

El artículo presenta los Modelos de Mundo Einstein (EWM), un marco diseñado para mejorar el razonamiento de modelos de lenguaje grandes integrando trazados visuo-temporales en la cadena de razonamiento. Este enfoque permite a los modelos utilizar experimentos mentales visuales como hipótesis inspeccionables para complementar el procesamiento basado en texto.

arxiv arXiv cs.CL · hace 7 h

Auditoría de la inestabilidad conductual sensible al encuadre en LLMs para salud mental

Este estudio investiga cómo las preocupaciones semánticamente similares presentadas a través de diferentes encuadres contextuales elicitan respuestas variables en modelos de lenguaje grandes ajustados por instrucciones, desafiando potencialmente la fiabilidad del sistema. Utilizando prompts controlados emparejados y análisis de sondeo capa por capa, los autores demuestran que el encuadre altera sistemáticamente las tendencias de respuesta interpretativa a través de múltiples arquitecturas de modelos.

arxiv arXiv cs.CL · hace 7 h

ReaORE: Extracción de relaciones abiertas progresivas guiadas por razonamiento potenciada por modelos de razonamiento grandes

Los investigadores proponen ReaORE, un marco para la extracción de relaciones abiertas que utiliza modelos de razonamiento grandes para lograr una generalización confiable a tipos de relaciones no vistos. El método aborda las limitaciones de los enfoques actuales de agrupamiento y generación directa mediante un proceso de razonamiento de grueso a fino.

arxiv arXiv cs.CL · hace 7 h

¿Dónde encuentran la felicidad los modelos? Vectores de emoción en LLMs de código abierto

Este estudio investiga la presencia y estructura de vectores de emoción en modelos de lenguaje grandes de peso abierto, específicamente Apertus-8B-Instruct-2509 y Gemma-4-E4B-it. La investigación confirma que estos modelos codifican la geometría de la valencia con una alta correlación a las estructuras psicológicas humanas, acercándose a los niveles previamente observados en Claude Sonnet 4.5.

arxiv arXiv cs.CL · hace 7 h

MinGram: Un tokenizador unigrama minimalista con alta compresión y alineación morfológica competitiva

Los autores presentan MinGram, un tokenizador unigrama minimalista que simplifica el entrenamiento mediante el uso de un vocabulario inicial derivado de BPE, Hard EM en un camino de mínimo número de tokens y una única etapa de poda de puntuación plana. Este enfoque elimina la necesidad de matrices de sufijos, pasadas forward-backward y bucles iterativos de poda, haciendo que el procedimiento sea significativamente menos complejo que los métodos estándar.

arxiv arXiv cs.CL · hace 7 h

Mejora de la calibración de incertidumbre verbalizada en VQA médica

Este trabajo aborda la tendencia de los modelos de lenguaje multimodales grandes a producir salidas excesivamente seguras en la Respuesta Visual Médica a Preguntas, proponiendo un marco basado en entrenamiento que ajusta finamente estos modelos para una mejor calibración. El método emplea una función de pérdida compuesta que combina calibración estilo Brier, regularización de anclas, alineación contrasteiva de imagen-texto y términos de divergencia KL para alinear la confianza del modelo con la corrección real.

arxiv arXiv cs.CL · hace 7 h

Mejora de agentes de interpretación de roles generales mediante razonamiento basado en psicología y optimización de políticas consciente del rol

Los investigadores proponen Psy-CoT, un marco de cadena de pensamiento fundamentado en la psicología que descompone el razonamiento previo a la respuesta en Percepción de Interacción, Empatía Psicológica y Construcción Lógica para mejorar la fidelidad del personaje. Para abordar la desalineación de gradientes en el aprendizaje por refuerzo, introducen Optimización de Políticas Consciente del Rol (RAPO), que utiliza la información mutua entre tokens de perfil para ponderar los gradientes de forma asimétrica.

arxiv arXiv cs.CL · hace 7 h

NuclearQAv2: Un benchmark estructurado para evaluar la competencia en ciencias del dominio en modelos de lenguaje grandes

Los investigadores presentan NuclearQAv2, un nuevo benchmark diseñado para evaluar la fiabilidad de los modelos de lenguaje grandes en ingeniería nuclear mediante pruebas de conocimiento factual, razonamiento cuantitativo y comprensión conceptual.

arxiv arXiv cs.CL · hace 8 h

Hacia una Varianza Adjudicativa Explicable: Cuantificación de la Discreción Judicial mediante Aprendizaje Multi-Tarea con Puertas

Los investigadores proponen una arquitectura de Aprendizaje Multi-Tarea con Puertas Consciente del Juez que desentraña los hechos objetivos del caso del contexto adjudicativo para mejorar la predicción de resultados legales. El modelo utiliza una taxonomía de resultados de gran detalle y un mecanismo de fusión con puertas para modular dinámicamente la dependencia de la identidad del juez, evaluado en 13,937 decisiones de los Tribunales de Empleo del Reino Unido.

arxiv arXiv cs.CL · hace 8 h

El acertijo del acertijo: evaluando el razonamiento flexible en modelos de lenguaje grandes y humanos

Un estudio introduce el paradigma "acertijo del acertijo" para determinar si los modelos de lenguaje grandes (LLMs) dependen del razonamiento flexible o del emparejamiento de patrones, revelando que los humanos y los LLMs fallan en direcciones opuestas. En experimentos que involucraron a nueve LLMs de última generación y 100 participantes humanos, los LLMs tuvieron un rendimiento significativamente peor en acertijos del acertijo que en acertijos genuinos, mientras que los humanos mostraron la tendencia inversa.

arxiv arXiv cs.CL · hace 8 h

HarmVideoBench: Evaluación de la comprensión de videos dañinos en modelos multimodales grandes

Los investigadores presentan HarmVideoBench, un benchmark diagnóstico multicapa diseñado para evaluar la capacidad de los modelos de visión y lenguaje grandes (VLM) para comprender videos dañinos más allá de las señales superficiales. El benchmark aborda limitaciones en trabajos existentes al incorporar razonamientos explicativos y evaluar tres dimensiones jerárquicas del daño: Evidencia Observable, Significado Interno del Clip y Razonamiento Más Allá del Clip.

arxiv arXiv cs.CL · hace 8 h

Pronóstico con LLM: Generalización mejorada mediante dirección de características

Este estudio aplica Modelos de Lenguaje Grande a tareas de pronóstico y utiliza autoencoders dispersos para analizar sus estados internos, distinguiendo entre conocimiento específico del tiempo y patrones generalizables. La investigación identifica características específicas asociadas tanto con el razonamiento consciente del tiempo como con el sesgo de anticipación.