Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 49

SK Hynix retrasa el cambio a HBM4 para impulsar la producción de DRAM

SK Hynix está retrasando la conversión de algunas líneas de producción de HBM de quinta generación (HBM3E) hacia HBM4. La empresa tiene como objetivo redirigir la capacidad hacia DRAM de propósito general, que actualmente ofrece márgenes de beneficio operativo más altos, para mejorar los ingresos y la respuesta del mercado.

arxiv arXiv cs.CL · hace 1 h En vivo

Los Q-Sorts Simétricos Miden la Alineación de Valores-Estructura en LLMs

Un nuevo marco utiliza Q-sorts simétricos humano-LLM para evaluar cómo los modelos de lenguaje grandes se alinean estructuralmente con los valores morales. Al comparar clasificaciones de 140 declaraciones morales entre 12 LLMs y una muestra de referencia humana, el estudio identifica heterogeneidad trans-familiar e inalineaciones localizadas, mostrando que las puntuaciones globales de rendimiento pueden ocultar defectos estructurales. Los resultados destacan la necesidad de evaluaciones estructurales para complementar los benchmarks morales tradicionales a nivel de ítem.

arxiv arXiv cs.CL · hace 1 h En vivo

CapRiCorn-1K: Benchmark para la descripción de vídeo y consistencia del sujeto

CapRiCorn-1K es un benchmark que evalúa la calidad de la descripción de vídeo y la consistencia referencial del sujeto a través de diferentes duraciones y dominios de vídeo. Admite configuraciones tanto audiovisuales como solo visuales, revelando que los modelos actuales tienen dificultades para mantener referencias consistentes del sujeto, especialmente en vídeos más largos, con una disminución de la calidad y la consistencia de las descripciones a medida que aumenta la duración del vídeo. Las métricas del benchmark muestran una fuerte alineación con tareas posteriores, validando su efectividad.

arxiv arXiv cs.CL · hace 1 h En vivo

¿Están mejorando realmente los modelos multilingües? Aislamiento de la verdadera transferencia interlingual

Una nueva métrica, el Puntaje de Transferencia Ajustada por Dificultad (HAT), aísla la verdadera transferencia interlingual separándola de las ganancias de precisión en el idioma fuente. El análisis de 20 modelos lingüísticos muestra que la transferencia en modelos pequeños no está rota, el progreso con el tamaño del modelo es más lento de lo esperado y se han producido mejoras claras con el tiempo.

arxiv arXiv cs.CL · hace 1 h En vivo

OpenBioRQ: Benchmark para la Fidelidad de la Investigación Biomédica Agéntica

OpenBioRQ introduce un benchmark de 12,553 preguntas de investigación biomédica sin resolver en 12 dominios, diseñado para probar la fidelidad y la abstención de los modelos agénticos. Evalúa los modelos en un entorno de uso de herramientas sin claves de respuesta, utilizando evidencia real de seguimiento en lugar de conocimiento paramétrico, y revela un colapso agéntico significativo en las preguntas más difíciles donde las herramientas ya no se utilizan a pesar de ser críticas.

arxiv arXiv cs.CL · hace 1 h En vivo

ViRGo: Enrutamiento adaptativo para recuperación visual y percepción global

ViRGo introduce un marco ligero que adapta la recuperación visual según la escala del objeto. Utiliza localización intrínseca y confianza semántica para enrutar entre percepción global, recuperación basada en parches y recuperación basada en atención, mejorando los compromisos entre precisión y eficiencia sin computación adicional.

arxiv arXiv cs.CL · hace 1 h En vivo

Moshi-Face: Diálogo dúplex completo con generación facial

Moshi-Face es el primer modelo de diálogo hablado dúplex completo que procesa conjuntamente entradas de audio y faciales, generando tanto habla como movimiento facial sincronizado. Utiliza un codec facial VQ-VAE para codificar y reconstruir mallas de cabeza 3D a partir de videos faciales en tokens faciales discretos, y un módulo Face Transformer para generar estos tokens de forma no autoregresiva con el fin de lograr una salida audiovisual en tiempo real. Los experimentos muestran que Moshi-Face logra una alineación audiovisual con baja latencia mientras mantiene la calidad original del diálogo.

arxiv arXiv cs.CL · hace 1 h En vivo

¿Pueden los LLM controlar la legibilidad en árabe?

Un marco de evaluación multidimensional evalúa la generación de texto en árabe controlado por CEFR mediante LLM. Los resultados muestran que el prompting guiado por CEFR con restricciones léxicas logra una alta alineación con los perfiles lingüísticos y la legibilidad predicha, mientras que el prompting sin restricciones muestra un control débil.

arxiv arXiv cs.CL · hace 1 h En vivo

Adaptación bayesiana factorizada para el cambio de código en ASR multilingüe

Un nuevo método llamado adaptación bayesiana factorizada permite que los modelos de ASR multilingüe de alto rendimiento manejen el cambio de código sin degradar el rendimiento monolingüe. Integra eficientemente conocimientos relevantes para el cambio usando datos sintéticos mínimos, reduciendo los errores de transcripción en un 32.87% y el WER general en un 5.31%.

arxiv arXiv cs.CL · hace 1 h En vivo

CFAgentBench: Benchmark para Agentes de Construcción-Finanzas Autónomos

CFAgentBench introduce un entorno reproducible y autoalojable con 1.014 tareas calificables por máquina en ocho dominios, basado en fuentes del mundo real. Cuenta con 40 tareas validadas por oráculo con evaluadores ejecutables que miden la corrección funcional mediante diferencias de estado y expresiones regulares de salida, incluyendo un guardián de movimiento de dinero que requiere aprobación humana para los pagos. Un hallazgo clave es que los mejores agentes pierden el 43% de sus éxitos al repetir tareas bajo decodificación con temperatura-0, lo que indica que el rendimiento en un solo intento no refleja la capacidad de implementación en el mundo real.

arxiv arXiv cs.CL · hace 1 h En vivo

Evaluación de LLMs para la conversión de grafema a fonema en japonés

Un estudio evalúa más de 30 modelos de lenguaje grandes en la conversión de grafema a fonema en japonés utilizando 3000 oraciones anotadas manualmente. Los mejores LLMs logran una tasa de error de caracteres kana inferior al 0.52%, superando a la mejor herramienta convencional (1.03%). El modo de análisis, con postprocesamiento basado en reglas, funciona mejor que el modo directo para la mayoría de los modelos, y las kana predichas por LLM mejoran la pronunciación de TTS cuando se alimentan a un TTS de entrada kana.

arxiv arXiv cs.CL · hace 1 h En vivo

NL2Scratch: Benchmark ejecutable para la generación de NL a Scratch

NL2Scratch introduce un benchmark ejecutable con 311.648 pares NL-programa válidos del analizador, derivados de proyectos reales de Scratch. Propone la Coherencia de Alineamiento Semántico (SAC) para medir el acuerdo semántico, validando 23.594 ejemplos y creando un benchmark diagnóstico equilibrado en 800 ranuras. Los experimentos muestran una brecha significativa entre la similitud léxica y el alineamiento semántico, con modelos que logran alta F1 a nivel de token pero que a menudo no alcanzan SAC perfecto, especialmente en ejemplos más largos.

arxiv arXiv cs.CL · hace 1 h En vivo

Receta de datos web para el preentrenamiento de codificadores médicos

Un nuevo método utiliza filtrado por densidad de términos médicos y reformulación amplificadora de señales para mejorar el preentrenamiento de codificadores médicos en francés. El enfoque supera los filtros de calidad educativa y produce FineMed y DoctoBERT, alcanzando resultados de vanguardia en DrBenchmark y una tarea de NER clínico.

arxiv arXiv cs.CL · hace 1 h En vivo

¿Pueden los modelos de razonamiento detectar cambios en sus cadenas de pensamiento?

Los recientes modelos de razonamiento muestran solo una capacidad modesta para detectar cambios en sus cadenas de pensamiento. Tienen dificultades para identificar cómo se modificó su CoT y realizan de manera similar al evaluar cambios en sus propias CoTs frente a las de otros modelos.

arxiv arXiv cs.CL · hace 1 h En vivo

Epistemologías plurales en la tecnología del lenguaje de IA

El artículo sostiene que la alineación cultural en el PLN requiere epistemologías plurales, no solo datos diversos. Propone un modelo socio-técnico para analizar cómo múltiples formas de conocimiento arraigadas localmente pueden integrarse en la tecnología del lenguaje, enfatizando que los enfoques actuales a menudo no abordan problemas más profundos de poder y gobernanza.

arxiv arXiv cs.CL · hace 1 h En vivo

TSCognition y TSAlign avanzan en el razonamiento de series temporales con LLMs

TSCognition introduce un benchmark multimodal con 41K muestras de QA en cinco tareas de razonamiento cognitivo. TSAlign supera a los modelos existentes en TSCognition y TimerBed mientras reduce el costo computacional, utilizando representaciones a nivel de parche y alineación en el espacio de incrustación de LLM.

arxiv arXiv cs.CL · hace 1 h En vivo

BioMatrix: Primer modelo de base biológico multimodal nativo

BioMatrix integra secuencias, estructuras y lenguaje para moléculas y proteínas en una única arquitectura solo de decodificador. Alcanza rendimiento de última generación o competitivo en 77 de las 80 tareas posteriores, demostrando capacidades generalistas multimodales efectivas sin componentes externos.

arxiv arXiv cs.CL · hace 1 h En vivo

π-RAG: Recuperación ciega mediante cuantización semántica y direccionamiento trascendental

π-RAG desacopla los LLM de los datos sensibles utilizando los dígitos de π como una fuente inmutable e inalterable de entropía. Introduce una capa de cuantización semántica que mapea las entradas del usuario a centroides de intención canónicos, luego utiliza sal criptográfica para generar desplazamientos deterministas que apuntan a cargas útiles estandarizadas, garantizando recuperación ciega y garantías matemáticas de privacidad de datos.

arxiv arXiv cs.CL · hace 1 h En vivo

Brecha de granularidad en la puntuación de confianza de LLM

Un estudio compara siete métodos de puntuación de confianza en 25 pares modelo-dataset, encontrando que la confianza verbalizada single-shot clasifica bien los casos pero ofrece solo unos pocos valores distintos, limitando los umbrales del operador. La agregación multi-query amplía la brecha de granularidad de la puntuación, mejorando a los modelos débiles pero degradando a los fuertes, con compensaciones que informan el despliegue práctico.

arxiv arXiv cs.CL · hace 1 h En vivo

Medición del verdadero consenso emergente en sociedades de agentes LLM

Una nueva métrica, la ganancia de acoplamiento gamma, mide cómo los agentes ajustan sus opiniones cuando las perspectivas de sus vecinos se perturban. Revela que los LLM de vanguardia no se polarizan espontáneamente, y un diagnóstico de la opinión final frente a la inicial muestra que el supuesto consenso emergente en trabajos previos involucra artefactos del modelo. El consenso válido emerge solo cuando se considera el acoplamiento a nivel de grupo y coincidente en modalidad, no las interacciones con un solo vecino.