Todos los artículos — korshunov.ai

Todos los artículos Página 2 / 128

REAR: Realineación de preferencias en tiempo de prueba mediante descomposición de recompensas

Los autores presentan REAR, un marco novel que extiende el escalado en tiempo de prueba (TTS) a la alineación de preferencias modelando la tarea como un problema de realineación. Este enfoque aborda la limitación de los métodos TTS existentes, que típicamente se restringen a dominios verificables como matemáticas y programación.

arxiv arXiv cs.CL · hace 9 h

OLIVE: Predicción de latentes aumentados por vista con reconstrucción de forma de onda para SSL de habla

Los autores proponen OLIVE, un marco de aprendizaje de representaciones de habla auto-supervisado que optimiza conjuntamente objetivos de análisis y síntesis mediante predicción de latentes enmascarados aumentados por vista y reconstrucción de forma de onda. Este enfoque unificado restringe las características tempranas del codificador para retener información a nivel de señal, mientras moldea las representaciones contextuales posteriores hacia la invarianza para un rendimiento robusto en tareas posteriores.

arxiv arXiv cs.CL · hace 9 h

MaDI-Bench: Un Benchmark de Integración de Datos de Extremo a Extremo

El Benchmark de Integración de Datos de Mannheim (MaDI-Bench) se presenta como el primer benchmark público para la integración de extremo a extremo de tablas relacionales, abordando la falta de herramientas de evaluación integrales en el campo. Cubre todos los pasos del proceso de integración, incluido el emparejamiento de esquemas, la normalización de valores, el bloqueo de entidades, el emparejamiento de entidades y la fusión de datos.

arxiv arXiv cs.CL · hace 9 h

Descubriendo la dinámica impulsada por la saliencia en la confianza del consumidor con simulación social generativa

Este artículo presenta ConsumerSim, un marco generativo que reconstruye la dinámica del Índice de Confianza del Consumidor (CCI) utilizando una población sintética calibrada con microdatos y diversas señales económicas. El modelo se ubica en el primer lugar entre las líneas base para la precisión de la reconstrucción en las series CCI de EE. UU., la UE27 y Japón, particularmente durante choques de alta saliencia.

arxiv arXiv cs.CL · hace 9 h

MOPD: Distilación On-Policy de Multi-Maestro para la Integración de Capacidades en el Post-Entrenamiento de LLM

Los autores proponen la Distilación On-Policy de Multi-Maestro (MOPD), un paradigma de post-entrenamiento diseñado para integrar las capacidades de múltiples maestros de aprendizaje por refuerzo específicos del dominio en un único modelo estudiante. Este enfoque elimina el sesgo de exposición y proporciona una señal de optimización densa al destilar a los maestros en el estudiante durante sus propias ejecuciones.

arxiv arXiv cs.CL · hace 9 h

RAPS-DA: Especialización por pares consciente del régimen para RAG robusto

Los autores proponen RAPS-DA, un marco de especialización por pares consciente del régimen diseñado para abordar la fragilidad de la generación aumentada con recuperación (RAG) cuando el contexto recuperado entra en conflicto con el conocimiento paramétrico del modelo. Este enfoque desentraña las señales de aprendizaje incompatibles entre diferentes regímenes de confiabilidad mediante el entrenamiento de pares especializados y la aplicación de supervisión dirigida.

arxiv arXiv cs.CL · hace 10 h

Ajuste fino de un modelo de incrustación invariante a la permutación para la recuperación de metadatos estructurados

El artículo demuestra que el orden de los campos impacta significativamente la calidad de la recuperación en sistemas de metadatos estructurados porque el ajuste fino estándar hace que los codificadores dependan de la posición absoluta en lugar de las etiquetas de campo. Para abordar esto, los autores proponen el Ajuste Fino Invariante a la Permutación (PI-FT), un método que serializa registros bajo órdenes de campo muestreadas aleatoriamente con dropout para vincular el significado a las etiquetas.

arxiv arXiv cs.CL · hace 10 h

Percepción de la situación: un primitivo necesario para la superinteligencia artificial

El artículo argumenta que los modelos de lenguaje actuales carecen de una capacidad crítica llamada "percepción de la situación", esencial para lograr la superinteligencia artificial. Esta habilidad faltante implica construir y actuar dentro de simulaciones internas de mundos posibles a lo largo del tiempo latente.

arxiv arXiv cs.CL · hace 10 h

SIMAX: Un marco escalable e interpretable para la simulación de diálogos clínico-paciente con múltiples fidelidades y anotaciones

Los investigadores desarrollaron SIMAX, un marco diseñado para generar datos de diálogo clínico controlados con anotaciones de comportamiento de referencia para abordar la escasez de datos de evaluación escalables para sistemas de codificación de comunicación impulsados por IA. El sistema crea interacciones simuladas entre médico y paciente a partir de escenarios predefinidos, perfiles y condiciones de voz, utilizando codebooks específicos para controlar la calidad general de la comunicación y las comportamientos contables.

arxiv arXiv cs.CL · hace 10 h

TRACE: Detección de Arrastre Conversacional Consciente de la Relación Temporal en Habla Diádica

Los investigadores presentan DyadEE, un conjunto de datos para detectar arrastre emocional en habla diádica, y proponen TRACE, un marco a nivel de ventana que modela estas interacciones como secuencias ordenadas de incrustaciones acústicas. El estudio demuestra que incorporar el contexto conversacional y la información de la relación mejora significativamente la precisión de la detección.

arxiv arXiv cs.CL · hace 10 h

Poller: ¿Son los LLM adecuados para evaluar la tarea de comprensión poética?

Este artículo presenta Poller (Poetry LLM Evaluator), un método novedoso que aprovecha los modelos de lenguaje grandes para evaluar la comprensión poética emulando el juicio humano mediante la interpretación de roles. El enfoque requiere que los LLM adopten la perspectiva del autor del poema, utilizando información detallada para cerrar la brecha entre la eficiencia automatizada y la experiencia humana.

arxiv arXiv cs.CL · hace 10 h

FlashMorph: Selección de capas híbridas con restricciones presupuestarias para Transformers eficientes

FlashMorph es un método novedoso para convertir modelos Transformer en arquitecturas híbridas que equilibran la precisión de atención completa con la eficiencia de atención lineal, optimizando la selección de capas como un problema de subconjunto con restricciones presupuestarias. El enfoque construye un modelo morphable con ramas de atención paralelas y optimiza conjuntamente los umbrales capa por capa en datos sintéticos para determinar la configuración óptima.

arxiv arXiv cs.CL · hace 11 h

Los estados atractor emergen en conversaciones LLM multironda

Un estudio investiga si las discusiones abiertas de modelos de lenguaje grandes exhiben comportamiento similar al de atractores, analizando trayectorias a través de siete modelos y veinte temas controvertidos. La investigación compara debates diádicos de auto-juego y juego mixto para comprender cómo las conversaciones se asientan en conjuntos estables de comportamientos.

arxiv arXiv cs.CL · hace 11 h

Generación y toma de decisiones consciente de la incertidumbre bajo ambigüedad

Este estudio evalúa algoritmos de toma de decisiones conscientes de la incertidumbre basados en la teoría de decisión bayesiana y enfoques aversos al riesgo para tareas de LLM como tutoría y revisión por pares. Los autores utilizan predicción conformal para proporcionar garantías sobre estrategias y puntuaciones, encontrando que estos métodos pueden mejorar la utilidad de la generación pero requieren una implementación cuidadosa bajo alta ambigüedad.

arxiv arXiv cs.CL · hace 11 h

Escalar el horizonte, no los parámetros: alcanzar rendimiento de billones de parámetros con un agente de 35B

Los investigadores presentan Agents-A1, un modelo Mixture-of-Experts de 35B que logra un rendimiento comparable al de modelos de billones de parámetros escalando el horizonte del agente en lugar del conteo de parámetros. El enfoque se centra en extender trayectorias de largo alcance y unificar habilidades heterogéneas de agentes a través de una infraestructura de entrenamiento especializada.

arxiv arXiv cs.CL · hace 11 h

Modelos del Mundo de Autoevolución para la Planificación de Agentes LLM

El artículo presenta WorldEvolver, un marco que dota a los agentes LLM de horizonte largo de una previsión confiable mediante la revisión del contexto en el momento del despliegue sin modificar los parámetros del modelo. Aborda el problema de las predicciones no confiables que degradan la toma de decisiones a través de un enfoque de autoevolución que mejora la fidelidad predictiva y el rendimiento de la planificación.

media r/LocalLLaMA · hace 12 h

Cómo estoy usando modelos locales en la programación del mundo real

El autor comparte una configuración práctica para usar modelos de lenguaje grandes locales en hardware modesto, específicamente una laptop con 32 GB de RAM y una NVIDIA RTX 4070 con 8 GB de VRAM. La estrategia central implica ejecutar el modelo Qwen3.6-35B-A3B localmente como un 'agente de codificación pequeño' mientras se descarga la planificación compleja a una instancia en la nube basada en GLM 5.2.

arxiv arXiv cs.CL · hace 12 h

Un marco de diagnóstico y auditoría multi-evaluadora de las dinámicas de preferencia impulsadas por el evaluador en agentes LLM autoadaptativos

El artículo documenta cómo las mediciones de los evaluadores LLM propietarios pueden volverse inválidas en cuestión de semanas, presentando el marco EPC para detectar dicha inestabilidad. Aplica este diagnóstico a través de ocho condiciones experimentales, revelando que la inestabilidad condicional por versión hace que los estudios de evaluadores con una sola instantánea sean poco confiables.

arxiv arXiv cs.CL · hace 12 h

El costo oculto del remuestreo: Cómo la corrección del desequilibrio degrada la calibración de probabilidades en conjuntos de árboles

Este estudio evalúa el impacto de los métodos de remuestreo como SMOTE y el submuestreo aleatorio en la calibración de probabilidades en conjuntos de árboles, encontrando que, aunque el costo de SMOTE es pequeño, el submuestreo degrada severamente la calibración.

arxiv arXiv cs.CL · hace 12 h

¿Qué tan lejos llegan los LLM abiertos on-prem en Text-to-SQL? Una frontera de tamaño x técnica entre familias en BIRD

Este estudio evalúa el rendimiento de modelos de lenguaje grandes de peso abierto que se ejecutan on-premises para tareas de text-to-SQL utilizando un benchmark reproducible en la división de desarrollo de BIRD. Compara tres familias de modelos a lo largo de dos generaciones, ablando técnicas específicas para mejorar la precisión y determinar su valor real.