Todos los artículos — korshunov.ai — noticias de ML

Todos los artículos Página 1 / 30

arxiv arXiv cs.CL · hace 1 h En vivo

Optimización de Preferencias Culturales Dirigibles en Modelos de Recompensa

Este artículo presenta SCPO, un nuevo algoritmo de entrenamiento de modelos de recompensa que equilibra diversas preferencias culturales entre subcomunidades. SCPO mejora el rendimiento de los modelos de recompensa de minorías hasta en 7 puntos en dos conjuntos de datos y siete países, mientras que es hasta un 280% más eficiente en el uso de datos de entrenamiento que el ajuste fino con todos los datos. El análisis muestra una reducción del sesgo a través de la evaluación dirigida de las preferencias de la subcomunidad.

arxiv arXiv cs.CL · hace 1 h En vivo

PhysAssistBench evalúa LLMs en la interacción médico-paciente-EHR

PhysAssistBench introduce un benchmark para la asistencia interactiva médico-paciente-EHR utilizando casos reales de MIMIC-IV. Presenta 1,296 turnos revisados manualmente y validados por médicos, y revela que los LLMs actuales tienen dificultades para coordinar el conocimiento clínico, la comunicación y la interacción con sistemas EHR.

arxiv arXiv cs.CL · hace 1 h En vivo

BCL: Aprendizaje en contexto bayesiano para extracción de información

BCL es el primer marco que utiliza filtrado de partículas y actualizaciones bayesianas para refinar sistemáticamente las representaciones de etiquetas en la extracción de información. Logra un rendimiento consistente a través de escalas de modelos y se generaliza tanto al etiquetado de secuencias como a la clasificación de relaciones mediante cuatro pasos clave: inicialización, observación, actualización de pesos y remuestreo.

arxiv arXiv cs.CL · hace 1 h En vivo

PragReST: Razonamiento contrafáctico auto-reforzante para la comprensión del lenguaje pragmático

PragReST es un marco de aprendizaje autosupervisado que mejora el razonamiento pragmático de los modelos de lenguaje grandes mediante la generación de trazas de razonamiento contrafáctico y el entrenamiento mediante ajuste fino supervisado y aprendizaje por refuerzo. Supera a los modelos base en cuatro benchmarks pragmáticos, mejorando la precisión de Qwen3-8B y Qwen3-14B en un 5.37% y un 5-5.50% respectivamente, y mantiene un rendimiento sólido en tareas de razonamiento sobre conocimiento general y matemático.

arxiv arXiv cs.CL · hace 1 h En vivo

Los segmentos de mitad a finales de los artículos de investigación revelan información metodológica clave

Este estudio encuentra que la información metodológica en los artículos de investigación está distribuida de manera desigual, con los segmentos de mitad a finales y los finales mostrando mayor poder discriminativo. Combinar estos segmentos con metadatos bibliográficos mejora la precisión de la clasificación automática del método de investigación en la ciencia de la biblioteca y la información.

arxiv arXiv cs.CL · hace 1 h En vivo

PEC-Home: Conjunto de datos simulado para la interpretación de comandos elípticos

PEC-Home es el primer conjunto de datos simulado diseñado para permitir que los asistentes del hogar inteligente interpreten comandos progresivamente elípticos. Los experimentos muestran que incluso con herramientas de historial de diálogo, modelos de lenguaje grandes como GPT-4o no logran una ejecución precisa de comandos a partir de entradas elípticas, lo que destaca una brecha significativa en las capacidades actuales de los asistentes.

arxiv arXiv cs.CL · hace 1 h En vivo

RegMix-D: Mezcla dinámica de datos mediante trayectorias de entrenamiento de proxies

RegMix-D extiende RegMix aprovechando las trayectorias completas de pérdida de ejecuciones proxy para seleccionar dinámicamente mezclas de datos. Supera a RegMix y DoReMi en 13 tareas downstream, logrando resultados superiores con solo 128 modelos proxy—el 25% del presupuesto computacional de RegMix.

arxiv arXiv cs.CL · hace 1 h En vivo

El marco EARS mejora la fiabilidad de los sistemas multi-agente

EARS introduce la abstención explicativa en sub-agentes para mejorar la fiabilidad en sistemas multi-agente a gran escala. Al proporcionar razones de fallo accionables a los coordinadores, EARS aumenta la tasa general de respuestas exitosas del 68.5% al 78.9% en un asistente de comercio electrónico en producción.

arxiv arXiv cs.CL · hace 1 h En vivo

ForecastBench-Sim: Benchmark de pronóstico en mundo simulado

ForecastBench-Sim es un benchmark de pronóstico en mundo simulado que utiliza ejecuciones del juego Freeciv. Permite pronósticos continuos o binarios en horizontes arbitrarios, con mundos de intervención para preguntas causales y resultados raros, y proporciona retroalimentación inmediata y resoluble para evaluar el razonamiento probabilístico en entornos dinámicos.

arxiv arXiv cs.CL · hace 1 h En vivo

La Red de Sincronización Frustrada supera a los Transformers

La Red de Sincronización Frustrada (FSN) logra una pérdida de validación menor que un transformer RoPE-SwiGLU en cada época en tareas de texto y código a nivel de caracteres. Con un millón de parámetros, FSN converge a una pérdida de validación de 1.5953 ± 0.0014, superando la pérdida convergida del transformer de 1.611. Esta ventaja persiste hasta cuatro millones de parámetros, con evaluaciones en curso más allá de esa escala.

arxiv arXiv cs.CL · hace 1 h En vivo

TW-LegalBench: Evaluando LLMs en la Ley de Taiwán

TW-LegalBench introduce un benchmark que utiliza el corpus legal público de Taiwán para evaluar el rendimiento de los modelos de lenguaje grandes en la ley taiwanesa. Incluye más de 16,000 preguntas de opción múltiple, 117 preguntas de ensayo abiertas con rúbricas de puntuación y más de 14,000 instancias de predicción de fallos. La evaluación muestra que los mejores modelos superan los umbrales de aprobación de los abogados (11%) pero se quedan cortos en el nivel de jueces/fiscales (1-2%), y tienen dificultades con las citas precisas de artículos legales en las predicciones de sentencias.

arxiv arXiv cs.CL · hace 1 h En vivo

Los LLM tienen dificultades para capturar la discriminación de ítems en evaluaciones de lectura

Un estudio descubre que los modelos de lenguaje grandes no logran medir de manera confiable la discriminación de ítems en evaluaciones de comprensión lectora. Aunque algunos modelos muestran una alineación débil con las puntuaciones calibradas por humanos —que oscilan entre 0.152 y 0.241—, los LLM actuales no capturan adecuadamente cómo los ítems de evaluación distinguen a estudiantes de diferentes niveles de competencia.

arxiv arXiv cs.CL · hace 1 h En vivo

Morpheus: Tokenizador y embebido neuronal para turco

Morpheus es un tokenizador y embebido de palabras neuronal consciente de la morfología para turco que preserva el texto original mediante codificación y decodificación sin pérdidas. Logra la menor cantidad de bits por carácter (1.425), mejora la alineación morfológica (Macro-F1 de MorphScore 0.61) y utiliza un 19% menos de memoria GPU que los tokenizadores de subpalabras con vocabulario de 64K. Los embebidos congelados de Morpheus superan a BGE-M3 y BERTurk en recuperación léxica, con MAP de familia raíz de 0.85 y ROC-AUC de 1.00.

arxiv arXiv cs.CL · hace 1 h En vivo

LegalWorld: Entorno de ciclo de vida para agentes legales

LegalWorld modela el litigio civil chino como una cadena causalmente conectada de cinco etapas, basada en 75.309 sentencias. Incluye infraestructura reutilizable para mantener la consistencia entre las etapas y permite que LongJud-Bench evalúe el rendimiento de los agentes en todas las fases, revelando brechas significativas de capacidad entre los modelos en diferentes tareas legales.

arxiv arXiv cs.CL · hace 1 h En vivo

La edición de vectores de salida reduce la memorización en LLMs

Un nuevo método llamado edición de vectores de salida modifica mínimamente los vectores de salida de las neuronas MLP para suprimir secuencias memorizadas en modelos de lenguaje grandes, logrando hasta un 87.9% de supresión en OLMo-7B. Este enfoque supera la anulación de activaciones neuronales por un factor de 2.7 y funciona en cuatro modelos de 36-7B parámetros, con tasas de éxito que escalan con el tamaño del modelo y muestran un rendimiento consistente entre arquitecturas.

arxiv arXiv cs.CL · hace 1 h En vivo

SAMA: Marco unificado para la aumento de datos multimodales con pocos recursos

SAMA introduce un marco unificado que genera datos sintéticos de alta fidelidad y conscientes de la tarea al alinear anclas semánticas entre modalidades. Utiliza un Modelo de Lenguaje Multimodal Grande con Múltiples Expertos Colaborativos, con adaptadores compartidos y específicos de la tarea, y emplea un mecanismo de Difusión Preservadora de Anclas para la síntesis de imágenes, garantizando consistencia semántica mientras diversifica los contextos visuales. Experimentos extensos muestran que SAMA supera a los métodos más avanzados en MNER, MRE y MEE bajo condiciones de pocos recursos.

arxiv arXiv cs.CL · hace 1 h En vivo

DICE mejora la recuperación de documentos largos con agregación de evidencia por fragmentos

DICE, un método sin entrenamiento, divide los documentos largos en fragmentos, los codifica de forma independiente y agrega los resultados en un solo vector. Reduce el Índice de Dilución de Evidencia en el 92,8 % de los casos en LongEmbed, mejorando significativamente el rendimiento de recuperación para segmentos superiores a 4k tokens en cuatro backbones.

arxiv arXiv cs.CL · hace 1 h En vivo

RedactionBench: Un benchmark para la privacidad contextual en IA

RedactionBench introduce un benchmark anotado manualmente de 200 documentos diversos en 11 dominios para evaluar la redacción que preserva la privacidad. Cuenta con R-Score, una métrica a nivel de caracteres que trata las redacciones semánticamente similares por igual y reduce el sesgo derivado de las elecciones de formato. Las evaluaciones humanas revelan un desacuerdo significativo en las redacciones contextuales (47.7% de consenso), destacando la naturaleza subjetiva de la privacidad y motivando la necesidad de benchmarks estandarizados y conscientes del contexto.

arxiv arXiv cs.CL · hace 1 h En vivo

HandwritingAgent: Síntesis de escritura a mano impulsada por lenguaje en SVG

HandwritingAgent sintetiza escritura a mano natural en formato SVG sin entrenamiento específico de estilo. Utiliza un modelo de razonamiento grande para generar secuencias de trazos en un lienzo en cuadrícula, condicionado por la entrada de texto y una imagen de referencia de estilo, lo que permite una generación de escritura a mano eficiente, controlable y generalizable.

arxiv arXiv cs.CL · hace 1 h En vivo

Las métricas basadas en LLM mejoran la evaluación de la significancia clínica en radiología

Un estudio introduce métricas ligeras e interpretables que afilan el límite entre errores clínicamente significativos y variaciones inofensivas en los informes de radiología. Estas métricas superan a los grandes LLM médicos y compiten con modelos propietarios, habiéndose demostrado que el entrenamiento de un solo paso es eficaz para despliegues sensibles al costo. El ajuste de dos pasos no mejora consistentemente el rendimiento y desvía el enfoque de la detección de errores hacia la robustez.