Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 59

PolicyAlign: Alineación de seguridad basada directamente en políticas para modelos de lenguaje grandes

Los autores presentan PolicyAlign, un marco diseñado para alinear modelos de lenguaje grandes directamente con políticas de seguridad en lenguaje natural, en lugar de depender de costosos datos de supervisión. Este enfoque aborda la discrepancia entre los requisitos de seguridad en rápida evolución y los métodos convencionales de alineación basados en datos. El proceso comienza sintetizando instrucciones que violan la política especificada, seguido de auto-distilación on-policy para internalizar el comportamiento deseado. Para mejorar la estabilidad del entrenamiento y la eficiencia de los datos, el método incorpora Filtrado Sensible a la Política, que selecciona las instrucciones que inducen el mayor cambio conductual. Los experimentos en múltiples modelos demuestran que PolicyAlign mejora consistentemente las métricas de seguridad mientras mantiene bajas tasas de rechazo excesivo y preserva las capacidades generales. El marco también se generaliza eficazmente a dominios especializados como escenarios de seguridad médica, legal y financiera. El código para este enfoque escalable de alineación se ha publicado en https://github.com/Qwen-Applications/PolicyAlign.

PolicyAlign: Alineación de seguridad basada directamente en políticas para modelos de lenguaje grandes

El preentrenamiento de codificadores de habla mejorados con traducción mejora los LLMs de habla

Diseño de arneses y post-entrenamiento en agentes LLM

La evaluación Reclaim muestra que la memoria con pérdida es peor que no tener memoria

El Espectro de Generalización: Un Enfoque Cromatográfico para Evaluar Algoritmos de Aprendizaje

Explorando representaciones de habla auto-supervisadas en subdialectos del mandarín mediante análisis articulatorio no supervisado

Alineación forzada neuronal completamente diferenciable mediante programación dinámica suave

PEGASUS Ajustado Alcanza Rendimiento de Última Generación en el Corpus XL-Sum Inglés

El marco de red teaming descubre vulnerabilidades de fidelidad en LLMs mediante una arquitectura multi-rol

Calibración y robustez adversaria de la puntuación automática de ASR

STC mejora el servicio al cliente en árabe mediante análisis de sentimiento con MARBERT

Factores conductuales de la incongruencia entre calificación y sentimiento en reseñas turísticas de Sri Lanka

Cliff Tokens: Identificando gatillos de fallo de un solo token en el razonamiento matemático de LLM

El Benchmark SWE-Pro Revela una Brecha Significativa Entre los LLM y la Optimización de Software Experta

Seguridad y privacidad en la generación aumentada por recuperación: arquitecturas, amenazas, defensas y direcciones futuras

BiPACE: Optimización de políticas guiada por bisimulación con estimación de contrafactuales de acción para agentes LLM

Riazi-8B: Un modelo de lenguaje grande en urdu para razonamiento matemático

Impuesto de restricción en LLM de peso abierto: supresión de llamada a herramientas bajo restricciones de salida estructurada

REVERIEMEM: Memoria acotada por perspectiva para agentes de rol basados en libros

MedGuards: Sistema Multiagente para la Detección y Corrección Confiable de Errores Médicos