arxiv arXiv cs.CL · hace 1 h · fuente: hace 10 d · research

Sesgo geográfico en modelos de lenguaje grandes a partir de metadatos del usuario

Traducido del English → Español

Un estudio revela que incluso los prompts neutrales desencadenan respuestas específicas de la región en modelos de lenguaje grandes debido a los metadatos del usuario. La filtración de ubicación aumenta hasta 793 veces en algunos modelos, y usar 'Desconocido' en lugar de los metadatos de ubicación aún causa un sesgo significativo, lo que indica que el propio marco del perfil del usuario actúa como una señal de condicionamiento.

Importancia 3/3 arXiv cs.CL Mistral AI Alibaba (Qwen) Anthropic Evaluation & benchmarks Reasoning models Safety & alignment

Benchmarks

Benchmark	Modelo	Puntuación
SWE-bench Verified	Llama 3.1-8B	31.7%
SWE-bench Verified	Qwen3-8B	21.3%
SWE-bench Verified	Claude Sonnet 4.6	8.8%

Leer original