Авторы предлагают MedGuards, фреймворк защитных механизмов безопасности в медицине, предназначенный для обнаружения и исправления ошибок в тексте, сгенерированном большими языковыми моделями. Эта система рассматривает обработку ошибок как задачу контекстного обучения с несколькими агентами, где специализированные агенты по отдельности выполняют обнаружение, локализацию и исправление. Механизм арбитража, управляемый уверенностью, разрешает разногласия между агентами с использованием цепочек рассуждений и оценок уверенности без необходимости дополнительного обучения модели. В исследовании вводится новый показатель — Keyword-Prioritized Correction Score (KPCS), который оценивает точность критически важных ключевых слов в эталонном тексте. Эксперименты, проведенные на четырех многоязычных медицинских наборах данных клинических заметок, демонстрируют значительное улучшение показателей производительности. Эти результаты подчеркивают улучшенную интерпретируемость, устойчивость и адаптивность для более безопасного развертывания больших языковых моделей в здравоохранении. Код для бенчмарка MedErrBench общедоступен на GitHub.