В статье представлен BITEMBED — экстремально низкоразрядная архитектура, предназначенная для решения проблемы высоких затрат на развертывание текстовых эмбеддеров на основе больших языковых моделей (LLM) за счет оптимизации как эффективности кодирования, так и хранения векторов. Метод преобразует предварительно обученные базовые архитектуры LLM в энкодеры типа BitNet с тернарными весами, квантованными активациями и легковесной настройкой нормализации. Для адаптации этих моделей к задачам обучения представлений BITEMBED использует непрерывное контрастивное предобучение, за которым следует контролируемое контрастивное дообучение. Этот процесс дообучения применяет дистилляцию распределения сходства и дистилляцию отношений внимания от полноточной учительской модели. Помимо квантования базовой архитектуры, архитектура обучает выходные эмбеддинги поддерживать несколько точностей хранения, что позволяет гибко балансировать между производительностью и затратами на хранение. Эксперименты на бенчмарке MMTEB с использованием Qwen3-0.6B и Gemma3-270M демонстрируют, что BITEMBED по своим характеристикам в значительной степени сопоставим с полноточными учительскими эмбеддерами.
BITEMBED: Экстремально низкоразрядная архитектура для текстовых эмбеддингов на основе LLM
Переведено с English → Русский