Лаборатория · Baidu
media r/LocalLLaMA · 17 ч назад

Модель Unlimited-OCR от Байду переводит десятки страниц за один проход

Байду выпустил модель Unlimited-OCR, которая переводит десятки страниц за один проход с использованием механизма Reference Sliding Window Attention (R-SWA). Модель основана на DeepSeek-OCR, наследуя его кодировщик, сжатие изображений и архитектуру MoE, при этом у неё всего 500 млн активных параметров на токен. Модель достигает точности 93,92% на OmniDocBench v1.6, превосходя результаты DeepSeek-OCR на v1.5 (87,01%), хотя результаты, предоставленные поставщиком, требуют независимой проверки.

media r/LocalLLaMA · 1 д назад

Баиду выпустил модель одношагового долгосрочного парсинга

Баиду представил новую модель парсинга, называемую одношаговым долгосрочным парсингом. Модель позволяет эффективно понимать текст на долгосрочной основе с минимальными объемами обучающих данных, как это продемонстрировано в репозитории GitHub.

arxiv arXiv cs.CL · 2 д назад

Неограниченный OCR: парсинг, похожий на человеческий, с постоянным использованием памяти

Неограниченный OCR вводит внимание сдвига окна ссылки (R-SWA), чтобы имитировать человеческую рабочую память, позволяя транскрибировать длинные документы без роста использования памяти. Заменяя слои внимания декодера в DeepSeek OCR, R-SWA сохраняет постоянный кэш K и V и достигает полной обработки документа за один проход вперед при ограничении в 32K токенов. R-SWA также применим к задачам аудио-распознавания и перевода.

arxiv arXiv cs.CL · 6 д назад

Семантические кластеры — предобучение Тетслин-машины для интерпретируемости

Новый подход предобучает Тетслин-машину с использованием семантических кластеров из моделей языка, избегая векторных представлений. Метод группирует текстовые образцы в связные кластеры с помощью K-средних или Top2Vec, затем использует пары кластер-образец для обучения неотрицательной Тетслин-машины с обратной связью типа I. Результаты показывают превосходную производительность на пяти наборах данных, соответствующую точности на уровне BERT, при сохранении полной интерпретируемости.

media r/LocalLLaMA · 7 д назад

Циклы бездействующих скриншотов позволяют 30B локальному агенту отладить raytraced FPS на чистом C

Локальный агент на 30B, используя циклы бездействующих скриншотов, автономно отлаживает демонстрацию raytraced FPS на чистом C, захватывая кадры на ключевых событиях и итерируя по исправлениям. Агент строит рекурсивный визуальный цикл отладки, демонстрируя, что простые механизмы обратной связи могут позволить малым моделям решать сложные визуально обусловленные задачи.