Benchmark results
media Don't Worry About the Vase · 2 д назад

GLM-5.2 — новый лучший открытый модель

GLM-5.2 достигает результатов на тестах, близких к передовым уровням, сопоставимых с Opus 4.7 в задачах только с текстом и занимающих одно из ведущих мест среди открытых моделей на нескольких тестах. Это сильнейшая открытая модель, доступная в настоящее время, превосходящая предшественники и конкурентов, таких как GPT-5.5 и Fable, хотя она не достигает высоких результатов на специализированных тестах, таких как сопротивление сихофаническим тенденциям, и имеет ограниченные возможности в области зрения.

media r/LocalLLaMA · 5 д назад

GLM-5.2 — это новый ведущий открытый модельный вес на Индексе искусственного аналитического интеллекта

GLM-5.2 был признан ведущей открытой моделью на Индексе искусственного аналитического интеллекта. Этот признание отражает его производительность и возможности в контексте открытого ИИ-моделирования.

media r/LocalLLaMA · 5 д назад

Выпущена новая оценка агентов

АртIFICИАЛЬНАЯ АНАЛИТИКА представила новую оценку агентов, которая оценивает способность больших языковых моделей планировать и выполнять задачи. Claude Fable и GLM 5.2 заняли лидирующие позиции в своих соответствующих группах, демонстрируя сильную производительность на этом неиспользованном бенчмарке.

media Latent Space · 6 д назад

GLM-5.2 прошёл проверку на атмосферу, превзошёл GPT-5.5

GLM-5.2 прошёл проверку на атмосферу как передовая открытая модель, получив похвалу от Джереми Ховарда и превзойдя GPT-5.5 на новом бенчмарке по искусственному анализу, разработанном Artificial Analysis. Модель также получила подтверждение от сообщества /r/LocalLlama, что указывает на сильную практическую полезность и производительность.

arxiv arXiv cs.AI · 6 д назад

QMFOL: Оценка способности больших моделей к логическому мышлению с контролируемой логической сложностью

QMFOL — это автоматизированная система, генерирующая задачи логического мышления на монадическом первом порядке с количественной сложностью. Она создает 2880 экземпляров тестов на 960 конфигурациях, оценивая шесть больших моделей логического мышления и две большие языковые модели, демонстрируя снижение производительности и рост вычислительных затрат при росте логической сложности.

arxiv arXiv cs.CL · 6 д назад

Оценка агентных систем анализа для исследований с участием ИИ

Исследование оценивает четыре системы анализа ИИ на шести моделях языков, в результате чего OpenAIReview с GPT-5.5 достигает точности 83,0% при сопоставлении качества научных статей с внешними сигналами и обнаруживает 71,6% введённых ошибок. Реальные отзывы пользователей показывают положительную оценку, с соотношением голосов 1,44 к 1, однако ошибочные положительные результаты и незначительные замечания остаются частыми.

arxiv arXiv cs.CL · 6 д назад

CombEval: бенчмарк для подсчёта комбинаторных задач в LLMs

CombEval — это динамический бенчмарк, который генерирует задачи подсчёта на естественном языке с проверенными ответами с использованием типизированных спецификаций Cofola. Он оценивает 11 больших языковых моделей и выявляет устойчивые сбои при обработке упорядоченных объектов, неотличимых элементов, позиционных ограничений и вложенных зависимостей, причём ошибки связаны с интерпретацией ограничений и принципов подсчёта.

arxiv arXiv cs.CL · 6 д назад

JAMER: Датасет и бенчмарк проектного уровня кода

JAMER вводит JamSet и JamBench, первый датасет и бенчмарк проектного уровня кода для профессиональной игровой платформы. Созданный на основе 8133 проверенных проектов Game Jam, он обеспечивает детерминированную оценку и выявляет порог способности в моделях ИИ при увеличении масштаба проекта, при этом процент успешных запусков снижается с 80,4% до 5,7%.

arxiv arXiv cs.CL · 6 д назад

REDACT: Мультималярный бенчмарк по обнаружению персональных данных с систематическим контролем

REDACT представляет систематически контролируемый мультималярный бенчмарк для обнаружения персональных данных, включающий 51 тип сущностей, 4127 паттернов поверхностных форм и 25 языков. Бенчмарк оценивает пять детекторов на 1000 записях, показывая, что модели на основе правил не справляются с высококритичными данными, в то время как модели на основе больших языковых моделей показывают лучшие результаты, особенно в высокочувствительных категориях. Оценка LLM без ссылки на эталон подтверждает, что назначение чувствительности по уровням является наиболее сложной осью оценки.

media r/LocalLLaMA · 6 д назад

GLM-5.2 превосходит GPT-5.5 в оценке AA-Briefcase

Новая оценка агентных задач искусственного анализа, AA-Briefcase, показывает, что GLM-5.2 превосходит GPT-5.5 по производительности. Оценка оценивает выполнение реальных задач и способность к логическому мышлению в сценариях работы с знаниями.

arxiv arXiv cs.LG · 7 д назад

Diffusion-Proof: Первый фреймворк для диффузионных LLM в формальной доказательной математике

Diffusion-Proof — первый фреймворк для обучения и применения диффузионных языковых моделей в формальной доказательной математике. Он вводит dLLM-Prover-7B для написания полных доказательств с долгосрочной согласованностью и dLLM-Corrector-7- для локальной коррекции доказательств с использованием обратной информации. Фреймворк превосходит автокоррекционные базовые LLM на 1,61% на ProofNet-Test и на 6,14% на MiniF2F-Test, и решает задачу IMO за пределами возможностей DeepSeek-Prover-V2-7B.

arxiv arXiv cs.AI · 7 д назад

Многодоменный бенчмарк для обнаружения текстовых изображений, сгенерированных ИИ

Новый бенчмарк оценивает изображения с текстом, сгенерированные ИИ, в шести областях, включая коммерческие плакаты и чеки. Он показывает значительную зависимость от области и чувствительность к сжатию JPEG, что подчёркивает необходимость методов обнаружения, учитывающих текст и расположение.

arxiv arXiv cs.CL · 7 д назад

ForecastBench-Sim: бенчмарк прогнозирования в имитационном мире

ForecastBench-Sim — это бенчмарк прогнозирования в имитационном мире, использующий симуляции игры Freeciv. Он позволяет осуществлять непрерывные или бинарные прогнозы на любых горизонтах, с мирами с вмешательством для вопросов причинности и редких событий, и обеспечивает немедленную, разрешимую обратную связь для оценки вероятностного мышления в динамических средах.

arxiv arXiv cs.CL · 7 д назад

Сети с раздраженной синхронизацией превосходят трансформеры

Сети с раздраженной синхронизацией (FSN) достигают более низкой ошибки валидации, чем трансформер с RoPE-SwiGLU на уровне символов и задачах по коду на каждом эпохе. При одном миллионе параметров FSN достигает ошибки валидации 1,5953 ± 0,0014, что превосходит достигнутую ошибку трансформера 1,611. Это преимущество сохраняется до четырёх миллионов параметров, при этом продолжаются оценки на более высоких масштабах.

arxiv arXiv cs.CL · 7 д назад

SenFlow: Расширенная детекция текста, сгенерированного ИИ, в гибридных документах

SenFlow представляет новую методику детекции текста, сгенерированного ИИ, в гибридных документах, моделируя зависимости между предложениями. Он достигает наилучших результатов на MOSAIC, бенчмарке из 16 000 документов из PubMed и XSum, с ростом Macro-F1 на 4,15 пунктов при переходе между доменами. SenFlow показывает, что текст, сгенерированный ИИ, по-прежнему демонстрирует зависимости между предложениями, зависящие от генератора, которые могут быть использованы детекторами на уровне предложений, несмотря на фильтрацию по перплексности.

arxiv arXiv cs.AI · 7 д назад

SciRisk-Bench: Бенчмарк, ориентированный на оценку рисков в области безопасности AI4Science

SciRisk-Bench представляет бенчмарк для оценки безопасности AI4Science, оценивающий модели по 7 дисциплинам, 31 поддисциплине и 10 рискам. Он оценивает как основные, так и научно ориентированные LLMs, чтобы выявить конкретные пробелы в распознавании и избежании рисков в высокорисковых научных контекстах.

media r/LocalLLaMA · 7 д назад

Мы срочно нуждаемся в модели 80-160B для устройств с единой памятью

Пользователи с единой памятью 80-160 ГБ или с высокоскоростной ОЗУ сталкиваются с ограничениями из-за отсутствия моделей, адаптированных к их оборудованию. Существующие модели либо слишком малы для обеспечения производительности, либо слишком большие для ограничений памяти, что приводит к требованию разработки моделей на 100 миллиардов параметров, таких как Qwen 3.5 122B или Gemma 4 122B, чтобы лучше обслуживать пользователей с AMD AI Pro, RTX 3090/5090 или устройствами Apple.

media r/LocalLLaMA · 7 д назад

SIQ-1 Qwen3.6 достигает сильных результатов в автознаниях и тестировании

Модель SIQ-1, обученная с использованием PPO с верифицируемой наградой, превосходит GLM-5.2 и Qwen-350B по задачам параметрического гольфа, с выводами, схожими с Opus4.8. Она также побеждает NEX и GPT-5.5 на тесте bullshit-bench. Модель и её версия GGUF доступны на Hugging Face, а также представлен демонстрационный агент, совместимый с ZeroGPU.

media r/LocalLLaMA · 8 д назад

GLM-5.2 Max является текущим третьим по величине моделью

GLM-5.2 Max занимает третье место среди доступных моделей, как среди открытых, так и среди проприетарных моделей. Оценка основана на показателях производительности и текущих оценках в области больших языковых моделей.

arxiv arXiv cs.LG · 8 д назад

SCBoost: Уменьшение избыточности обучаемых моделей за счёт ортогонализации остатков

SCBoost вводит ортогонализацию остатков для устранения избыточности обучаемых моделей в методе boosting. Он использует спектральную проекцию остатков и весов, регулируемых ковариацией, чтобы обеспечить, что каждая модель захватывает новые компоненты ошибки и снижает корреляции в ансамбле. Теоретический анализ и эксперименты показывают улучшение точности и показателей F1 на десяти базовых наборах данных.