Все статьи — korshunov.ai

Все статьи Страница 1 / 102

Улучшение универсальных агентов ролевой игры на основе психологии обоснованного рассуждения и оптимизации политики с учетом роли

Исследователи предлагают Psy-CoT, основанный на психологии фреймворк цепочки рассуждений, который разбивает предварительное рассуждение перед ответом на Восприятие взаимодействия, Психологическую эмпатию и Логическую конструкцию для улучшения точности персонажа. Чтобы устранить несовпадение градиентов в обучении с подкреплением, они вводят Оптимизацию политики с учетом роли (RAPO), которая использует взаимную информацию токенов профиля для асимметричного взвешивания градиентов.

arxiv arXiv cs.CL · 5 ч назад

NuclearQAv2: Структурированный бенчмарк для оценки компетенции в области ядерной науки у больших языковых моделей

Исследователи представляют NuclearQAv2, новый бенчмарк, разработанный для оценки надежности больших языковых моделей в ядерной инженерии путем проверки фактических знаний, количественных рассуждений и концептуального понимания.

arxiv arXiv cs.CL · 6 ч назад

К объяснимой дискреционной дисперсии: количественная оценка судебного усмотрения с помощью затворного многозадачного обучения

Исследователи предлагают архитектуру Judge-Aware Gated Multi-Task Learning, которая разделяет объективные факты дела и контекст вынесения решения для улучшения прогнозирования правовых исходов. Модель использует мелкодисперсную таксономию исходов и механизм затворного слияния для динамической модуляции зависимости от личности судьи; оценка проводилась на 13 937 решениях Трудовых трибуналов Великобритании.

arxiv arXiv cs.CL · 6 ч назад

Загадка загадок: тестирование гибкого мышления у больших языковых моделей и людей

Исследование вводит парадигму «загадки-загадки» для определения того, полагаются ли большие языковые модели (LLM) на гибкое мышление или на сопоставление шаблонов, выявляя, что люди и LLM терпят неудачу в противоположных направлениях. В экспериментах с участием девяти современных LLM и 100 человек-участников LLM показали значительно худшие результаты на загадках-загадках по сравнению с настоящими загадками, тогда как люди продемонстрировали обратную тенденцию.

arxiv arXiv cs.CL · 6 ч назад

HarmVideoBench: Оценка способности больших мультимодальных моделей понимать вредоносные видео

Исследователи представляют HarmVideoBench, многоуровневый диагностический бенчмарк, предназначенный для оценки больших зрительно-языковых моделей в их способности понимать вредоносные видео за пределами поверхностных признаков. Бенчмарк устраняет ограничения существующих работ за счет включения объяснительных обоснований и оценки трех иерархических измерений вреда: Наблюдаемые доказательства, Внутренний смысл клипа и Рассуждения за пределами клипа.

arxiv arXiv cs.CL · 6 ч назад

Прогнозирование с помощью больших языковых моделей: улучшение обобщения через управление признаками

В данном исследовании большие языковые модели применяются к задачам прогнозирования, а для анализа их внутренних состояний используются разреженные автоэнкодеры, что позволяет различать знание, специфичное для времени, и обобщаемые паттерны. Исследование выявило конкретные признаки, связанные как с осознанием временного контекста, так и с предвзятостью в сторону будущего.

arxiv arXiv cs.CL · 6 ч назад

Обновление синтаксических убеждений как фактор сложности обработки предложений с эффектом сада-лабиринта

В статье предлагается модель обновления синтаксических убеждений (Syntactic Belief Update), которая предсказывает сложность обработки в предложениях с эффектом сада-лабиринта путем измерения величины обновлений синтаксических убеждений через обобщенное расхождение Реньи. Этот подход превосходит лексическую неожиданность, обеспечивая лучшее соответствие данным времени чтения людьми.

arxiv arXiv cs.CL · 6 ч назад

Вымощено истинными намерениями: обучение с учётом намерений улучшает классификацию безопасности LLM в различных режимах обучения

Авторы представляют AIMS, набор из 1724 сложных промптов для безопасности, аннотированных человеком, дополненных описаниями намерений и метками вреда, для оценки обучения с учётом намерений в нескольких режимах. Они утверждают, что моделирование пользовательского намерения как явного сигнала значительно повышает устойчивость классификаторов безопасности.

arxiv arXiv cs.CL · 6 ч назад

Задавайте вопросы, а не осуждайте: бинарные вопросы для интерпретируемой оценки и самоусовершенствования LLM

Авторы предлагают BINEVAL — фреймворк, который разбивает критерии оценки на атомарные бинарные вопросы для получения интерпретируемых многомерных оценок больших языковых моделей. Этот подход генерирует прозрачную обратную связь на уровне вопросов и калиброванные общие баллы, заставляя LLM независимо отвечать на детализированные вопросы оценки для каждого вывода.

blog Simon Willison · 6 ч назад

datasette-export-database 0.3a2 исправляет привязку версии

Плагин datasette-export-database версии 0.3a2 устраняет проблему совместимости, вызванную слишком строгим ограничением зависимости в предыдущем релизе.

github llama.cpp · 6 ч назад

Выпуск llama.cpp b9827 добавляет оптимизацию асинхронного копирования 2D в CUDA

Выпуск llama.cpp b9827 вводит оптимизацию производительности для CUDA, добавляя быстрый путь cudaMemcpy2DAsync в функцию ggml_cuda_cpy. Это изменение ускоряет копирование с шагом одинакового типа и формы, где тензоры не являются полностью непрерывными, но каждый ряд является непрерывным, заменяя более медленные ядра поэлементного скалярного копирования.

media r/LocalLLaMA · 7 ч назад

BatonBot: локальный Kanban-рабочий процесс с открытым исходным кодом для AI-агентов по написанию кода

Автор представляет BatonBot — приложение с открытым исходным кодом, ориентированное на локальное использование и предназначенное для упрощения рабочих процессов AI-агентов по написанию кода за счёт снижения потребности в постоянном контроле со стороны пользователя. Инструмент решает проблему неэффективности последовательного взаимодействия агентов, позволяя пользователям настраивать задачи и визуально отслеживать прогресс на доске в стиле Kanban.

media r/LocalLLaMA · 7 ч назад

audio.cpp: 12 аудио-моделей в одном C++ рантайме с ускорением до 5x

Проект с открытым исходным кодом audio.cpp предоставляет нативный C++ фреймворк для инференса аудио-моделей, построенный на базе ggml; в настоящее время поддерживает 12 выпущенных семейств моделей, включая TTS, ASR и конвертацию голоса. Бенчмарки на Ubuntu/CUDA демонстрируют, что производительность синтеза речи (text-to-speech) в этом рантайме до 5 раз быстрее по сравнению с соответствующими эталонными реализациями на Python.

blog Simon Willison · 7 ч назад

Брюс Шнайер об ответственности ИИ и решении немецкого суда

Брюс Шнайер обсуждает недавнее решение немецкого суда, которое возлагает на Google ответственность за ошибки в его ИИ-обзорах, утверждая, что ИИ-агентов следует рассматривать как агентов организации-разработчика.

media r/LocalLLaMA · 7 ч назад

JetSpec: Спекулятивное декодирование с параллельным черновым построением дерева обеспечивает ускорение вывода LLM до 9.64x без потерь

JetSpec представляет метод спекулятивного декодирования под названием каузальное параллельное черновое построение дерева, который совместно оптимизирует стоимость и качество черновика для снижения задержки генерации LLM.

media r/LocalLLaMA · 7 ч назад

Правительство США будет индивидуально одобрять, кто получит GPT 5.6.

Пост на Reddit от пользователя /u/AtlanticHM в r/LocalLLaMA содержит изображение с заголовком «Правительство США будет индивидуально одобрять, кто получит GPT 5.6.».

media r/LocalLLaMA · 7 ч назад

Сброс энергопотребления NVIDIA RTX 3090 в режиме ожидания

Пользователь сообщает, что при версии драйвера 595.71.05 две карты RTX 3090 ранее могли снижать потребление до 13-15 Вт в простое, но одна карта теперь застряла на уровне 24-30 Вт при нулевой активности и выключенных вентиляторах.

media r/LocalLLaMA · 7 ч назад

Цены на видеокарты сумасшедшие, стоит ли покупать вторую карту?

Пользователь r/LocalLLaMA рассматривает возможность добавления второй GPU в свою систему для локального вывода LLM, но его останавливает резкий рост цен на карты AMD Radeon RX 7900 XTX и XT. Автор поста отмечает, что новые цены на RX 7900 XTX выросли до 1200€, подержанные экземпляры стоят около 900€, а бюджетная RX 7900 XT начинается от 700€.

media r/LocalLLaMA · 7 ч назад

Обработка изоляции на уровне агентов и жизненного цикла окружения в библиотеке оркестрации

Автор подробно описывает архитектуру библиотеки оркестрации, независимой от фреймворка (harness-agnostic), уделяя особое внимание управлению окружением агентов через различные абстракции рабочего пространства и времени выполнения. Система определяет четыре последовательных состояния — unprovisioned, provisioned, started и retired — для контроля жизненного цикла каждого экземпляра агента.

media r/LocalLLaMA · 8 ч назад

Qwen 3.6 27b GLM 5.2 fine-tune?

Пользователь Reddit задаётся вопросом об отсутствии модели Qwen 3.6 27B, дообученной с помощью GLM 5.2, отмечая, что обе модели имеют открытые веса, а GLM известен своими способностями к рассуждению. Автор поста предполагает, что отсутствие такого дообучения может быть связано с недавним выходом GLM 5.2 или общим отсутствием интереса сообщества к объединению этих конкретных моделей.