Все статьи — korshunov.ai

Все статьи Страница 1 / 102

Улучшение калибровки вербализованной неопределенности в медицинском VQA

Данная работа решает проблему склонности мультимодальных больших языковых моделей выдавать излишне уверенные ответы в задачах медицинского визуального ответа на вопросы, предлагая основанную на обучении рамку, которая дообучает эти модели для лучшей калибровки. Метод использует составную функцию потерь, сочетающую калибровку по типу Брайера, регуляризацию якорей, контрастное выравнивание изображения и текста, а также члены KL-дивергенции для согласования уверенности модели с фактической правильностью.

arxiv arXiv cs.CL · 6 ч назад

Улучшение универсальных агентов ролевой игры на основе психологии обоснованного рассуждения и оптимизации политики с учетом роли

Исследователи предлагают Psy-CoT, основанный на психологии фреймворк цепочки рассуждений, который разбивает предварительное рассуждение перед ответом на Восприятие взаимодействия, Психологическую эмпатию и Логическую конструкцию для улучшения точности персонажа. Чтобы устранить несовпадение градиентов в обучении с подкреплением, они вводят Оптимизацию политики с учетом роли (RAPO), которая использует взаимную информацию токенов профиля для асимметричного взвешивания градиентов.

arxiv arXiv cs.CL · 6 ч назад

NuclearQAv2: Структурированный бенчмарк для оценки компетенции в области ядерной науки у больших языковых моделей

Исследователи представляют NuclearQAv2, новый бенчмарк, разработанный для оценки надежности больших языковых моделей в ядерной инженерии путем проверки фактических знаний, количественных рассуждений и концептуального понимания.

arxiv arXiv cs.CL · 7 ч назад

К объяснимой дискреционной дисперсии: количественная оценка судебного усмотрения с помощью затворного многозадачного обучения

Исследователи предлагают архитектуру Judge-Aware Gated Multi-Task Learning, которая разделяет объективные факты дела и контекст вынесения решения для улучшения прогнозирования правовых исходов. Модель использует мелкодисперсную таксономию исходов и механизм затворного слияния для динамической модуляции зависимости от личности судьи; оценка проводилась на 13 937 решениях Трудовых трибуналов Великобритании.

arxiv arXiv cs.CL · 7 ч назад

Загадка загадок: тестирование гибкого мышления у больших языковых моделей и людей

Исследование вводит парадигму «загадки-загадки» для определения того, полагаются ли большие языковые модели (LLM) на гибкое мышление или на сопоставление шаблонов, выявляя, что люди и LLM терпят неудачу в противоположных направлениях. В экспериментах с участием девяти современных LLM и 100 человек-участников LLM показали значительно худшие результаты на загадках-загадках по сравнению с настоящими загадками, тогда как люди продемонстрировали обратную тенденцию.

arxiv arXiv cs.CL · 7 ч назад

HarmVideoBench: Оценка способности больших мультимодальных моделей понимать вредоносные видео

Исследователи представляют HarmVideoBench, многоуровневый диагностический бенчмарк, предназначенный для оценки больших зрительно-языковых моделей в их способности понимать вредоносные видео за пределами поверхностных признаков. Бенчмарк устраняет ограничения существующих работ за счет включения объяснительных обоснований и оценки трех иерархических измерений вреда: Наблюдаемые доказательства, Внутренний смысл клипа и Рассуждения за пределами клипа.

arxiv arXiv cs.CL · 7 ч назад

Прогнозирование с помощью больших языковых моделей: улучшение обобщения через управление признаками

В данном исследовании большие языковые модели применяются к задачам прогнозирования, а для анализа их внутренних состояний используются разреженные автоэнкодеры, что позволяет различать знание, специфичное для времени, и обобщаемые паттерны. Исследование выявило конкретные признаки, связанные как с осознанием временного контекста, так и с предвзятостью в сторону будущего.

arxiv arXiv cs.CL · 7 ч назад

Обновление синтаксических убеждений как фактор сложности обработки предложений с эффектом сада-лабиринта

В статье предлагается модель обновления синтаксических убеждений (Syntactic Belief Update), которая предсказывает сложность обработки в предложениях с эффектом сада-лабиринта путем измерения величины обновлений синтаксических убеждений через обобщенное расхождение Реньи. Этот подход превосходит лексическую неожиданность, обеспечивая лучшее соответствие данным времени чтения людьми.

arxiv arXiv cs.CL · 7 ч назад

Вымощено истинными намерениями: обучение с учётом намерений улучшает классификацию безопасности LLM в различных режимах обучения

Авторы представляют AIMS, набор из 1724 сложных промптов для безопасности, аннотированных человеком, дополненных описаниями намерений и метками вреда, для оценки обучения с учётом намерений в нескольких режимах. Они утверждают, что моделирование пользовательского намерения как явного сигнала значительно повышает устойчивость классификаторов безопасности.

arxiv arXiv cs.CL · 7 ч назад

Задавайте вопросы, а не осуждайте: бинарные вопросы для интерпретируемой оценки и самоусовершенствования LLM

Авторы предлагают BINEVAL — фреймворк, который разбивает критерии оценки на атомарные бинарные вопросы для получения интерпретируемых многомерных оценок больших языковых моделей. Этот подход генерирует прозрачную обратную связь на уровне вопросов и калиброванные общие баллы, заставляя LLM независимо отвечать на детализированные вопросы оценки для каждого вывода.

blog Simon Willison · 7 ч назад

datasette-export-database 0.3a2 исправляет привязку версии

Плагин datasette-export-database версии 0.3a2 устраняет проблему совместимости, вызванную слишком строгим ограничением зависимости в предыдущем релизе.

github llama.cpp · 7 ч назад

Выпуск llama.cpp b9827 добавляет оптимизацию асинхронного копирования 2D в CUDA

Выпуск llama.cpp b9827 вводит оптимизацию производительности для CUDA, добавляя быстрый путь cudaMemcpy2DAsync в функцию ggml_cuda_cpy. Это изменение ускоряет копирование с шагом одинакового типа и формы, где тензоры не являются полностью непрерывными, но каждый ряд является непрерывным, заменяя более медленные ядра поэлементного скалярного копирования.

media r/LocalLLaMA · 8 ч назад

BatonBot: локальный Kanban-рабочий процесс с открытым исходным кодом для AI-агентов по написанию кода

Автор представляет BatonBot — приложение с открытым исходным кодом, ориентированное на локальное использование и предназначенное для упрощения рабочих процессов AI-агентов по написанию кода за счёт снижения потребности в постоянном контроле со стороны пользователя. Инструмент решает проблему неэффективности последовательного взаимодействия агентов, позволяя пользователям настраивать задачи и визуально отслеживать прогресс на доске в стиле Kanban.

media r/LocalLLaMA · 8 ч назад

audio.cpp: 12 аудио-моделей в одном C++ рантайме с ускорением до 5x

Проект с открытым исходным кодом audio.cpp предоставляет нативный C++ фреймворк для инференса аудио-моделей, построенный на базе ggml; в настоящее время поддерживает 12 выпущенных семейств моделей, включая TTS, ASR и конвертацию голоса. Бенчмарки на Ubuntu/CUDA демонстрируют, что производительность синтеза речи (text-to-speech) в этом рантайме до 5 раз быстрее по сравнению с соответствующими эталонными реализациями на Python.

blog Simon Willison · 8 ч назад

Брюс Шнайер об ответственности ИИ и решении немецкого суда

Брюс Шнайер обсуждает недавнее решение немецкого суда, которое возлагает на Google ответственность за ошибки в его ИИ-обзорах, утверждая, что ИИ-агентов следует рассматривать как агентов организации-разработчика.

media r/LocalLLaMA · 8 ч назад

JetSpec: Спекулятивное декодирование с параллельным черновым построением дерева обеспечивает ускорение вывода LLM до 9.64x без потерь

JetSpec представляет метод спекулятивного декодирования под названием каузальное параллельное черновое построение дерева, который совместно оптимизирует стоимость и качество черновика для снижения задержки генерации LLM.

media r/LocalLLaMA · 8 ч назад

Правительство США будет индивидуально одобрять, кто получит GPT 5.6.

Пост на Reddit от пользователя /u/AtlanticHM в r/LocalLLaMA содержит изображение с заголовком «Правительство США будет индивидуально одобрять, кто получит GPT 5.6.».

media r/LocalLLaMA · 8 ч назад

Сброс энергопотребления NVIDIA RTX 3090 в режиме ожидания

Пользователь сообщает, что при версии драйвера 595.71.05 две карты RTX 3090 ранее могли снижать потребление до 13-15 Вт в простое, но одна карта теперь застряла на уровне 24-30 Вт при нулевой активности и выключенных вентиляторах.

media r/LocalLLaMA · 8 ч назад

Цены на видеокарты сумасшедшие, стоит ли покупать вторую карту?

Пользователь r/LocalLLaMA рассматривает возможность добавления второй GPU в свою систему для локального вывода LLM, но его останавливает резкий рост цен на карты AMD Radeon RX 7900 XTX и XT. Автор поста отмечает, что новые цены на RX 7900 XTX выросли до 1200€, подержанные экземпляры стоят около 900€, а бюджетная RX 7900 XT начинается от 700€.

media r/LocalLLaMA · 8 ч назад

Обработка изоляции на уровне агентов и жизненного цикла окружения в библиотеке оркестрации

Автор подробно описывает архитектуру библиотеки оркестрации, независимой от фреймворка (harness-agnostic), уделяя особое внимание управлению окружением агентов через различные абстракции рабочего пространства и времени выполнения. Система определяет четыре последовательных состояния — unprovisioned, provisioned, started и retired — для контроля жизненного цикла каждого экземпляра агента.