Все статьи
media r/LocalLLaMA · 9 д назад

Nex2 mini Phase Twin 16 ГБ, модель 30B выпущена

Модель Nex2 mini Phase Twin с 30 миллиардами параметров и объемом памяти 16 ГБ теперь доступна для пользователей Intel, в частности для линейки A770. Она работает со скоростью 89 токенов в секунду на одной карте A770 и оптимизирована для использования соответствующего ядра в зависимости от оборудования, обеспечивая повышенную производительность при использовании двух карт.

media r/LocalLLaMA · 9 д назад

DGX Spark подвергается несправедливой критике

DGX Spark подвергается несправедливой критике, несмотря на то, что он обладает сильной масштабируемостью и приемлемой локальной производительностью ИИ. Технология ConnectX позволяет бесперебойное расширение, и при мощности 240 Вт он позволяет запускать локальную работу agentic DS4Flash за около 9 тысяч долларов с 256 ГБ CUDA-памяти.

blog Simon Willison · 9 д назад

Белый дом усиливает войну против Anthropic

Кейти Муссурис, эксперт по кибербезопасности, сообщила, что Anthropic передала ей отчет Белого дома о взломе Fable для оценки. Она отметила, что Fable отказывался анализировать небезопасный код, но выполнял запросы по устранению ошибок, описав это как нормальную работу модели в сфере киберзащиты.

arxiv arXiv cs.CL · 9 д назад

Контрастно-разностное CKA раскрывает концептуально-специфическое выравнивание между архитектурами языковых моделей

Бесплатный диагностический инструмент, контрастно-разностное CKA (CKA_Delta), выявляет концептуально-специфическое структурное выравнивание между архитектурами языковых моделей. Оно обнаруживает геометрическое сходство и функциональную передачу в шести концептуальных областях, включая ненавыковые задачи, с значительной дискриминацией там, где стандартное CKA не справляется. Результаты указывают на то, что универсальность может усиливаться с ростом масштаба моделей, хотя необходима дополнительная проверка.

arxiv arXiv cs.CL · 9 д назад

Символьная неформализация в проекте Informath

Проект Informath демонстрирует символическую неформализацию для преобразования формальных математических доказательств в естественный, гладкий и точный язык. Он использует Dedukti как центральный узел, соединяющий системы доказательств, такие как Agda, Lean и Rocq, с Grammatical Framework, обеспечивающим правильность языковой структуры на нескольких языках.

arxiv arXiv cs.CL · 9 д назад

LOGOS: Общее генеративное моделирование для естественных наук

LOGOS — это единая генеративная языковая модель, которая представляет научные объекты и их взаимодействия в виде последовательностей токенов в общей грамматике. Модель достигает стабильной или превосходной производительности на различных задачах естественных наук, демонстрируя возможность использования одной модели для работы в нескольких областях. Производительность модели растёт с увеличением количества параметров, и её конструкция указывает на то, что искусственный интеллект для науки должен тесно интегрироваться с большими языковыми моделями через общие архитектуры и обучение.

arxiv arXiv cs.CL · 9 д назад

МЕНЬШЕ — БОЛЬШЕ: Адаптивная выборка для моделей диффузионного языка

LESS представляет адаптивный сэмплер, не требующий обучения и универсальный по отношению к моделям, который снижает количество шагов обратного удаления шума на 72,1% по сравнению с фиксированным бюджетом декодирования. Он обеспечивает более высокую точность, чем существующие сэмплеры без обучения, и снижает вычислительные затраты и задержку в инференсе за счёт правил взаимной стабильности, которые гарантируют привязку токенов только тогда, когда предсказания являются уверенным, согласованным и стабильным.

arxiv arXiv cs.CL · 9 д назад

Релиз датасета IMPACTeen в английской и польской версиях

IMPACTeen — это датасет из 1021 текста, аннотированный с пяти сторон — среди подростков, родителей, психологов, экспертов по коммуникации и учителей. В него включены 5100 записей аннотаций, охватывающих социальные методы влияния, намерения, последствия и сопротивление, с проверкой аннотаций через ручную редакцию. Датасет, созданный с использованием генерации LLM и ручной проверки, доступен на английском и польском языках и используется для исследований в области социального влияния и обучения языковых моделей.

arxiv arXiv cs.CL · 9 д назад

Ключевые свойства для эффективного рассуждения кодового интерпретатора

Исследование выявляет внешние (ключевые токены) и внутренние (когнитивные поведения) свойства, которые улучшают рассуждение кодового интерпретатора в больших языковых моделях. Модели с более сильным рассуждением демонстрируют более высокую частоту верификации, отката и обратного вывода, при этом эти свойства повышают производительность во время инференса и обучения, снижают избыточное мышление и повышают эффективность токенов.

arxiv arXiv cs.CL · 9 д назад

После-операторы не улучшают точность в малых моделях кода

Исследование по измерению показывает, что 26 семантических после-операторов не улучшают точность на выделенных данных по сравнению с Best-of-N в замороженных малых моделях кода. Хотя два оператора — восстановление слоя выражений и адаптивный консенсус на раннем останове — обеспечивают преимущества в эффективности вычислений или восстановлении программы, ни один из них не превосходит BoN по точности. Результаты подчеркивают системные ограничения в обнаружении и покрытии ошибок, что указывает на необходимость улучшения инструментов для обнаружения ошибок и их покрытия до того, как будет рассматриваться пост-операционное рассуждение.

arxiv arXiv cs.CL · 9 д назад

TokenPilot: Эффективное управление контекстом для агентов LLM

TokenPilot снижает расходы на инференс на 61% до 87% как в изолированном, так и в непрерывном режимах, превосходя предыдущие системы по эффективности расходов, при этом сохраняя конкурентные показатели производительности. Оно использует сжатие, учитывающее ввод, и эвакуацию, учитывающую жизненный цикл, для сохранения непрерывности кэша запросов и минимизации размера токенов.

arxiv arXiv cs.CL · 9 д назад

DeepRubric: Эффективная RL для агентов глубокого исследования

DeepRubric представляет рамку построения данных, которая создает пары запрос-оценочный критерий, начиная с определения верифицируемых целей оценки через дерево доказательств. Оно генерирует 9K примеров надзора и обучает модель размером 8B с использованием GRPO, достигая производительности, сравнимой с лучшими моделями, при использовании в 13 раз меньшего количества часов GPU для RL.

arxiv arXiv cs.CL · 9 д назад

KVEraser: Эффективное локализованное удаление контекста в LLMs

KVEraser обеспечивает эффективное локализованное удаление контекста в больших языковых моделях, заменяя только состояния кэша KV для удаленного сегмента на обученные направляющие состояния. Он достигает почти полной переработки производительности на задачах в области знаний при длинах контекста от 1K до 32K, с ростом задержки только на 24%, и превосходит другие приближенные методы при работе с длинными документами в вопросах и ответах, обеспечивая скорость в 3-4 раза превышающую полную переработку.

arxiv arXiv cs.CL · 9 д назад

MetaSyn: Оценка агентов ЛЛМ на статьях по мета-анализу

MetaSyn представляет датасет из 442 мета-анализов, экспертно отобранных из Nature Portfolio. Он оценивает двенадцать конфигураций агентов ЛЛМ и выявляет критическую точку в отборе исследований, где ни одна система не восстанавливает более 52,7% истинно включённых источников, несмотря на высокую точность поиска.

arxiv arXiv cs.CL · 9 д назад

ContextRL: контекстуально-оптимизированный RL для LLMs

ContextRL вводит косвенную вспомогательную цель для улучшения долгосрочного мышления и многомодальных характеристик в LLMs. Модель получает награду за выбор контекста, поддерживающего пару запрос-ответ, используя контрастные данные о контексте из траекторий кодирующих агентов и изображений, связанных с визуальными вопросами. ContextRL достигает роста на +2,2% и +1,8% по сравнению с стандартными методами на тестах долгосрочного мышления и визуальных вопросов, причём рост объясняется выбором цели, а не дополнением данных.

arxiv arXiv cs.CL · 9 д назад

Языковые модели кодируют значение своей текущей траектории

Qwen3-8B внутренне отслеживает значение своей текущей траектории, определяемой как вероятность достижения своих целей. Эта "ось значения" различает уровни уверенности, поведение отката и корректность кода, и демонстрирует, что оптимизация предпочтений повышает уверенность в премиированных действиях. Модель присваивает низкое значение политически чувствительным запросам после обучения, а финальная настройка повышает уверенность в определённых областях.

arxiv arXiv cs.AI · 9 д назад

Символическая неформализация в проекте Informath

Проект Informath демонстрирует символическую неформализацию для преобразования формальной математики в естественный, гладкий и точный язык. В проекте используется Dedukti как центральная система доказательств и Grammatical Framework для обеспечения лингвистической корректности на нескольких языках, что позволяет получать человеко-читаемые выводы из доказательств, сгенерированных ИИ.

arxiv arXiv cs.AI · 9 д назад

Семантический отражение: синтез образцов за пределами распределения для устойчивого отказа

Семантический отражение предлагает рамку синтеза образцов за пределами распределения путем преобразования запросов и видеопамяти для создания пар неподходящих ответов. Эти пары тренируют лёгкий модуль отказа, который присоединяется к существующим моделям визуально-языковых систем без перетренировки, улучшая производительность отказа в вопросах, связанных с телесной интерпретацией и пространственной локализацией. На новом бенчмарке SpaceReject оно достигает значения F1 0.9559.

arxiv arXiv cs.AI · 9 д назад

BinTrack: Открытый источник спектральный QA с двоичным поиском траектории

BinTrack — это полностью открытый источник агент по спектральному вопросу, использующий двоичный поиск по траектории робота для нахождения ответов. Он достигает на 22,8% более высокой точности по сравнению с другими открытыми методами и соответствует производительности закрытых моделей на наиболее сложной глобальной категории бенчмарка SpaceLocQA. Система также обеспечивает более чем в 1,5 раза более быструю инференс и вводит GangnamLoop — реальный внешний бенчмарк, собранный с помощью четырёхногого робота.

arxiv arXiv cs.AI · 9 д назад

Опубликовано множество данных IMPACTeen в английской и польской версиях

IMPACTeen — это набор из 1021 текста, аннотированный с пяти сторон — подростков, родителей, психологов, экспертов по коммуникации и учителей. В него входят 5100 записей аннотаций, охватывающих социальные методы влияния, намерения, последствия и сопротивление, с аннотациями, проверенными через ручную редакцию. Набор данных, созданный с использованием генерации LLM и ручной проверки, доступен на английском и польском языках и поддерживает исследования в области социального влияния и обучения языковых моделей.