Todos os artigos
media r/LocalLLaMA · há 2 h

Acompanhamento: DeepSeek V4 Flash em 2x RTX PRO 6000 finaliza tarefas reais de codificação mais rápido que Sonnet e Opus, com qualidade aproximada à do Sonnet

Uma avaliação de benchmarking subsequente avalia o DeepSeek V4 Flash rodando em duas GPUs RTX PRO 6000 usando vLLM, comparando seu desempenho em tarefas reais de codificação contra modelos baseados em API como Claude Sonnet e Opus. O estudo descobre que, embora Opus e Fable mantenham qualidade superior de código, o DeepSeek V4 Flash atinge uma qualidade aproximadamente ao nível do Sonnet com tempos de parede significativamente mais rápidos.

media Hugging Face Forums · há 7 h

Octopus Smart constrói sistema de análise da Copa do Mundo com IA

A Octopus Smart está desenvolvendo a Octopus Football, uma plataforma de análise para a Copa do Mundo e torneios profissionais que utiliza orquestração de inteligência de partidas alimentada por IA. O sistema combina modelos de análise preditiva com agentes de inteligência de dados para fornecer modelagem de desempenho da equipe, avaliações de jogadores e resumos automáticos de partidas.

arxiv arXiv cs.CL · há 8 h

CheckRLM: Verificação eficaz da coerência entre conhecimento e raciocínio no raciocínio aumentado por recuperação

Os autores propõem o CheckRLM, um framework que melhora a confiabilidade dos Modelos de Linguagem de Raciocínio ao usar Geração Aumentada por Recuperação para verificar e corrigir oportunamente erros factuais durante a inferência. Esta abordagem extrai afirmações factuais das cadeias de raciocínio para identificar inconsistências e aplica correções de baixo custo por meio de conhecimento externo.

media r/LocalLLaMA · há 9 h

Processamento de prompt desagregado com DGX Spark e Strix Halo

Um usuário demonstra um pipeline de inferência desagregado usando um DGX Spark para prefilling e uma máquina Strix Halo para geração de tokens, alcançando acelerations significativas para cargas de trabalho de contexto longo. Ao descarregar o processamento intensivo de prompts para o DGX e aproveitar a largura de banda de memória do Strix para decodificação, a configuração supera a degradação de desempenho observada ao rodar sozinho no Strix.

arxiv arXiv cs.CL · há 9 h

SkillFuzz: Fuzzing de Composição de Habilidades para Descoberta de Intenções Implícitas em Mercados Abertos de Habilidades

O artigo apresenta o SkillFuzz, uma abordagem de teste sem execução projetada para descobrir intenções implícitas em mercados abertos de habilidades onde habilidades individualmente benignas podem interagir para redirecionar agentes para objetivos não intencionais. Ao formular essa descoberta como um problema de fuzzing sobre composições de habilidades, o método extrai contratos estruturados e utiliza Busca em Árvore de Monte Carlo guiada por contratos para priorizar combinações potencialmente conflitantes.

arxiv arXiv cs.CL · há 10 h

Conheça sua fonte: um repositório de conhecimento público para verificações de antecedentes na mídia

Os autores apresentam o MEDIAREF, um repositório de conhecimento publicamente disponível de documentos da web projetado para permitir a avaliação reproduzível e de baixo custo das verificações de antecedentes na mídia (MBC). Esta ferramenta aborda a dependência de APIs de busca proprietárias e caras nas abordagens recentes de raciocínio crítico sobre fontes.

arxiv arXiv cs.CL · há 10 h

Avaliação automatizada de exames de Linux/bash usando grandes modelos de linguagem

Este estudo avalia se quatro grandes modelos de linguagem de ponta (GPT, Claude Opus, Gemini e GLM) podem aproximar-se do julgamento de especialistas ao avaliar respostas curtas a comandos de Linux/bash. A pesquisa demonstra que prompts estruturados melhoram significativamente o acordo com avaliadores humanos, estabelecendo um framework para avaliação assistida por IA na educação em computação.