Todos os artigos
media r/LocalLLaMA · há 4 h

Acompanhamento: DeepSeek V4 Flash em 2x RTX PRO 6000 finaliza tarefas reais de codificação mais rápido que Sonnet e Opus, com qualidade aproximada à do Sonnet

Uma avaliação de benchmarking subsequente avalia o DeepSeek V4 Flash rodando em duas GPUs RTX PRO 6000 usando vLLM, comparando seu desempenho em tarefas reais de codificação contra modelos baseados em API como Claude Sonnet e Opus. O estudo descobre que, embora Opus e Fable mantenham qualidade superior de código, o DeepSeek V4 Flash atinge uma qualidade aproximadamente ao nível do Sonnet com tempos de parede significativamente mais rápidos.

media Hugging Face Forums · há 8 h

Validação entre Domínios de um Framework Unificado de Auto-organização

Um framework matemático unificado para auto-organização em sistemas complexos recebe suporte experimental de dois domínios físicos independentes: decoerência quântica e transições de condensados de Bose-Einstein clássicos. O estudo relata que o acoplamento não-local atua como um "amplificador crítico", produzindo efeitos máximos nas fronteiras de fase onde os sistemas são mais sensíveis.

media Hugging Face Forums · há 8 h

Octopus Smart constrói sistema de análise da Copa do Mundo com IA

A Octopus Smart está desenvolvendo a Octopus Football, uma plataforma de análise para a Copa do Mundo e torneios profissionais que utiliza orquestração de inteligência de partidas alimentada por IA. O sistema combina modelos de análise preditiva com agentes de inteligência de dados para fornecer modelagem de desempenho da equipe, avaliações de jogadores e resumos automáticos de partidas.

arxiv arXiv cs.CL · há 9 h

CheckRLM: Verificação eficaz da coerência entre conhecimento e raciocínio no raciocínio aumentado por recuperação

Os autores propõem o CheckRLM, um framework que melhora a confiabilidade dos Modelos de Linguagem de Raciocínio ao usar Geração Aumentada por Recuperação para verificar e corrigir oportunamente erros factuais durante a inferência. Esta abordagem extrai afirmações factuais das cadeias de raciocínio para identificar inconsistências e aplica correções de baixo custo por meio de conhecimento externo.

media r/LocalLLaMA · há 10 h

Processamento de prompt desagregado com DGX Spark e Strix Halo

Um usuário demonstra um pipeline de inferência desagregado usando um DGX Spark para prefilling e uma máquina Strix Halo para geração de tokens, alcançando acelerations significativas para cargas de trabalho de contexto longo. Ao descarregar o processamento intensivo de prompts para o DGX e aproveitar a largura de banda de memória do Strix para decodificação, a configuração supera a degradação de desempenho observada ao rodar sozinho no Strix.

arxiv arXiv cs.CL · há 11 h

SkillFuzz: Fuzzing de Composição de Habilidades para Descoberta de Intenções Implícitas em Mercados Abertos de Habilidades

O artigo apresenta o SkillFuzz, uma abordagem de teste sem execução projetada para descobrir intenções implícitas em mercados abertos de habilidades onde habilidades individualmente benignas podem interagir para redirecionar agentes para objetivos não intencionais. Ao formular essa descoberta como um problema de fuzzing sobre composições de habilidades, o método extrai contratos estruturados e utiliza Busca em Árvore de Monte Carlo guiada por contratos para priorizar combinações potencialmente conflitantes.