Todos os artigos
media r/LocalLLaMA · há 4 h

Acompanhamento: DeepSeek V4 Flash em 2x RTX PRO 6000 finaliza tarefas reais de codificação mais rápido que Sonnet e Opus, com qualidade aproximada à do Sonnet

Uma avaliação de benchmarking subsequente avalia o DeepSeek V4 Flash rodando em duas GPUs RTX PRO 6000 usando vLLM, comparando seu desempenho em tarefas reais de codificação contra modelos baseados em API como Claude Sonnet e Opus. O estudo descobre que, embora Opus e Fable mantenham qualidade superior de código, o DeepSeek V4 Flash atinge uma qualidade aproximadamente ao nível do Sonnet com tempos de parede significativamente mais rápidos.

github llama.cpp · há 7 h

Lançamento llama.cpp b9864: intervalo de ping SSE por solicitação e binários para plataformas

O lançamento llama.cpp b9864 introduz uma alteração no tratamento de Server-Sent Events (SSE) do servidor, permitindo que o intervalo de ping seja configurado por solicitação. Esta atualização garante que operações lentas de prefill não interrompam conexões saudáveis, enviando ping para streams silenciosos a cada 1 segundo e encerrando-as apenas após 3 segundos.

media Hugging Face Forums · há 8 h

Validação entre Domínios de um Framework Unificado de Auto-organização

Um framework matemático unificado para auto-organização em sistemas complexos recebe suporte experimental de dois domínios físicos independentes: decoerência quântica e transições de condensados de Bose-Einstein clássicos. O estudo relata que o acoplamento não-local atua como um "amplificador crítico", produzindo efeitos máximos nas fronteiras de fase onde os sistemas são mais sensíveis.

media Hugging Face Forums · há 9 h

Octopus Smart constrói sistema de análise da Copa do Mundo com IA

A Octopus Smart está desenvolvendo a Octopus Football, uma plataforma de análise para a Copa do Mundo e torneios profissionais que utiliza orquestração de inteligência de partidas alimentada por IA. O sistema combina modelos de análise preditiva com agentes de inteligência de dados para fornecer modelagem de desempenho da equipe, avaliações de jogadores e resumos automáticos de partidas.

arxiv arXiv cs.CL · há 10 h

CheckRLM: Verificação eficaz da coerência entre conhecimento e raciocínio no raciocínio aumentado por recuperação

Os autores propõem o CheckRLM, um framework que melhora a confiabilidade dos Modelos de Linguagem de Raciocínio ao usar Geração Aumentada por Recuperação para verificar e corrigir oportunamente erros factuais durante a inferência. Esta abordagem extrai afirmações factuais das cadeias de raciocínio para identificar inconsistências e aplica correções de baixo custo por meio de conhecimento externo.