Todos os artigos — korshunov.ai

Todos os artigos Página 1 / 24

Acompanhamento: DeepSeek V4 Flash em 2x RTX PRO 6000 finaliza tarefas reais de codificação mais rápido que Sonnet e Opus, com qualidade aproximada à do Sonnet

Uma avaliação de benchmarking subsequente avalia o DeepSeek V4 Flash rodando em duas GPUs RTX PRO 6000 usando vLLM, comparando seu desempenho em tarefas reais de codificação contra modelos baseados em API como Claude Sonnet e Opus. O estudo descobre que, embora Opus e Fable mantenham qualidade superior de código, o DeepSeek V4 Flash atinge uma qualidade aproximadamente ao nível do Sonnet com tempos de parede significativamente mais rápidos.

media r/LocalLLaMA · há 5 h

Mapeando Nós Locais - Mildlyinteresting

O autor compartilha observações sobre o mapeamento e a direção de modelos locais com base em seus caminhos de ativação durante contextos específicos. O post destaca a variância nos caminhos de ativação entre diferentes modelos ao responder a um conjunto de prompts em lote.

media r/LocalLLaMA · há 5 h

Habilitando modo P2P em duas RTX 3090; números antes/depois (Qwen3.6-27B INT4, ctx 256k)

Um usuário testou o impacto de habilitar o modo Peer-to-Peer (P2P) em uma configuração dupla de NVIDIA RTX 3090 usando links PCIe 4.0 8x/8x. O benchmark envolveu executar cinco passagens com nvbandwidth e um script padrão de decode/soak para o modelo Qwen3.6-27B INT4 com uma janela de contexto de 256k.

media r/LocalLLaMA · há 5 h

A organização HF da Palantir não tem modelos ou conjuntos de dados de código aberto

Uma publicação no Reddit destaca que a organização da Palantir no Hugging Face atualmente não contém nenhum modelo de código aberto e nenhum conjunto de dados público. Essa observação foi compartilhada por clem 🤗 no X, apontando a falta de contribuições apesar da presença da empresa na plataforma.

github llama.cpp · há 6 h

Lançamento do llama.cpp b9861 com atualização do cpp-httplib

O projeto llama.cpp lançou a versão b9861, que inclui uma atualização do fornecedor para o cpp-httplib 0.49.0.

github llama.cpp · há 7 h

Lançamento do llama.cpp b9862: otimização de CUDA e binários multiplataforma

O projeto llama.cpp lançou a versão b9862, com uma otimização de desempenho para a operação gated_delta_net e fornecendo binários pré-compilados para macOS, Linux, Windows, Android e openEuler.

github llama.cpp · há 7 h

Lançamento llama.cpp b9864: intervalo de ping SSE por solicitação e binários para plataformas

O lançamento llama.cpp b9864 introduz uma alteração no tratamento de Server-Sent Events (SSE) do servidor, permitindo que o intervalo de ping seja configurado por solicitação. Esta atualização garante que operações lentas de prefill não interrompam conexões saudáveis, enviando ping para streams silenciosos a cada 1 segundo e encerrando-as apenas após 3 segundos.

media r/LocalLLaMA · há 7 h

GLM-5.2 NVFP4 em quatro DGX Sparks — o mistério do MTP está resolvido, agora ~24 tok/s com contexto de 128K

Uma investigação posterior sobre a execução do GLM-5.2 NVFP4 em quatro nós DGX Spark resolve um gargalo de desempenho anterior onde altas taxas de aceitação eram impossíveis com contexto de 128K.

media r/LocalLLaMA · há 8 h

Claude Code ativa mecanismo quando ANTHROPIC_BASE_URL é definido

Um pesquisador identificou no Claude Code um mecanismo que é ativado quando o usuário define a variável de ambiente ANTHROPIC_BASE_URL, normalmente usada para modelos locais. Esse processo envolve decodificar e descriptografar uma lista de nomes de host suspeitos embutidos no código do software.

media r/LocalLLaMA · há 8 h

Deepseek apresenta outra GRANDE inovação: DSpark. Muito mais rápido que o MTP [Vídeo explicativo]

Um usuário do Reddit compartilhou um link de vídeo sobre um novo avanço da DeepSeek chamado DSpark, descrito como significativamente mais rápido que o MTP.

media Hugging Face Forums · há 8 h

Usuário solicita revisão de Espaço do Hugging Face sinalizado como abusivo

Um usuário chamado Bitguy07 relata que seu Espaço do Hugging Face, "Bitguy07/browser-automation-studio", é automaticamente pausado e sinalizado como abusivo imediatamente após cada build bem-sucedida. A API de runtime retorna um estágio de "PAUSED" com a mensagem de erro "Flagged as abusive", impedindo que o container inicie.

media Hugging Face Forums · há 8 h

Validação entre Domínios de um Framework Unificado de Auto-organização

Um framework matemático unificado para auto-organização em sistemas complexos recebe suporte experimental de dois domínios físicos independentes: decoerência quântica e transições de condensados de Bose-Einstein clássicos. O estudo relata que o acoplamento não-local atua como um "amplificador crítico", produzindo efeitos máximos nas fronteiras de fase onde os sistemas são mais sensíveis.

media Hugging Face Forums · há 9 h

O problema da IGA: A inteligência não é um papagaio

O artigo argumenta que os sistemas atuais de IA sofrem de erros fundamentais de "categoria" enraizados no reducionismo, impedindo-os de alcançar verdadeira Inteligência Artificial Geral (IGA). Sustenta que um sofisticado imitar não pode preencher a lacuna entre respostas simuladas e compreensão genuína.

media Hugging Face Forums · há 9 h

Octopus Smart constrói sistema de análise da Copa do Mundo com IA

A Octopus Smart está desenvolvendo a Octopus Football, uma plataforma de análise para a Copa do Mundo e torneios profissionais que utiliza orquestração de inteligência de partidas alimentada por IA. O sistema combina modelos de análise preditiva com agentes de inteligência de dados para fornecer modelagem de desempenho da equipe, avaliações de jogadores e resumos automáticos de partidas.

arxiv arXiv cs.CL · há 9 h

Desafios e Recomendações para LLMs como Juízes em Configurações Multilíngues

Este artigo examina a confiabilidade do uso de Grandes Modelos de Linguagem como avaliadores em contextos multilíngues e de idiomas com poucos recursos, destacando lacunas significativas nas práticas atuais. Os autores analisam 650 artigos do Anthology ACL para identificar inconsistências e uma dependência excessiva de modelos de juiz únicos.

arxiv arXiv cs.CL · há 10 h

AgenticSTS: Um banco de testes de memória limitada para agentes LLM de longo prazo

Os autores apresentam o AgenticSTS, um banco de testes projetado para estudar como camadas de memória explícitas moldam as decisões de agentes LLM de longo prazo. Ele utiliza um contrato de memória limitada no jogo Slay the Spire 2 onde os prompts são montados por recuperação tipada em vez de anexar transcrições brutas.

arxiv arXiv cs.CL · há 10 h

BamiBERT: Um Novo Modelo de Linguagem Baseado em BERT para Vietnamita

Pesquisadores apresentam o BamiBERT, um novo modelo de linguagem pré-treinado baseado em BERT para vietnamita, projetado para abordar as limitações do padrão atual, PhoBERT. Treinado do zero em um corpus de 129GB por 20 épocas, suporta um comprimento de contexto estendido de até 2048 tokens e opera diretamente na entrada bruta sem segmentação externa de palavras.

arxiv arXiv cs.CL · há 10 h

CheckRLM: Verificação eficaz da coerência entre conhecimento e raciocínio no raciocínio aumentado por recuperação

Os autores propõem o CheckRLM, um framework que melhora a confiabilidade dos Modelos de Linguagem de Raciocínio ao usar Geração Aumentada por Recuperação para verificar e corrigir oportunamente erros factuais durante a inferência. Esta abordagem extrai afirmações factuais das cadeias de raciocínio para identificar inconsistências e aplica correções de baixo custo por meio de conhecimento externo.

arxiv arXiv cs.CL · há 10 h

HERMES: Um substrato de rotulagem multigranular para misturas de dados de pré-treinamento

HERMES é um substrato de rotulagem derivado de dados que usa uma Transformação Semântica Aprendida e quantização vetorial residual em 3 estágios para anotar documentos em um código de grosseiro a fino com até aproximadamente 130k células.

arxiv arXiv cs.CL · há 11 h

Sobre o papel da direcionalidade na generalização estrutural

O artigo apresenta um backend simbólico redesenhado para o AM-Parser que utiliza tipos dirigidos CCG para lidar melhor com distinções direcionais em tarefas de generalização estrutural, como mudanças na posição do modificador.