Todos os artigos — korshunov.ai

Todos os artigos Página 1 / 24

Acompanhamento: DeepSeek V4 Flash em 2x RTX PRO 6000 finaliza tarefas reais de codificação mais rápido que Sonnet e Opus, com qualidade aproximada à do Sonnet

Uma avaliação de benchmarking subsequente avalia o DeepSeek V4 Flash rodando em duas GPUs RTX PRO 6000 usando vLLM, comparando seu desempenho em tarefas reais de codificação contra modelos baseados em API como Claude Sonnet e Opus. O estudo descobre que, embora Opus e Fable mantenham qualidade superior de código, o DeepSeek V4 Flash atinge uma qualidade aproximadamente ao nível do Sonnet com tempos de parede significativamente mais rápidos.

media r/LocalLLaMA · há 4 h

Mapeando Nós Locais - Mildlyinteresting

O autor compartilha observações sobre o mapeamento e a direção de modelos locais com base em seus caminhos de ativação durante contextos específicos. O post destaca a variância nos caminhos de ativação entre diferentes modelos ao responder a um conjunto de prompts em lote.

github llama.cpp · há 5 h

Lançamento do llama.cpp b9861 com atualização do cpp-httplib

O projeto llama.cpp lançou a versão b9861, que inclui uma atualização do fornecedor para o cpp-httplib 0.49.0.

github llama.cpp · há 6 h

Lançamento do llama.cpp b9862: otimização de CUDA e binários multiplataforma

O projeto llama.cpp lançou a versão b9862, com uma otimização de desempenho para a operação gated_delta_net e fornecendo binários pré-compilados para macOS, Linux, Windows, Android e openEuler.

media r/LocalLLaMA · há 7 h

GLM-5.2 NVFP4 em quatro DGX Sparks — o mistério do MTP está resolvido, agora ~24 tok/s com contexto de 128K

Uma investigação posterior sobre a execução do GLM-5.2 NVFP4 em quatro nós DGX Spark resolve um gargalo de desempenho anterior onde altas taxas de aceitação eram impossíveis com contexto de 128K.

media r/LocalLLaMA · há 7 h

Claude Code ativa mecanismo quando ANTHROPIC_BASE_URL é definido

Um pesquisador identificou no Claude Code um mecanismo que é ativado quando o usuário define a variável de ambiente ANTHROPIC_BASE_URL, normalmente usada para modelos locais. Esse processo envolve decodificar e descriptografar uma lista de nomes de host suspeitos embutidos no código do software.

media r/LocalLLaMA · há 7 h

Deepseek apresenta outra GRANDE inovação: DSpark. Muito mais rápido que o MTP [Vídeo explicativo]

Um usuário do Reddit compartilhou um link de vídeo sobre um novo avanço da DeepSeek chamado DSpark, descrito como significativamente mais rápido que o MTP.

media Hugging Face Forums · há 7 h

Usuário solicita revisão de Espaço do Hugging Face sinalizado como abusivo

Um usuário chamado Bitguy07 relata que seu Espaço do Hugging Face, "Bitguy07/browser-automation-studio", é automaticamente pausado e sinalizado como abusivo imediatamente após cada build bem-sucedida. A API de runtime retorna um estágio de "PAUSED" com a mensagem de erro "Flagged as abusive", impedindo que o container inicie.

media Hugging Face Forums · há 8 h

Validação entre Domínios de um Framework Unificado de Auto-organização

Um framework matemático unificado para auto-organização em sistemas complexos recebe suporte experimental de dois domínios físicos independentes: decoerência quântica e transições de condensados de Bose-Einstein clássicos. O estudo relata que o acoplamento não-local atua como um "amplificador crítico", produzindo efeitos máximos nas fronteiras de fase onde os sistemas são mais sensíveis.

media Hugging Face Forums · há 8 h

O problema da IGA: A inteligência não é um papagaio

O artigo argumenta que os sistemas atuais de IA sofrem de erros fundamentais de "categoria" enraizados no reducionismo, impedindo-os de alcançar verdadeira Inteligência Artificial Geral (IGA). Sustenta que um sofisticado imitar não pode preencher a lacuna entre respostas simuladas e compreensão genuína.

media Hugging Face Forums · há 8 h

Octopus Smart constrói sistema de análise da Copa do Mundo com IA

A Octopus Smart está desenvolvendo a Octopus Football, uma plataforma de análise para a Copa do Mundo e torneios profissionais que utiliza orquestração de inteligência de partidas alimentada por IA. O sistema combina modelos de análise preditiva com agentes de inteligência de dados para fornecer modelagem de desempenho da equipe, avaliações de jogadores e resumos automáticos de partidas.

arxiv arXiv cs.CL · há 9 h

Desafios e Recomendações para LLMs como Juízes em Configurações Multilíngues

Este artigo examina a confiabilidade do uso de Grandes Modelos de Linguagem como avaliadores em contextos multilíngues e de idiomas com poucos recursos, destacando lacunas significativas nas práticas atuais. Os autores analisam 650 artigos do Anthology ACL para identificar inconsistências e uma dependência excessiva de modelos de juiz únicos.

arxiv arXiv cs.CL · há 9 h

AgenticSTS: Um banco de testes de memória limitada para agentes LLM de longo prazo

Os autores apresentam o AgenticSTS, um banco de testes projetado para estudar como camadas de memória explícitas moldam as decisões de agentes LLM de longo prazo. Ele utiliza um contrato de memória limitada no jogo Slay the Spire 2 onde os prompts são montados por recuperação tipada em vez de anexar transcrições brutas.

arxiv arXiv cs.CL · há 9 h

BamiBERT: Um Novo Modelo de Linguagem Baseado em BERT para Vietnamita

Pesquisadores apresentam o BamiBERT, um novo modelo de linguagem pré-treinado baseado em BERT para vietnamita, projetado para abordar as limitações do padrão atual, PhoBERT. Treinado do zero em um corpus de 129GB por 20 épocas, suporta um comprimento de contexto estendido de até 2048 tokens e opera diretamente na entrada bruta sem segmentação externa de palavras.

arxiv arXiv cs.CL · há 9 h

CheckRLM: Verificação eficaz da coerência entre conhecimento e raciocínio no raciocínio aumentado por recuperação

Os autores propõem o CheckRLM, um framework que melhora a confiabilidade dos Modelos de Linguagem de Raciocínio ao usar Geração Aumentada por Recuperação para verificar e corrigir oportunamente erros factuais durante a inferência. Esta abordagem extrai afirmações factuais das cadeias de raciocínio para identificar inconsistências e aplica correções de baixo custo por meio de conhecimento externo.

arxiv arXiv cs.CL · há 10 h

HERMES: Um substrato de rotulagem multigranular para misturas de dados de pré-treinamento

HERMES é um substrato de rotulagem derivado de dados que usa uma Transformação Semântica Aprendida e quantização vetorial residual em 3 estágios para anotar documentos em um código de grosseiro a fino com até aproximadamente 130k células.

arxiv arXiv cs.CL · há 10 h

Sobre o papel da direcionalidade na generalização estrutural

O artigo apresenta um backend simbólico redesenhado para o AM-Parser que utiliza tipos dirigidos CCG para lidar melhor com distinções direcionais em tarefas de generalização estrutural, como mudanças na posição do modificador.

media r/LocalLLaMA · há 10 h

Processamento de prompt desagregado com DGX Spark e Strix Halo

Um usuário demonstra um pipeline de inferência desagregado usando um DGX Spark para prefilling e uma máquina Strix Halo para geração de tokens, alcançando acelerations significativas para cargas de trabalho de contexto longo. Ao descarregar o processamento intensivo de prompts para o DGX e aproveitar a largura de banda de memória do Strix para decodificação, a configuração supera a degradação de desempenho observada ao rodar sozinho no Strix.

arxiv arXiv cs.CL · há 11 h

HNSW com Garantias de Precisão Usando Spanners de Grafos

Este relatório técnico apresenta um framework "Certify-then-Rectify" que combina a velocidade dos grafos HNSW (Hierarchical Navigable Small World) com garantias teóricas de correção. O método avalia dinamicamente a qualidade da busca e escala para um algoritmo de recuperação exata se necessário, garantindo precisão no pior caso.

arxiv arXiv cs.CL · há 11 h

SkillFuzz: Fuzzing de Composição de Habilidades para Descoberta de Intenções Implícitas em Mercados Abertos de Habilidades

O artigo apresenta o SkillFuzz, uma abordagem de teste sem execução projetada para descobrir intenções implícitas em mercados abertos de habilidades onde habilidades individualmente benignas podem interagir para redirecionar agentes para objetivos não intencionais. Ao formular essa descoberta como um problema de fuzzing sobre composições de habilidades, o método extrai contratos estruturados e utiliza Busca em Árvore de Monte Carlo guiada por contratos para priorizar combinações potencialmente conflitantes.