Todos os artigos — korshunov.ai

Todos os artigos Página 1 / 23

Acompanhamento: DeepSeek V4 Flash em 2x RTX PRO 6000 finaliza tarefas reais de codificação mais rápido que Sonnet e Opus, com qualidade aproximada à do Sonnet

Uma avaliação de benchmarking subsequente avalia o DeepSeek V4 Flash rodando em duas GPUs RTX PRO 6000 usando vLLM, comparando seu desempenho em tarefas reais de codificação contra modelos baseados em API como Claude Sonnet e Opus. O estudo descobre que, embora Opus e Fable mantenham qualidade superior de código, o DeepSeek V4 Flash atinge uma qualidade aproximadamente ao nível do Sonnet com tempos de parede significativamente mais rápidos.

media r/LocalLLaMA · há 2 h

Mapeando Nós Locais - Mildlyinteresting

O autor compartilha observações sobre o mapeamento e a direção de modelos locais com base em seus caminhos de ativação durante contextos específicos. O post destaca a variância nos caminhos de ativação entre diferentes modelos ao responder a um conjunto de prompts em lote.

github llama.cpp · há 4 h

Lançamento do llama.cpp b9861 com atualização do cpp-httplib

O projeto llama.cpp lançou a versão b9861, que inclui uma atualização do fornecedor para o cpp-httplib 0.49.0.

media r/LocalLLaMA · há 5 h

GLM-5.2 NVFP4 em quatro DGX Sparks — o mistério do MTP está resolvido, agora ~24 tok/s com contexto de 128K

Uma investigação posterior sobre a execução do GLM-5.2 NVFP4 em quatro nós DGX Spark resolve um gargalo de desempenho anterior onde altas taxas de aceitação eram impossíveis com contexto de 128K.

media r/LocalLLaMA · há 5 h

Claude Code ativa mecanismo quando ANTHROPIC_BASE_URL é definido

Um pesquisador identificou no Claude Code um mecanismo que é ativado quando o usuário define a variável de ambiente ANTHROPIC_BASE_URL, normalmente usada para modelos locais. Esse processo envolve decodificar e descriptografar uma lista de nomes de host suspeitos embutidos no código do software.

media Hugging Face Forums · há 7 h

Octopus Smart constrói sistema de análise da Copa do Mundo com IA

A Octopus Smart está desenvolvendo a Octopus Football, uma plataforma de análise para a Copa do Mundo e torneios profissionais que utiliza orquestração de inteligência de partidas alimentada por IA. O sistema combina modelos de análise preditiva com agentes de inteligência de dados para fornecer modelagem de desempenho da equipe, avaliações de jogadores e resumos automáticos de partidas.

arxiv arXiv cs.CL · há 7 h

Desafios e Recomendações para LLMs como Juízes em Configurações Multilíngues

Este artigo examina a confiabilidade do uso de Grandes Modelos de Linguagem como avaliadores em contextos multilíngues e de idiomas com poucos recursos, destacando lacunas significativas nas práticas atuais. Os autores analisam 650 artigos do Anthology ACL para identificar inconsistências e uma dependência excessiva de modelos de juiz únicos.

arxiv arXiv cs.CL · há 7 h

AgenticSTS: Um banco de testes de memória limitada para agentes LLM de longo prazo

Os autores apresentam o AgenticSTS, um banco de testes projetado para estudar como camadas de memória explícitas moldam as decisões de agentes LLM de longo prazo. Ele utiliza um contrato de memória limitada no jogo Slay the Spire 2 onde os prompts são montados por recuperação tipada em vez de anexar transcrições brutas.

arxiv arXiv cs.CL · há 8 h

BamiBERT: Um Novo Modelo de Linguagem Baseado em BERT para Vietnamita

Pesquisadores apresentam o BamiBERT, um novo modelo de linguagem pré-treinado baseado em BERT para vietnamita, projetado para abordar as limitações do padrão atual, PhoBERT. Treinado do zero em um corpus de 129GB por 20 épocas, suporta um comprimento de contexto estendido de até 2048 tokens e opera diretamente na entrada bruta sem segmentação externa de palavras.

arxiv arXiv cs.CL · há 8 h

CheckRLM: Verificação eficaz da coerência entre conhecimento e raciocínio no raciocínio aumentado por recuperação

Os autores propõem o CheckRLM, um framework que melhora a confiabilidade dos Modelos de Linguagem de Raciocínio ao usar Geração Aumentada por Recuperação para verificar e corrigir oportunamente erros factuais durante a inferência. Esta abordagem extrai afirmações factuais das cadeias de raciocínio para identificar inconsistências e aplica correções de baixo custo por meio de conhecimento externo.

arxiv arXiv cs.CL · há 8 h

HERMES: Um substrato de rotulagem multigranular para misturas de dados de pré-treinamento

HERMES é um substrato de rotulagem derivado de dados que usa uma Transformação Semântica Aprendida e quantização vetorial residual em 3 estágios para anotar documentos em um código de grosseiro a fino com até aproximadamente 130k células.

arxiv arXiv cs.CL · há 8 h

Sobre o papel da direcionalidade na generalização estrutural

O artigo apresenta um backend simbólico redesenhado para o AM-Parser que utiliza tipos dirigidos CCG para lidar melhor com distinções direcionais em tarefas de generalização estrutural, como mudanças na posição do modificador.

media r/LocalLLaMA · há 9 h

Processamento de prompt desagregado com DGX Spark e Strix Halo

Um usuário demonstra um pipeline de inferência desagregado usando um DGX Spark para prefilling e uma máquina Strix Halo para geração de tokens, alcançando acelerations significativas para cargas de trabalho de contexto longo. Ao descarregar o processamento intensivo de prompts para o DGX e aproveitar a largura de banda de memória do Strix para decodificação, a configuração supera a degradação de desempenho observada ao rodar sozinho no Strix.

arxiv arXiv cs.CL · há 9 h

HNSW com Garantias de Precisão Usando Spanners de Grafos

Este relatório técnico apresenta um framework "Certify-then-Rectify" que combina a velocidade dos grafos HNSW (Hierarchical Navigable Small World) com garantias teóricas de correção. O método avalia dinamicamente a qualidade da busca e escala para um algoritmo de recuperação exata se necessário, garantindo precisão no pior caso.

arxiv arXiv cs.CL · há 9 h

SkillFuzz: Fuzzing de Composição de Habilidades para Descoberta de Intenções Implícitas em Mercados Abertos de Habilidades

O artigo apresenta o SkillFuzz, uma abordagem de teste sem execução projetada para descobrir intenções implícitas em mercados abertos de habilidades onde habilidades individualmente benignas podem interagir para redirecionar agentes para objetivos não intencionais. Ao formular essa descoberta como um problema de fuzzing sobre composições de habilidades, o método extrai contratos estruturados e utiliza Busca em Árvore de Monte Carlo guiada por contratos para priorizar combinações potencialmente conflitantes.

arxiv arXiv cs.CL · há 10 h

Modelos Mundiais: Ferramentas Literárias para IA Cultural

O artigo argumenta que as disciplinas literárias fornecem ferramentas indispensáveis para construir uma IA com alfabetização cultural, abordando as limitações dos grandes modelos linguísticos monolíngues.

arxiv arXiv cs.CL · há 10 h

HULAT2 no MER-TRANS 2026: Simplificação Multi-Agente Governada para Geração de Texto Fácil de Ler em Espanhol

Este artigo detalha a participação do HULAT2-UC3M na trilha espanhola do MER-TRANS 2026, uma tarefa compartilhada sobre tradução multilíngue de texto fácil de ler. A equipe submeteu três execuções totalmente automáticas comparando um fluxo de trabalho multi-agente contra uma linha de base linear para avaliar estratégias de simplificação.

arxiv arXiv cs.CL · há 10 h

Conheça sua fonte: um repositório de conhecimento público para verificações de antecedentes na mídia

Os autores apresentam o MEDIAREF, um repositório de conhecimento publicamente disponível de documentos da web projetado para permitir a avaliação reproduzível e de baixo custo das verificações de antecedentes na mídia (MBC). Esta ferramenta aborda a dependência de APIs de busca proprietárias e caras nas abordagens recentes de raciocínio crítico sobre fontes.

arxiv arXiv cs.CL · há 10 h

Padrões de Migração Acadêmica em Processamento de Linguagem Natural

Um estudo analisando pesquisas em PLN de 2010 a 2026 encontra que o centro de gravidade disciplinar está se deslocando à medida que os avanços do Large Language Model borram as linhas entre PLN e Machine Learning geral.

arxiv arXiv cs.CL · há 10 h

Avaliação automatizada de exames de Linux/bash usando grandes modelos de linguagem

Este estudo avalia se quatro grandes modelos de linguagem de ponta (GPT, Claude Opus, Gemini e GLM) podem aproximar-se do julgamento de especialistas ao avaliar respostas curtas a comandos de Linux/bash. A pesquisa demonstra que prompts estruturados melhoram significativamente o acordo com avaliadores humanos, estabelecendo um framework para avaliação assistida por IA na educação em computação.