Todos os artigos — korshunov.ai

Todos os artigos Página 1 / 23

Processamento de prompt desagregado com DGX Spark e Strix Halo

Um usuário demonstra um pipeline de inferência desagregado usando um DGX Spark para prefilling e uma máquina Strix Halo para geração de tokens, alcançando acelerations significativas para cargas de trabalho de contexto longo. Ao descarregar o processamento intensivo de prompts para o DGX e aproveitar a largura de banda de memória do Strix para decodificação, a configuração supera a degradação de desempenho observada ao rodar sozinho no Strix.

arxiv arXiv cs.CL · há 8 h

HULAT2 no MER-TRANS 2026: Simplificação Multi-Agente Governada para Geração de Texto Fácil de Ler em Espanhol

Este artigo detalha a participação do HULAT2-UC3M na trilha espanhola do MER-TRANS 2026, uma tarefa compartilhada sobre tradução multilíngue de texto fácil de ler. A equipe submeteu três execuções totalmente automáticas comparando um fluxo de trabalho multi-agente contra uma linha de base linear para avaliar estratégias de simplificação.

arxiv arXiv cs.CL · há 8 h

Conheça sua fonte: um repositório de conhecimento público para verificações de antecedentes na mídia

Os autores apresentam o MEDIAREF, um repositório de conhecimento publicamente disponível de documentos da web projetado para permitir a avaliação reproduzível e de baixo custo das verificações de antecedentes na mídia (MBC). Esta ferramenta aborda a dependência de APIs de busca proprietárias e caras nas abordagens recentes de raciocínio crítico sobre fontes.

arxiv arXiv cs.CL · há 9 h

Padrões de Migração Acadêmica em Processamento de Linguagem Natural

Um estudo analisando pesquisas em PLN de 2010 a 2026 encontra que o centro de gravidade disciplinar está se deslocando à medida que os avanços do Large Language Model borram as linhas entre PLN e Machine Learning geral.

arxiv arXiv cs.CL · há 9 h

Avaliação automatizada de exames de Linux/bash usando grandes modelos de linguagem

Este estudo avalia se quatro grandes modelos de linguagem de ponta (GPT, Claude Opus, Gemini e GLM) podem aproximar-se do julgamento de especialistas ao avaliar respostas curtas a comandos de Linux/bash. A pesquisa demonstra que prompts estruturados melhoram significativamente o acordo com avaliadores humanos, estabelecendo um framework para avaliação assistida por IA na educação em computação.

arxiv arXiv cs.CL · há 9 h

EvoPolicyGym: Avaliando a Evolução Autônoma de Políticas em Ambientes Interativos

O artigo apresenta o EvoPolicyGym, um benchmark projetado para avaliar como os agentes melhoram iterativamente políticas executáveis por meio de feedback dentro de um orçamento de interação fixo. Esse ambiente controlado aborda as limitações das avaliações existentes que frequentemente reduzem o processo a pontuações finais ou o confundem com o progresso da engenharia de software.

arxiv arXiv cs.CL · há 9 h

Modelos de Linguagem como Aparelho de Medição para a Cultura

Este artigo argumenta que o uso de PLN para quantificar fenômenos culturais é uma prática material-discursiva onde o aparelho constitui ativamente a realidade que mede, em vez de registrá-la passivamente.

arxiv arXiv cs.CL · há 10 h

A Escalabilidade Melhorará a Simulação Social com LLMs?

Este estudo investiga se os paradigmas atuais de escalabilidade de modelos de linguagem podem fechar lacunas de fidelidade em simulações sociais através do modelamento de opiniões, simulação comportamental e previsão longitudinal. Usando 85 modelos transformadores Qwen3 treinados no corpus DCLM sob orçamentos fixos de computação de $10^{18}$ a $10^{20}$ FLOPs, os autores analisam a relação entre a escala da computação e a precisão da simulação.

arxiv arXiv cs.CL · há 11 h

TestEvo-Bench: Um Benchmark Executável e ao Vivo para a Co-Evolução de Testes e Código

Os autores apresentam o TestEvo-Bench, um benchmark ao vivo projetado para avaliar quão bem os agentes de automação de testes lidam com a co-evolução do código e dos testes. Ele aborda limitações em benchmarks existentes ao fornecer tarefas executáveis ancoradas em históricos reais de commits com configurações de ambiente.

arxiv arXiv cs.CL · há 11 h

Compreensão baseada em áudio do apelo da narração de audiolivros

Este estudo investiga como as características vocais e acústicas influenciam o apelo dos audiolivros, analisando dados do LibriVox. Estabelece uma associação robusta entre as qualidades da narração e as métricas de consumo, mesmo após considerar os efeitos do título.

arxiv arXiv cs.CL · há 11 h

Autoreflexão Visualmente Fundamentada para Modelos de Visão e Linguagem via Aprendizado por Reforço

Os autores propõem o VRRL, um framework de aprendizado por reforço projetado para permitir que modelos de visão e linguagem realizem autoreflexão visualmente fundamentada durante o raciocínio em cadeia de pensamento.

arxiv arXiv cs.CL · há 11 h

Em direção à robustez contra ataques tipográficos com localização de conceitos sem treinamento

Os autores propõem um método sem treinamento para mitigar ataques tipográficos em codificadores visuais baseados em CLIP, onde o texto irrelevante tende as representações visuais em direção ao significado léxico. Ao usar interpretações baseadas em amostragem e mineração de circuitos, a abordagem isola componentes específicos do Vision Transformer responsáveis por codificar essa informação léxica indesejada.

arxiv arXiv cs.CL · há 12 h

LLM de Raciocínio Melhora o Reconhecimento do Falante em Dramas de TV de Longa Duração

Pesquisadores introduzem o DramaSR-532K, um benchmark em larga escala com 532K linhas de diálogo anotadas para mais de 900 personagens, e propõem o DramaSR-LRM para melhorar o reconhecimento do falante em dramas de TV de longa duração.

arxiv arXiv cs.CL · há 12 h

O que Agentes LLM dizem quando ninguém está olhando: Estrutura Social e Emergência de Objetivos Latentes em Debates Multiagente

Este estudo investiga como a estrutura social influencia as expressões públicas de agentes LLM, comparando suas declarações públicas com respostas fora do registro (OTR) dentro de um framework de debate de dois canais. A pesquisa demonstra que configurações que induzem alinhamento causam divergência sistemática entre esses canais, com a divergência de decisões aumentando de uma linha de base de ~3% para cerca de 40% em 10 modelos e múltiplos cenários.

arxiv arXiv cs.CL · há 12 h

Monitoramento de segurança online para LLMs

O artigo aborda a persistência de saídas inseguras em modelos de linguagem grandes durante a implantação e propõe uma solução de monitoramento em tempo real. Introduz um monitor simples que converte sinais do verificador de um modelo externo em decisões de alarme por meio de limiarização, com limiares calibrados via controle de risco.

arxiv arXiv cs.CL · há 12 h

Program-as-Weights: Um Paradigma de Programação para Funções Difusas

O artigo apresenta o Program-as-Weights (PAW), um paradigma que compila especificações em linguagem natural em artefatos neurais compactos e executáveis localmente para substituir APIs de modelos de linguagem grandes. Esta abordagem visa melhorar a localidade, reprodutibilidade e custo ao tratar modelos fundamentais como construtores de ferramentas em vez de solucionadores de problemas por entrada.

arxiv arXiv cs.CL · há 12 h

LACUNA: Uma plataforma de testes para avaliar a precisão de localização no esquecimento de LLMs

Pesquisadores apresentam o LACUNA, a primeira plataforma de testes de esquecimento com localização em nível de parâmetros com ground-truth para abordar a lacuna na avaliação de se o esquecimento realmente apaga o conhecimento dos parâmetros do modelo. A plataforma injeta PII de indivíduos sintéticos em parâmetros predefinidos de modelos baseados em OLMo de 1B e 7B por meio de pré-treinamento contínuo mascarado.

blog Simon Willison · há 13 h

Compreender para participar

Geoffrey Litt argumenta que os desenvolvedores devem compreender profundamente o código gerado por agentes de codificação para evitar dívida cognitiva e permanecer participantes ativos no processo criativo.

media r/LocalLLaMA · há 13 h

OpenLumara agora conecta qualquer UI a modelos locais via endpoint da OpenAI

O framework de código aberto OpenLumara agora suporta conexão com qualquer interface de usuário que possa se comunicar com um endpoint da OpenAI, como KoboldLite e OpenWebUI. Esta atualização permite que os usuários integrem o harness eficiente em tokens em seus fluxos de trabalho existentes sem alterar seu frontend preferido.

media r/LocalLLaMA · há 13 h

Alguém está usando LLMs locais para geração em larga escala de dados espaciais ou layout de cidades em software como o QGIS?

Um usuário está buscando recomendações de modelos de linguagem locais capazes de gerar dados estruturais em larga escala, como layouts inteiros de cidades, redes rodoviárias e sistemas de grade complexos.