Todos os artigos — korshunov.ai

Todos os artigos Página 1 / 22

Desafios e Recomendações para LLMs como Juízes em Configurações Multilíngues

Este artigo examina a confiabilidade do uso de Grandes Modelos de Linguagem como avaliadores em contextos multilíngues e de idiomas com poucos recursos, destacando lacunas significativas nas práticas atuais. Os autores analisam 650 artigos do Anthology ACL para identificar inconsistências e uma dependência excessiva de modelos de juiz únicos.

arxiv arXiv cs.CL · há 2 h

AgenticSTS: Um banco de testes de memória limitada para agentes LLM de longo prazo

Os autores apresentam o AgenticSTS, um banco de testes projetado para estudar como camadas de memória explícitas moldam as decisões de agentes LLM de longo prazo. Ele utiliza um contrato de memória limitada no jogo Slay the Spire 2 onde os prompts são montados por recuperação tipada em vez de anexar transcrições brutas.

arxiv arXiv cs.CL · há 2 h

BamiBERT: Um Novo Modelo de Linguagem Baseado em BERT para Vietnamita

Pesquisadores apresentam o BamiBERT, um novo modelo de linguagem pré-treinado baseado em BERT para vietnamita, projetado para abordar as limitações do padrão atual, PhoBERT. Treinado do zero em um corpus de 129GB por 20 épocas, suporta um comprimento de contexto estendido de até 2048 tokens e opera diretamente na entrada bruta sem segmentação externa de palavras.

arxiv arXiv cs.CL · há 2 h

CheckRLM: Verificação eficaz da coerência entre conhecimento e raciocínio no raciocínio aumentado por recuperação

Os autores propõem o CheckRLM, um framework que melhora a confiabilidade dos Modelos de Linguagem de Raciocínio ao usar Geração Aumentada por Recuperação para verificar e corrigir oportunamente erros factuais durante a inferência. Esta abordagem extrai afirmações factuais das cadeias de raciocínio para identificar inconsistências e aplica correções de baixo custo por meio de conhecimento externo.

arxiv arXiv cs.CL · há 2 h

HERMES: Um substrato de rotulagem multigranular para misturas de dados de pré-treinamento

HERMES é um substrato de rotulagem derivado de dados que usa uma Transformação Semântica Aprendida e quantização vetorial residual em 3 estágios para anotar documentos em um código de grosseiro a fino com até aproximadamente 130k células.

arxiv arXiv cs.CL · há 2 h

Sobre o papel da direcionalidade na generalização estrutural

O artigo apresenta um backend simbólico redesenhado para o AM-Parser que utiliza tipos dirigidos CCG para lidar melhor com distinções direcionais em tarefas de generalização estrutural, como mudanças na posição do modificador.

media r/LocalLLaMA · há 3 h

Processamento de prompt desagregado com DGX Spark e Strix Halo

Um usuário demonstra um pipeline de inferência desagregado usando um DGX Spark para prefilling e uma máquina Strix Halo para geração de tokens, alcançando acelerations significativas para cargas de trabalho de contexto longo. Ao descarregar o processamento intensivo de prompts para o DGX e aproveitar a largura de banda de memória do Strix para decodificação, a configuração supera a degradação de desempenho observada ao rodar sozinho no Strix.

arxiv arXiv cs.CL · há 3 h

HNSW com Garantias de Precisão Usando Spanners de Grafos

Este relatório técnico apresenta um framework "Certify-then-Rectify" que combina a velocidade dos grafos HNSW (Hierarchical Navigable Small World) com garantias teóricas de correção. O método avalia dinamicamente a qualidade da busca e escala para um algoritmo de recuperação exata se necessário, garantindo precisão no pior caso.

arxiv arXiv cs.CL · há 3 h

SkillFuzz: Fuzzing de Composição de Habilidades para Descoberta de Intenções Implícitas em Mercados Abertos de Habilidades

O artigo apresenta o SkillFuzz, uma abordagem de teste sem execução projetada para descobrir intenções implícitas em mercados abertos de habilidades onde habilidades individualmente benignas podem interagir para redirecionar agentes para objetivos não intencionais. Ao formular essa descoberta como um problema de fuzzing sobre composições de habilidades, o método extrai contratos estruturados e utiliza Busca em Árvore de Monte Carlo guiada por contratos para priorizar combinações potencialmente conflitantes.

arxiv arXiv cs.CL · há 4 h

Modelos Mundiais: Ferramentas Literárias para IA Cultural

O artigo argumenta que as disciplinas literárias fornecem ferramentas indispensáveis para construir uma IA com alfabetização cultural, abordando as limitações dos grandes modelos linguísticos monolíngues.

arxiv arXiv cs.CL · há 4 h

HULAT2 no MER-TRANS 2026: Simplificação Multi-Agente Governada para Geração de Texto Fácil de Ler em Espanhol

Este artigo detalha a participação do HULAT2-UC3M na trilha espanhola do MER-TRANS 2026, uma tarefa compartilhada sobre tradução multilíngue de texto fácil de ler. A equipe submeteu três execuções totalmente automáticas comparando um fluxo de trabalho multi-agente contra uma linha de base linear para avaliar estratégias de simplificação.

arxiv arXiv cs.CL · há 4 h

Conheça sua fonte: um repositório de conhecimento público para verificações de antecedentes na mídia

Os autores apresentam o MEDIAREF, um repositório de conhecimento publicamente disponível de documentos da web projetado para permitir a avaliação reproduzível e de baixo custo das verificações de antecedentes na mídia (MBC). Esta ferramenta aborda a dependência de APIs de busca proprietárias e caras nas abordagens recentes de raciocínio crítico sobre fontes.

arxiv arXiv cs.CL · há 4 h

Padrões de Migração Acadêmica em Processamento de Linguagem Natural

Um estudo analisando pesquisas em PLN de 2010 a 2026 encontra que o centro de gravidade disciplinar está se deslocando à medida que os avanços do Large Language Model borram as linhas entre PLN e Machine Learning geral.

arxiv arXiv cs.CL · há 4 h

Avaliação automatizada de exames de Linux/bash usando grandes modelos de linguagem

Este estudo avalia se quatro grandes modelos de linguagem de ponta (GPT, Claude Opus, Gemini e GLM) podem aproximar-se do julgamento de especialistas ao avaliar respostas curtas a comandos de Linux/bash. A pesquisa demonstra que prompts estruturados melhoram significativamente o acordo com avaliadores humanos, estabelecendo um framework para avaliação assistida por IA na educação em computação.

arxiv arXiv cs.CL · há 5 h

EvoPolicyGym: Avaliando a Evolução Autônoma de Políticas em Ambientes Interativos

O artigo apresenta o EvoPolicyGym, um benchmark projetado para avaliar como os agentes melhoram iterativamente políticas executáveis por meio de feedback dentro de um orçamento de interação fixo. Esse ambiente controlado aborda as limitações das avaliações existentes que frequentemente reduzem o processo a pontuações finais ou o confundem com o progresso da engenharia de software.

arxiv arXiv cs.CL · há 5 h

Modelos de Linguagem como Aparelho de Medição para a Cultura

Este artigo argumenta que o uso de PLN para quantificar fenômenos culturais é uma prática material-discursiva onde o aparelho constitui ativamente a realidade que mede, em vez de registrá-la passivamente.

media Hugging Face Forums · há 6 h

Teste na minha conta

Esta é uma postagem de teste criada para verificar a capacidade de criar conteúdo. A discussão contém duas postagens e envolve dois participantes.

github Goose (Block) · há 6 h

Notas de lançamento do Goose v1.41.0

A atualização Goose v1.41.0 introduz expansões significativas no suporte a provedores, incluindo novas integrações para iFlytek Spark, Astron, Fireworks AI, Together AI, OrcaRouter, EmpirioLabs AI, xAI SuperGrok, Perplexity, Alibaba (Qwen via DashScope), Databricks AI Gateway, NEAR AI Cloud e Scaleway. Ela também adiciona suporte ao modelo GLM-5.2 e capacidades de inferência local MLX.

arxiv arXiv cs.CL · há 6 h

A Escalabilidade Melhorará a Simulação Social com LLMs?

Este estudo investiga se os paradigmas atuais de escalabilidade de modelos de linguagem podem fechar lacunas de fidelidade em simulações sociais através do modelamento de opiniões, simulação comportamental e previsão longitudinal. Usando 85 modelos transformadores Qwen3 treinados no corpus DCLM sob orçamentos fixos de computação de $10^{18}$ a $10^{20}$ FLOPs, os autores analisam a relação entre a escala da computação e a precisão da simulação.

arxiv arXiv cs.CL · há 6 h

TestEvo-Bench: Um Benchmark Executável e ao Vivo para a Co-Evolução de Testes e Código

Os autores apresentam o TestEvo-Bench, um benchmark ao vivo projetado para avaliar quão bem os agentes de automação de testes lidam com a co-evolução do código e dos testes. Ele aborda limitações em benchmarks existentes ao fornecer tarefas executáveis ancoradas em históricos reais de commits com configurações de ambiente.