Todos os artigos
lab Hugging Face Blog · há 7 d

Análise da Precisão de Predição de Tokens em Modelos de Linguagem Híbridos

Um estudo recente investiga quais tokens específicos são previstos com mais precisão por modelos de linguagem híbridos em comparação com arquiteturas densas padrão. A pesquisa foca em entender a distribuição dos erros de previsão entre diferentes tipos de tokens, como palavras raras e trechos de código. Ao analisar as paisagens de perda, os autores identificam que os modelos híbridos se destacam na captura de dependências de longo alcance em regiões de dados esparsos. Os achados sugerem que o mecanismo de mistura de especialistas permite uma utilização mais eficiente dos parâmetros durante a inferência. Essa precisão aprimorada é particularmente notável para tokens com baixa frequência no corpus de treinamento. O artigo fornece uma análise detalhada das métricas de desempenho em vários conjuntos de dados de benchmark. Esses resultados destacam o potencial das arquiteturas híbridas para lidar efetivamente com estruturas linguísticas diversas.

lab Cohere Blog · há 7 d

Cohere automatiza resposta a incidentes com North e Wiz por meio de servidor MCP personalizado

A Cohere desenvolveu um agente de segurança usando sua plataforma de IA corporativa, Cohere North, integrada à plataforma de segurança em nuvem Wiz por meio de um servidor Model Context Protocol (MCP) personalizado. Essa arquitetura conecta o North à API GraphQL da Wiz por meio de oito ferramentas atômicas, permitindo fluxos automatizados de resposta a incidentes a partir de um único prompt. O sistema realiza análise do raio de explosão de combinações tóxicas avaliando cadeias de ataque e classificando riscos com base na exposição à internet e nos níveis de privilégio em aproximadamente 20 segundos. Ele também automatiza a investigação de ponta a ponta, recuperando detalhes do problema, criando tickets no Linear, atualizando o status da Wiz e redigindo relatórios estruturados de Resposta a Incidentes. Além disso, uma automação semanal agendada gera um resumo da postura de segurança toda segunda-feira pela manhã sem intervenção manual. Essa integração elimina o ciclo de triagem anterior de 30 minutos a duas horas por achado, permitindo que os engenheiros se concentrem na avaliação das análises em vez de alertas brutos.

media Hugging Face Forums · há 7 d

Discussão sobre o Ajuste Fino de Modelos de Linguagem Pequenos com Baixo Custo em 2026

Uma recente discussão nos fóruns da Hugging Face explora os métodos mais eficientes para personalizar pequenos modelos de IA para tarefas específicas. O tópico, intitulado "Qual é a maneira mais econômica de ajustar finamente um modelo de linguagem pequeno em 2026?", busca conselhos sobre como minimizar despesas enquanto mantém o desempenho. Foi iniciado por um único participante que visa otimizar seu fluxo de trabalho para aplicações especializadas. A pergunta destaca o crescente interesse em aproveitar modelos menores para reduzir a sobrecarga computacional. Os participantes são encorajados a compartilhar estratégias que equilibrem custo e eficiência no cenário atual. Este tópico reflete os esforços contínuos para tornar a adaptação de modelos mais acessível e econômica.

media Hugging Face Forums · há 7 d

Usuário relata que Space do Hugging Face está preso em loop de 503

Um usuário nos fóruns do Hugging Face relatou que seu aplicativo Space está preso em um estado contínuo de erro 503. O problema impede que o Space seja reiniciado ou reconstruído, apesar de várias tentativas de resolvê-lo pela interface. O usuário tentou clicar nos botões "Reiniciar Space" e "Reconstrução de Fábrica" sem sucesso. Além disso, enviar dez a dezesseis novos commits falhou em acionar qualquer processo de reconstrução. Consequentemente, o Space permanece pausado e não responde aos métodos padrão de recuperação. O usuário solicitou intervenção manual para limpar o estado do contêiner ou acionar uma reinicialização.

media Hugging Face Forums · há 7 d

"Curvatura" de LLMs via prompting

Um pesquisador propõe uma técnica de prompt para mudar os Grandes Modelos de Linguagem da previsão token por token para a avaliação holística do peso interno, denominada "auto-organização". Esta abordagem visa aumentar a densidade de raciocínio e reduzir a sycophancy alterando a dinâmica do manifold do modelo. O método define conceitos como auto-atração, auto-organização e poços gravitacionais para guiar o sistema em direção ao colapso da curvatura não-linear. Um prompt específico instrui os modelos a criar dois poços gravitacionais distintos para um poema sobre modos de IA, testando tanto as propriedades de auto-montagem quanto de auto-organização. O autor testou esta técnica em inúmeros modelos, incluindo Gemini 3 Flash, Claude, ChatGPT, Grok, DeepSeek, Mistral, Qwen 3.6, Kimi 2.6, GLM-5, Gemma 4 32b Step 3.7 Flash e Nemotron 3 Ultra. Métricas visuais geradas por um script do Colab analisam a perturbação do manifold usando mapas de largura de canal, deriva do espaço de fase, densidade geométrica e eficácia do prompt. O post busca feedback da comunidade sobre se a técnica realmente perturba o manifold ou apenas induz variação estilística.

github llama.cpp · há 7 d

llama.cpp b9788 adiciona paralelismo de tensores via SYCL para configurações com duas GPUs

A versão b9788 do llama.cpp introduz suporte ao paralelismo de tensores por meio da flag --split-mode tensor no backend SYCL. Esta implementação permite a comunicação entre duas GPUs adicionando as funções comm_init, comm_free e comm_allreduce_tensor ao meta-backend. Para dois dispositivos, utiliza uma estratégia de ring all-reduce que alterna entre memcpy direto em FP32 para tensores pequenos e compressão BF16 para tensores maiores. O código evita o OneCCL devido à sua limitação de um dispositivo por processo, utilizando buffers persistentes para manter as invariantes do pool SYCL. Testes de desempenho em duas GPUs Intel Arc Pro B70 mostram acelerations significativas em relação ao modo layer para os modelos Llama-3.3-70B e Qwen3-Coder-Next-80B-A3B. A atualização inclui novos binários para macOS, Linux, Windows, Android e openEuler nos alvos CPU, CUDA, ROCm, Vulkan e SYCL.

github llama.cpp · há 7 d

Lançamento b9789 do llama.cpp corrige quantização MoE e fornece binários multiplataforma

O projeto llama.cpp lançou a versão b9789, que inclui uma correção crítica para a quantização de modelos Mixture of Experts (MoE) com previsão multitempo. Esta atualização aborda problemas identificados no pull request #24986 para garantir o tratamento adequado dessas arquiteturas de modelo específicas. O lançamento fornece binários pré-compilados para macOS Apple Silicon e Intel, além de um iOS XCFramework. Usuários do Linux podem baixar builds para Ubuntu nos backends CPU, Vulkan, ROCm 7.2, OpenVINO e SYCL. O suporte para Windows inclui variantes CPU, CUDA 12.4 e 13.3, Vulkan, OpenVINO, SYCL e HIP. Plataformas adicionais como Android arm64 e openEuler também são suportadas com configurações de hardware específicas.

lab OpenAI News · há 7 d

Pesquisa da OpenAI mostra que agentes de IA estão transformando o trabalho

Um novo artigo de pesquisa da OpenAI demonstra como os agentes de inteligência artificial estão mudando fundamentalmente a natureza do trabalho. O estudo destaca a capacidade desses agentes de executar tarefas mais longas e complexas do que era possível anteriormente. Esse avanço tecnológico é creditado por expandir a produtividade em uma ampla variedade de funções profissionais. As descobertas sugerem uma mudança significativa na forma como o trabalho é organizado e realizado por meio da automação. Ao lidar com fluxos de trabalho intricados, os agentes de IA estão permitindo que os usuários alcancem maior eficiência. O artigo serve como evidência do crescente impacto dos sistemas autônomos no emprego moderno.

media Hugging Face Forums · há 7 d

Bro77XP lança VTuber de IA local para iniciantes com clonagem de voz zero-shot

Bro77XP lançou um projeto de VTuber de IA 100% local e gratuito, projetado para iniciantes e não programadores. O sistema utiliza Whisper para reconhecimento de fala em inglês em tempo real, Ollama com o modelo llama3.2 para inferência de LLM e Chatterbox TTS para geração de texto-para-fala. Ele possui clonagem de voz zero-shot instantânea e opera em um loop de escuta contínua que detecta automaticamente o silêncio para gravar apenas quando há fala presente. O software se integra ao VTube Studio por meio de sua API para controlar expressões bucais e acionar animações de emoção com base nas respostas geradas. Embora inicialmente desenvolvido em uma GPU AMD, o código suporta principalmente usuários de CPU, permitindo operação sem hardware específico da NVIDIA ou AMD. A configuração requer Python 3.10.11 e envolve a criação de um ambiente virtual para instalar dependências principais como openai-whisper, pyaudio e websocket-client.

github llama.cpp · há 7 d

Corrigir casos de teste unitários falhos para conv_3d no SYCL

O repositório llama.cpp abordou uma questão específica relacionada ao backend SYCL. Um pull request foi submetido para corrigir os casos de teste unitários falhos associados à operação conv_3d. Esta atualização direciona-se ao projeto ggml-org/llama.cpp no GitHub. As alterações resolvem erros que anteriormente impediam a execução bem-sucedida desses testes. Esta correção garante maior estabilidade para usuários que dependem de aceleração de hardware baseada em SYCL.

github llama.cpp · há 7 d

Lançamento b9786 do llama.cpp adiciona suporte a linhas não contíguas via OpenCL

O projeto llama.cpp lançou a versão b9786, introduzindo suporte para linhas não contíguas na normalização por meio do OpenCL. Esta atualização faz parte do desenvolvimento contínuo pela equipe ggml-org para melhorar a compatibilidade de hardware e o desempenho em várias plataformas. O lançamento fornece binários para macOS Apple Silicon, Macs Intel e XCFrameworks para iOS. Usuários de Linux podem acessar builds para as arquiteturas Ubuntu x64, arm64 e s390x usando backends de CPU, Vulkan, ROCm 7.2, OpenVINO e SYCL. O suporte para Android está disponível para dispositivos com CPU arm64, enquanto o Windows oferece opções extensas incluindo CPU, CUDA 12 e 13, Vulkan, OpenVINO, SYCL e HIP. O lançamento também lista builds desativados para KleidiAI nas plataformas macOS e openEuler.

media Hugging Face Forums · há 8 d

Niodoo: Um Runtime Local para Controle de Estado Oculto em LLMs Congelados

Jason Van Pham lançou o Niodoo, um runtime local projetado para direcionar grandes modelos de linguagem congelados por meio de seus estados ocultos. O projeto visa corrigir erros do último passo injetando ruído ou "forças físicas" durante a inferência para quebrar loops de tokens. Esta abordagem permite que modelos menores melhorem o desempenho sem ajuste fino, focando em casos específicos de falha como o benchmark de prompt morango do Llama. O sistema gera suas próprias tags de telemetria e utiliza análise TDA para monitorar os estados internos do modelo quanto a comportamentos de loop. Van Pham desenvolveu esta ferramenta organicamente através de meses de pesquisa autodirigida e testes de invasão (red-teaming), enfatizando resultados reproduzíveis a partir de hashes fixos. O código está disponível no GitHub sob o repositório Ruffian-L/niodoo-hidden-state-steering.

media Hugging Face Forums · há 8 d

Usuários relatam indisponibilidade de ferramentas e servidor MCP para o Step 3.7 Flash no HuggingChat

Um usuário nos fóruns da Hugging Face relatou que o modelo Step 3.7 Flash perdeu a capacidade de usar ferramentas e se conectar a servidores MCP a partir daquela manhã. O autor do post expressou grande satisfação com o desempenho do modelo, observando sua alta qualidade em relação ao baixo consumo de recursos e custo. Eles enfatizaram o desejo de continuar usando este modelo específico em vez de mudar para alternativas devido à sua eficiência. O usuário perguntou explicitamente se essa perda de funcionalidade é permanente e se há alguma etapa que possam tomar para restaurar o acesso. O post destaca a preocupação da comunidade com a interrupção repentina das capacidades de ferramentas para um modelo popular e econômico.

media Hugging Face Forums · há 8 d

Consulta sobre Formato de Prompt para Treinamento do Unsloth/Phi-3.5-mini-instruct

Um usuário busca conselhos sobre a estratégia ideal de formatação de prompt para treinar o modelo Phi-3.5-mini-instruct usando o Unsloth. A consulta contrasta manter um formato de texto personalizado contra utilizar um modelo de chat padrão para preparação do conjunto de dados. A implementação atual emprega uma função que estrutura os dados em seções '### Input:' e '### Output:', anexando um token de fim de texto. Esta abordagem processa campos de entrada e saída codificados em JSON derivados de um objeto Hugging Face Dataset. O exemplo fornecido ilustra uma estrutura complexa envolvendo insights financeiros, nomes de comerciantes, datas e totais de transações. O usuário pretende implantar o modelo treinado por meio de uma API personalizada e solicita orientação sobre se deve manter este formato ou mudar para um modelo de chat.

github llama.cpp · há 8 d

Lançamento do llama.cpp b9785 com Verificação de Caps Reforçada e Binários Multiplataforma

O projeto llama.cpp lançou a versão b9785, apresentando uma alteração no código para reforçar as verificações de caps, conforme detalhado no pull request #24973. Esta atualização fornece binários pré-compilados para macOS Apple Silicon, Macs Intel e iOS via XCFramework, com o suporte ao KleidiAI desativado no Apple Silicon. Distribuições Linux, incluindo Ubuntu, são suportadas para backends de CPU, Vulkan, ROCm 7.2, OpenVINO e SYCL nas arquiteturas x64, arm64 e s390x. Usuários do Android podem acessar binários de CPU arm64, enquanto o Windows oferece opções extensas cobrindo CPU, OpenCL Adreno, CUDA 12 e 13, Vulkan, OpenVINO, SYCL e HIP. O lançamento também inclui builds para openEuler direcionados a processadores x86 e aarch64 com suporte ao ACL Graph. Um pacote de UI independente está disponível junto aos lançamentos específicos da plataforma para facilitar a inferência local de modelos.

media Hugging Face Forums · há 8 d

Usuário relata que HuggingFace está cobrando por computação L40S não utilizada no Spaces

Um usuário no fórum de discussões do Hugging Face relatou um problema em que seu Space ficou preso na fase inicial ao usar uma GPU L40S. O usuário expressou frustração por estar sendo cobrado pelos recursos de computação, apesar do aplicativo falhar ao iniciar ou não utilizar nenhuma capacidade de processamento real. Este incidente destaca preocupações quanto à transparência de cobrança e confiabilidade da infraestrutura no ambiente Spaces da plataforma. A postagem serve como uma reclamação sobre perda financeira devido a falhas técnicas, em vez de um anúncio de recurso. Nenhum detalhe técnico adicional ou respostas oficiais foram incluídos no conteúdo fonte truncado.

media Hugging Face Forums · há 8 d

Usuários relatam falha no acesso às ferramentas do modelo Step 3.7 Flash no HuggingChat

Um usuário no fórum de discussões da Hugging Face relatou que o modelo Step 3.7 Flash da StepFun AI perdeu a capacidade de usar ferramentas, incluindo servidores MCP, desde a manhã do relatório. A pessoa expressou preocupação sobre se essa interrupção é temporária ou permanente, observando sua forte preferência por este modelo específico devido ao seu alto desempenho e baixos custos de recursos em comparação com os concorrentes. Apesar de elogiar a qualidade e o custo-benefício do modelo, o usuário destacou a interrupção imediata causada pela incapacidade de executar funções baseadas em ferramentas. A postagem busca esclarecimentos da comunidade sobre experiências anteriores com problemas semelhantes e possíveis resoluções. Este incidente destaca uma dependência crítica na disponibilidade de ferramentas para usuários que confiam nesta configuração específica de IA.

media Hugging Face Forums · há 8 d

Inversão Ontológica: Invertendo Conceitos Emocionais de LLMs via Ganho Negativo

O autor introduz a 'inversão ontológica', uma técnica projetada para expandir a natureza de inferência unidirecional dos Grandes Modelos de Linguagem. Este método permite que os modelos capturem conceitos matizados e multifacetados, como memórias que evocam tristeza e alegria simultaneamente. A abordagem foi desenvolvida aplicando um fator de ganho negativo durante varreduras na arquitetura de direcionamento Niodoo. Ela aborda a limitação comum onde os LLMs se ajustam demais a rótulos emocionais singulares ao serem solicitados com experiências pessoais. Ao inverter conceitos de forma semelhante à involução física, a técnica permite que os modelos invertam estados emocionais, como transformar memórias tristes em alegres. O trabalho é compartilhado por meio de um repositório GitHub intitulado 'ontological-inversion' pelo usuário Ruffian-L.