Semua artikel
media Hugging Face Forums · 6 jam lalu

Benchmarking Solo dan MoA pada berbagai tugas

Artikel ini menyajikan hasil benchmark yang membandingkan model individu dengan konfigurasi Mixture-of-Agents (MoA) di enam tugas: Bug, Tool, Arch, Clinical, DLQ, dan rata-rata keseluruhan. Harness evaluasi menggunakan Hermes Agent v0.18, dengan skor dihasilkan oleh ChatGPT 5.5 dan Claude opus 4.8 berdasarkan rubrik yang menimbang Benar, Kelengkapan, Kedalaman, Dapat Ditindaklanjuti, Kejelasan, dan Kepercayaan.

media r/LocalLLaMA · 8 jam lalu

Analisis 2.3k Aplikasi AI Lokal Mengungkap 82 Kategori dan Berbagai Kasus Penggunaan

Sebuah analisis terhadap Mac App Store mengidentifikasi 2.259 aplikasi AI lokal dari lebih dari 20.000 entri yang di-scrape, menyoroti ekosistem alat niche yang berkembang yang membungkus model dengan alur kerja spesifik. Survei ini mencakup 82 kategori berbeda, mulai dari tugas umum seperti transkripsi dan OCR hingga fungsi khusus seperti styling pakaian dan bantuan kesehatan hewan peliharaan.