Together AI di ICML 2026: riset frontier di seluruh tumpukan
Together AI menyajikan sembilan makalah di ICML 2026 yang mencakup seluruh tumpukan pengembangan platformnya.
Together AI menyajikan sembilan makalah di ICML 2026 yang mencakup seluruh tumpukan pengembangan platformnya.
Artikel ini memperkenalkan ScarfBench, sebuah benchmark yang dirancang untuk mengevaluasi kinerja agen AI dalam memigrasikan aplikasi enterprise Java antar framework yang berbeda. Studi ini menyoroti kompleksitas migrasi framework dan mengusulkan metode evaluasi terstandarisasi untuk menilai kemampuan agen di domain ini.
Rilis llama.cpp b9850 memperkenalkan pembaruan dukungan model spesifik, termasuk pendaftaran tensor t_layer_inp untuk Qwen3Next, memperbaiki penugasan input dalam loop pemrosesan layer, dan menangani masalah DFLASH untuk qwen-coder-next. Ini juga menambahkan tensor untuk normalisasi perhatian pada model Qwen3.
Anthropic telah meluncurkan Claude Science dalam tahap beta, sebuah workbench AI yang dirancang untuk mengintegrasikan alat-alat ilmiah yang terfragmentasi ke dalam satu lingkungan penelitian. Platform ini bertujuan mempercepat penemuan dengan menyediakan artefak yang dapat diaudit, skalabilitas komputasi yang fleksibel, dan agen khusus untuk domain seperti genomik dan biologi struktural.
Anthropic telah merilis Claude Sonnet 5, model AI agentic baru yang dirancang untuk melakukan perencanaan kompleks, penggunaan alat, dan tugas pemrograman otonom dengan biaya lebih rendah dibandingkan model kelas Opus sebelumnya. Pembaruan ini menyempitkan kesenjangan kinerja dengan Opus 4.8 sambil menawarkan peningkatan signifikan dalam penalaran, keamanan, dan eksekusi dibandingkan pendahulunya, Sonnet 4.6.
Anthropic telah merilis versi 2.1.197 dari Claude Code, yang memperbarui model default menjadi Claude Sonnet 5. Model baru ini memiliki jendela konteks native 1M-token dan tersedia dengan harga promosi hingga 31 Agustus.
GeneBench-Pro adalah benchmark yang dirancang untuk mengevaluasi model pada tugas penalaran genomik kompleks, menampilkan sepuluh studi kasus terperinci yang menunjukkan pertanyaan representatif dan materi pendukung. Setiap studi kasus menyediakan prompt asli, dataset, dan konteks yang diperlukan untuk menilai kinerja model pada tantangan biologis spesifik.
GeneBench-Pro adalah benchmark tingkat penelitian yang dirancang untuk mengukur bagaimana agen AI menangani ambiguitas dan membuat penilaian konsekuensial dalam biologi komputasi, dengan memperluas dari GeneBench asli. Ini mengatasi keterbatasan evaluasi saat ini dengan menguji kemampuan tingkat tinggi seperti menangani noise data, merevisi asumsi, dan menentukan kapan hasil siap untuk pengambilan keputusan.
Insinyur OpenAI mengatasi crash C++ yang tidak dapat dijelaskan dalam infrastruktur data Rockset mereka dengan mengidentifikasi dua penyebab berbeda: korupsi perangkat keras diam-diam pada host Azure dan race condition berusia 18 tahun di GNU libunwind.
Data dari OpenAI Signals menunjukkan bahwa adopsi ChatGPT semakin meluas dan mendalam secara global, dengan pengguna mengirim pesan harian 50% lebih banyak dan menggandakan jumlah tugas berbeda yang dicoba enam bulan setelah mendaftar.
Rilis llama.cpp b9849 memperkenalkan dukungan untuk literal IPv6 yang diapit kurung siku dalam otoritas URL, memungkinkan server menguraikan bentuk [host]:port sesuai RFC 3986. Pembaruan ini memastikan pemformatan log pendengaran, header proxy, dan pembangunan ulang klien dengan benar sambil mempertahankan bare remote_addr untuk pelacakan per permintaan.
Google telah merilis dua model AI baru, Nano Banana 2 Lite dan Gemini Omni Flash, yang dirancang untuk meningkatkan kemampuan pengembang dalam membangun aplikasi cerdas.
Artikel ini berargumen bahwa spesialisasi dalam pembelajaran mesin adalah tren yang tak terhindarkan, didorong oleh meningkatnya kompleksitas model dan kebutuhan akan keahlian spesifik domain.
Proyek llama.cpp telah merilis versi b9848, yang mencakup perbaikan kritis untuk backend CUDA guna menyelesaikan masalah dengan fungsi `get_rows_back` pada tabel yang melebihi 65535 baris. Pembaruan ini mengatasi kesalahan pengikatan grid-y dan stride yang sebelumnya memengaruhi operasi tabel besar.
Hugging Face telah memperbarui halaman modelnya untuk menampilkan hasil evaluasi dari inisiatif 'Every Eval', memberikan pandangan komprehensif tentang kinerja model di berbagai benchmark. Integrasi ini memungkinkan pengguna mengakses berbagai metrik terstandarisasi langsung dalam antarmuka hub model.
Proyek llama.cpp telah merilis versi b9847, yang mencakup perbaikan untuk Gemma E4B MTP FlashAttention pada CUDA dan penghapusan deklarasi template yang tidak digunakan.
Proyek llama.cpp telah merilis versi b9846, yang mencakup optimasi backend Vulkan untuk Asahi Linux. Pembaruan ini mengembalikan loop ukuran blok dalam perkalian matriks untuk meningkatkan kompatibilitas dan kinerja pada perangkat keras Apple Silicon yang menjalankan Linux.
Proyek llama.cpp telah merilis versi b9844, yang memperkenalkan dukungan ggml-webgpu untuk format kuantisasi NVFP4. Pembaruan ini juga menyediakan biner pra-dibangun untuk macOS, iOS, Linux, Android, Windows, dan openEuler di berbagai backend perangkat keras.
Google UK telah merilis Laporan Dampak Ekonominya yang terbaru, yang merinci strategi untuk membantu lebih banyak orang memanfaatkan manfaat teknologi berbasis AI di negara tersebut.
Proyek llama.cpp telah menerbitkan rilis b9843, menyediakan biner pra-dibangun untuk macOS, Linux, Android, Windows, dan openEuler di berbagai arsitektur perangkat keras.