Semua artikel
media r/LocalLLaMA · 4 jam lalu

Tindak lanjut: DeepSeek V4 Flash di 2x RTX PRO 6000 menyelesaikan tugas coding nyata lebih cepat daripada Sonnet dan Opus, dengan kualitas sekitar setara Sonnet

Sebuah benchmark tindak lanjut mengevaluasi DeepSeek V4 Flash yang berjalan pada dua GPU RTX PRO 6000 menggunakan vLLM, membandingkan kinerjanya dalam tugas coding dunia nyata terhadap model berbasis API seperti Claude Sonnet dan Opus. Studi ini menemukan bahwa meskipun Opus dan Fable mempertahankan kualitas kode yang lebih unggul, DeepSeek V4 Flash mencapai kualitas sekitar setara Sonnet dengan waktu wall-clock yang jauh lebih cepat.

arxiv arXiv cs.CL · 10 jam lalu

CheckRLM: Pengecekan Koherensi Pengetahuan-Pemikiran yang Efektif dalam Penalaran Berbasis Retrieval

Para penulis mengusulkan CheckRLM, sebuah kerangka kerja yang meningkatkan keandalan Model Bahasa Penalaran dengan menggunakan Generasi Berbasis Retrieval untuk memeriksa dan memperbaiki kesalahan faktual secara tepat waktu selama inferensi. Pendekatan ini mengekstrak klaim faktual dari rantai penalaran untuk mengidentifikasi inkonsistensi dan menerapkan koreksi berbiaya minimal melalui pengetahuan eksternal.