すべての記事
media r/LocalLLaMA · 5時間前

OpenLumaraがOpenAIエンドポイント経由で任意のUIとローカルモデルを接続

オープンソースフレームワークのOpenLumaraは、KoboldLiteやOpenWebUIなど、OpenAIエンドポイントと通信できる任意のユーザーインターフェースへの接続をサポートするようになりました。このアップデートにより、ユーザーは好みのフロントエンドを変更せずに、トークン効率の高いハーネスを既存のワークフローに統合できます。

blog Simon Willison · 7時間前

DSPyを使用してDatasette AgentのSQLシステムプロンプトを評価・改善する

Simon WillisonはClaude CodeとFable 5モデルを使用して、Datasette Agentのシステムプロンプトの評価と最適化を自動化しました。これは特に読み取り専用SQLクエリ実行機能に焦点を当てています。このプロセスには、最新のDatasette alpha版とDSPyのインストールが含まれ、エージェントがスキーマ情報をどのように処理するかにおける弱点の特定を目指しました。

media r/LocalLLaMA · 8時間前

RTX 3090でのローカルベンチマーク - Qwen3.6 27b vs Ornith

あるユーザーが、RTX 3090上でinspect-aiフレームワークを使用してQwen3.6 27b、Gemma4 26B A4B QAT、およびOrnith1.0 35B MoEを比較し、ローカルモデルのパフォーマンスを評価しました。 テストの結果は、一般知識、グラウンディング、コーディングのベンチマークで混合したものであり、Qwen3.6がスコアで一般的にリードしましたが、OrnithはDROPのような特定分野で強みを見せました。

media Hugging Face Forums · 9時間前

複数タスクにおけるSoloとMoAのベンチマーク

本記事は、個別モデルとMixture-of-Agents (MoA) 構成を6つのタスク(Bug、Tool、Arch、Clinical、DLQ、および総合平均)で比較したベンチマーク結果を示しています。評価ハーネスにはHermes Agent v0.18が使用され、スコアは正確性、完全性、深さ、実行可能性、明瞭性、信頼性を重み付けしたルーブリックに基づきChatGPT 5.5とClaude opus 4.8によって生成されました。

media r/LocalLLaMA · 11時間前

2.3kのローカルAIアプリの分析により82カテゴリと多様なユースケースが判明

Mac App Storeの分析により、スクレイピングされた20,000件以上のエントリーの中から2,259件のローカルAIアプリケーションが特定され、モデルを特定のワークフローとパッケージ化するニッチなツールの成長するエコシステムが浮き彫りになった。この調査は82の異なるカテゴリをカバーしており、文字起こしやOCRのような一般的なタスクから、 Wardrobe styling(衣類スタイリング)やペットの健康支援のような専門的な機能まで含まれる。

media r/LocalLLaMA · 11時間前

コピーライティングスコアでEqBench3に+Elo 290のGemma-4-31B微調整

あるユーザーが、コピーライティングおよびクリエイティブライティングタスク用に特別に最適化されたGemma-4-31B-itモデルの狭義ファインチューンを公開しました。このモデルは、一般的なマーケティングの陳腐な表現を排除し、具体的内容と緊迫した行動喚起(CTA)で特徴づけられるダイレクトレスポンススタイルを採用するよう訓練されました。