すべての記事 — korshunov.ai

すべての記事ページ 1 / 19

MacBook M5 ProでのローカルLLM - この分野の完全な初心者！

非プログラマーが、128GBのユニファイドメモリを備えたMacBook M5 Maxでローカル大規模言語モデルインフラストラクチャをセットアップする経験を共有しています。ユーザーは、学習用のソフトウェアスタック、モデル選択、安定してリモートアクセス可能なシステムを構築しながらAIを学ぶための目標について詳しく説明しています。

media Together AI Blog · 15時間前

ICML 2026におけるTogether AI: フルスタックにわたるフロンティア研究

Together AIは、プラットフォーム開発のフルスタックをカバーする9つの論文をICML 2026で発表します。

lab Hugging Face Blog · 16時間前

ScarfBench: エンタープライズJavaフレームワーク移行におけるAIエージェントのベンチマーク

本記事では、エンタープライズJavaアプリケーションを異なるフレーム間で移行する際のAIエージェントのパフォーマンスを評価するために設計されたベンチマークであるScarfBenchを紹介します。この研究は、フレームワーク移行の複雑さを浮き彫りにし、この分野におけるエージェントの能力を評価するための標準化された評価方法を提案しています。

github CrewAI · 17時間前

crewAI 1.15.2a1 リリースノート

crewAI 1.15.2a1 リリースでは、エージェントオーケストレーションフレームワーク向けの新機能、バグ修正、ドキュメント更新がいくつか導入されました。

github llama.cpp · 2日前

llama.cpp b9851 リリースでCUDAの整数切り捨てが修正され、バイナリが提供される

llama.cppプロジェクトはバージョンb9851をリリースしました。このバージョンには、flash_attn_mask_to_KV_maxカーネルにおける整数切り捨ておよびオーバーフローエラーを防ぐためのCUDA修正が含まれています。このアップデートは、指定されたカーネル内のKQマスクストライドに関連する問題を解決します。

github llama.cpp · 2日前

llama.cpp b9850 リリース: Qwen3 の修正と新しいバイナリ

llama.cpp b9850 リリースでは、特定のモデルサポートの更新が導入されました。これには、Qwen3Next 用の t_layer_inp テンソルの登録、レイヤー処理ループ内の入力割り当ての修正、qwen-coder-next に対する DFLASH の問題への対処が含まれます。また、Qwen3 モデルの注意機構正規化用のテンソルも追加されました。

github MCP (GitHub org) · 2日前

MCP Python SDK v2.0.0b1、完全な2026年仕様サポート付きでリリース

Model Context Protocol (MCP) Python SDKが、2026-07-28 MCP仕様の完全なサポートを導入する最初のベータ版 v2.0.0b1 をリリースしました。このプレリリースはオプトインのみであり、標準インストールが安定した1.xラインに解決され続けることを保証します。

lab Microsoft Research Blog · 2日前

SkillOpt: エージェントのスキルをトレーニング可能なパラメータとして扱う

Microsoft Researchは、エージェントのスキルファイルを凍結されたターゲットモデルの外側でトレーニング可能なパラメータとして扱い、手動のスキル編集を制御された最適化プロセスに変換する手法「SkillOpt」を紹介します。このアプローチは、基盤となるモデルの重みを更新することなく、エージェントの信頼性と一貫性を向上させます。

lab Anthropic News · 2日前

科学者向けのAIワークベンチ「Claude Science」が利用可能に

Anthropicは、断片化された科学ツールを単一の研究環境に統合するために設計されたAIワークベンチであるClaude Scienceのベータ版をリリースしました。このプラットフォームは、監査可能な成果物、柔軟なコンピューティングスケーリング、ゲノミクスや構造生物学などの分野向けの専門エージェントを提供することで、発見を加速することを目指しています。

lab Anthropic News · 2日前

Anthropic は、Claude Sonnet 5 をリリースしました。これは、以前の Opus クラスのモデルよりも低コストで、複雑な計画策定、ツール使用、自律的なコーディングタスクを実行するために設計された新しいエージェント型 AI モデルです。このアップデートは、Opus 4.8 とのパフォーマンス格差を縮めると同時に、その前身である Sonnet 4.6 と比較して、推論、安全性、実行において大幅な改善をもたらしました。

lab Claude Code Releases · 2日前

Claude Code v2.1.197がClaude Sonnet 5を導入

AnthropicはClaude Codeのバージョン2.1.197をリリースし、デフォルトモデルをClaude Sonnet 5に更新しました。この新モデルはネイティブの1Mトークンコンテキストウィンドウを備え、8月31日までプロモーション価格で利用可能です。

lab OpenAI News · 2日前

GeneBench-Proの内部：複雑なゲノム推論の10事例研究

GeneBench-Proは、複雑なゲノム推論タスクにおいてモデルを評価するために設計されたベンチマークで、代表的な質問と支援資料を紹介する10の詳細な事例研究を特徴としています。各事例研究では、特定の生物学的課題に対するモデルのパフォーマンスを評価するために必要な元のプロンプト、データセット、およびコンテキストを提供します。

lab OpenAI News · 2日前

GeneBench-Proの紹介

GeneBench-Proは、AIエージェントが計算生物学において曖昧さに対処し、重要な判断を下す能力を測定するために設計された研究レベルのベンチマークであり、元のGeneBenchを拡張したものです。これは、データノイズへの対応、仮定の修正、結果が意思決定に準備できているかどうかの判定といった高次な能力をテストすることで、現在の評価の限界に対処します。

lab OpenAI News · 2日前

コアドンプの疫学：18年前のバグを修正する

OpenAIのエンジニアは、Rocksetデータインフラストラクチャで説明のつかないC++クラッシュが発生した原因として、Azureホストでの静かなハードウェア破損とGNU libunwind内の18年前から存在する競合条件という2つの異なる要因を特定しました。

lab OpenAI News · 2日前

ChatGPTの採用がどのように拡大したか

OpenAI Signalsのデータによると、ChatGPTの採用は世界中で広がり、深まりつつあり、ユーザーは毎日50%多いメッセージを送信し、サインアップから6ヶ月後に試す固有のタスクの数が2倍になっている。

github llama.cpp · 2日前

llama.cpp b9849 リリース: IPv6 URL 処理と新しいバイナリ

llama.cpp b9849 リリースでは、URL のホスト部における角括弧で囲まれた IPv6 リテラルのサポートが導入され、RFC 3986 に準拠して [host]:port 形式をサーバーが解析できるようになりました。この更新により、リッスンログ、プロキシヘッダー、クライアントの再構築の書式が適切に保たれつつ、リクエストごとの追跡のために bare remote_addr が維持されます。

lab Google DeepMind Blog · 2日前

Nano Banana 2 Lite と Gemini Omni Flash で構築を開始

Googleは、インテリジェントなアプリケーションの構築における開発者の能力を強化するために設計された2つの新しいAIモデル、Nano Banana 2 LiteとGemini Omni Flashをリリースしました。

lab Hugging Face Blog · 2日前

なぜ専門化は避けられないのか

記事は、機械学習における専門化がモデルの複雑さの増加とドメイン固有の専門知識の必要性によって駆動される避けられないトレンドであると主張しています。

github llama.cpp · 2日前

llama.cpp b9848 リリースで CUDA の get_rows_back が修正され、バイナリが提供される

llama.cpp プロジェクトはバージョン b9848 をリリースしました。このバージョンには、65535 行を超えるテーブルにおける `get_rows_back` 関数の問題を解決するための CUDA バックエンドの重要な修正が含まれています。このアップデートは、以前に大規模なテーブル操作に影響を与えていた grid-y クランプおよびストライドのエラーを修正します。

lab Hugging Face Blog · 2日前

Hugging Face モデルページに Every Eval の全評価結果を表示

Hugging Face はモデルページを更新し、「Every Eval」イニシアチブからの評価結果を表示し、さまざまなベンチマークにわたるモデルパフォーマンスの包括的なビューを提供します。この統合により、ユーザーはモデルハブインターフェース内で直接広範な標準化されたメトリクスにアクセスできます。

MacBook M5 ProでのローカルLLM - この分野の完全な初心者！

ICML 2026におけるTogether AI: フルスタックにわたるフロンティア研究

ScarfBench: エンタープライズJavaフレームワーク移行におけるAIエージェントのベンチマーク

crewAI 1.15.2a1 リリースノート

llama.cpp b9851 リリースでCUDAの整数切り捨てが修正され、バイナリが提供される

llama.cpp b9850 リリース: Qwen3 の修正と新しいバイナリ

MCP Python SDK v2.0.0b1、完全な2026年仕様サポート付きでリリース

SkillOpt: エージェントのスキルをトレーニング可能なパラメータとして扱う

科学者向けのAIワークベンチ「Claude Science」が利用可能に

Claude Sonnet 5 の発表

Claude Code v2.1.197がClaude Sonnet 5を導入

GeneBench-Proの内部：複雑なゲノム推論の10事例研究

GeneBench-Proの紹介

コアドンプの疫学：18年前のバグを修正する

ChatGPTの採用がどのように拡大したか

llama.cpp b9849 リリース: IPv6 URL 処理と新しいバイナリ

Nano Banana 2 Lite と Gemini Omni Flash で構築を開始

なぜ専門化は避けられないのか

llama.cpp b9848 リリースで CUDA の get_rows_back が修正され、バイナリが提供される

Hugging Face モデルページに Every Eval の全評価結果を表示