能力不在权重中:关于MLP权重投影的经验性负面结果
一项实证研究发现,将一个Transformer模型的MLP权重投影到另一个模型中无法转移语义能力。每个测试变体都表现得不如未修改的主机模型,这表明权重投影存在结构限制。这些结果挑战了基于基准测试对模型能力的公开声明,表明此类声明并不能反映实际的内部权重几何结构。
一项实证研究发现,将一个Transformer模型的MLP权重投影到另一个模型中无法转移语义能力。每个测试变体都表现得不如未修改的主机模型,这表明权重投影存在结构限制。这些结果挑战了基于基准测试对模型能力的公开声明,表明此类声明并不能反映实际的内部权重几何结构。
《发条黑暗》是一款本地优先、由AI驱动的叙事RPG引擎,它使用确定性状态机来解决所有游戏机制。它包含两个自主LLM来叙述故事,其中一个充当耐心的世界之声,另一个则作为不可靠的神级助手。玩家可以选择对抗不断蔓延的超自然腐败,或在面包店中拥抱宁静的生活,两条路径都被视为有效的结局。
一名用户报告,其在rocker/r2u上运行的R/Shiny Docker容器已成功构建,日志中显示“Listening on http://0.0.0.0:7860”,但空间仍处于“starting”状态且无法访问。尽管没有代码错误,问题仍然存在,该用户寻求更广泛的关注,并指出这可能是Hugging Face平台端的问题。
NOVA-VAD是一种轻量级且可解释的语音活动检测器,在UrbanSound8K数据集的嘈杂音频上达到93%的准确率,优于WebRTC(58%)、Pyannote(62%)和Silero(87%)。它仅使用scikit-learn,无需GPU,并提供纯英文的特征重要性和置信度分数。
在基础OLMo3 600M模型与带有DeepSeek风格Engram嫁接的版本之间进行了200步的训练对比,结果显示训练和评估损失更低,梯度范数稳定更快,早期学习行为得到改善。Engram嫁接注入到第1层和第5层,将可训练参数增加至约17亿,但每个token的活跃参数仅增加4万,表明内存使用高效。
LLM不仅仅是产生幻觉;它们通过将未经证据验证的弱假设转化为连贯、精致的论断,从而放大人类的认知过度自信。这在研究、政策及其他领域造成了过早确定性的风险,并非因为模型在撒谎,而是因为它们加速了人类偏好优雅解释而非不确定性的倾向。
Tenstorrent已发布Wormhole和Blackhole AI加速卡。硬件部分列出了这些卡,并讨论了哪些模型可能兼容。
一个 Hugging Face Space 在提交 8240352 上显示 '重启中' 已超过 16 小时,尽管多个更新的提交已成功构建。日志显示容器健康启动,但流量从未切换到新版本,且恢复操作如工厂重建或重启均无效。
llama.cpp 发布了版本 b9751,包含适用于 macOS、Linux、Android、Windows 和 openEuler 的更新二进制文件。该版本修复了内存使用问题,并支持多种架构以及 Vulkan、CUDA、OpenVINO 和 SYCL 等硬件加速选项。
llama.cpp 发布了版本 b9752,对服务器进行了重构,重点在于批处理构建,包括改进了对批处理满情况的处理以及错误修复。该版本包含适用于 macOS、Linux、Android、Windows 和 openEuler 的预编译二进制文件,支持多种架构以及 CUDA、Vulkan、OpenVINO 和 SYCL 等加速框架。
llama.cpp 版本 b9753 引入了改进的规范模型加载进度报告,包括新的“阶段”列表。该版本包含适用于 macOS、Linux、Android、Windows 和 openEuler 的二进制文件,支持多种架构和硬件加速选项,如 Vulkan、CUDA、OpenVINO 和 SYCL。
llama.cpp 版本 b9754 在 common/peg 模块中引入了 AC 解析器,以实现更严格的语法生成。该版本包含适用于 macOS、Linux、Android、Windows 和 openEuler 的预编译二进制文件,支持多种架构以及 Vulkan、CUDA、OpenVINO 和 SYCL 等加速技术。
Android 构建文档已更新,以包含对 libandroid-spawn 的依赖。此新增项旨在支持指定环境内的构建过程。
三星电子已向全球员工推出OpenAI的ChatGPT Enterprise和Codex。此次部署代表了OpenAI迄今为止最大的企业AI举措之一。
llama.cpp 版本 b9750 引入了 call 语句的实现,并回滚了一项非预期的更改。该版本提供了适用于 macOS、Linux、Android、Windows 和 openEuler 的预编译二进制文件,支持多种架构和硬件加速选项,包括 Vulkan、CUDA、OpenVINO 和 SYCL。
llama.cpp 发布了 b9748 版本,在架构中添加了“verbose”字段,并为 macOS、Linux、Android、Windows 和 openEuler 提供了二进制文件。该版本支持 CPU、Vulkan、OpenVINO、SYCL 和 ROCm,涵盖多种架构,并提供 iOS 以及 Windows CUDA 和 Vulkan 构建版本。
用户请求强制删除卡在“Building”状态的 Hugging Face Space "kayinda/rxsteward"。所有删除尝试均因 403 错误或 400 无效输入错误而失败,导致无法重新使用该名称。
一项新研究探讨了LoRA(最流行的微调技术)的替代方案,评估其他方法是否能在降低计算成本的同时取得更好的性能。研究发现,尽管某些方法显示出潜力,但没有任何一种方法在多样化的任务和数据集上始终优于LoRA。
已推出AI控制路线图,通过整合传统安全措施与实时监控能力来保障内部系统的安全。
GPT-5.5 Instant 通过更强的推理能力、更好的上下文处理、更清晰的沟通以及医生指导的评估,提升了 ChatGPT 在健康与保健方面的回复质量。