Todos los artículos — korshunov.ai

Todos los artículos Página 129 / 129

HalBench evalúa 29 modelos de código abierto en sicolofía y alucinación

HalBench evalúa 29 LLMs de código abierto en un benchmark personalizado para sicolofía y alucinación. Qwen 3.6 y Gemma 4 superan a modelos más grandes, con Qwen 3.6 logrando un 36.6% de resistencia—más alto que GPT-5.4 y Gemini 3.1 Pro. El tamaño del modelo no se correlaciona con respuestas honestas, lo que indica que la arquitectura y los datos de entrenamiento importan más que los parámetros.

blog Simon Willison · hace 15 d

El CAPTCHA de Cloudflare se activa solo para búsquedas con ampersand

Simon Willison configuró el CAPTCHA de Cloudflare para que se active únicamente en consultas de búsqueda que contengan al menos una ampersand. La regla utiliza un filtro personalizado: (http.request.uri.path wildcard r"/search/*" and http.request.uri.query contains "&"). Esto permite que búsquedas simples como /search/?q=lemur pasen sin CAPTCHA.

media r/LocalLLaMA · hace 15 d

Gemma3 270M Model Released on Reddit

Un usuario publicó una imagen del modelo Gemma3 270M en el subreddit r/LocalLLaMA. La publicación incluye un enlace a la imagen y a la sección de comentarios, lo que indica discusión comunitaria alrededor del modelo.

blog Simon Willison · hace 15 d

datasette-agent 0.3a0 se lanza con aprobación del usuario para operaciones de escritura en SQL

datasette-agent 0.3a0 introduce la herramienta execute_write_sql que solicita a los usuarios antes de escribir en las bases de datos, asegurando que se respeten las comprobaciones de permisos. La actualización también mejora el chat del agente datasette con soporte para aprobación del usuario, nuevas opciones de comando como --unsafe para autoaprobación y salidas de herramientas en texto plano para la visualización en CLI.