2.000 personas intentaron hackear mi asistente de IA
Fernando Irarrázaval llevó a cabo un desafío en hackmyclaw.com para probar si 6.000 intentos podían filtrar secretos de su instancia de OpenClaw utilizando el modelo Opus 4.6.
Fernando Irarrázaval llevó a cabo un desafío en hackmyclaw.com para probar si 6.000 intentos podían filtrar secretos de su instancia de OpenClaw utilizando el modelo Opus 4.6.
Andrew Nesbitt publicó un informe de incidente especulativo que detalla un escenario en el que dos agentes de revisión de IA de proveedores competidores entran en un bucle de desacuerdo sobre la seguridad del paquete 'foxhole-lz4'.
Un desarrollador ha creado un modelo de voz a texto médico en streaming que opera completamente en el dispositivo, demostrado a través de MLX en un MacBook. El proyecto está actualmente undergoing further evaluations, con pesos abiertos planeados para su lanzamiento la próxima semana.
Esta reseña evalúa el libro de Guglielmo Iozzia "Modelos de Lenguaje Pequeños Específicos del Dominio", que aboga por un cambio de paradigma desde los modelos de lenguaje grandes generalistas hacia modelos de lenguaje pequeños (SLM) especializados y ajustados finamente. El revisor argumenta que los SLM ofrecen un control, visibilidad y eficiencia de costos superiores para tareas específicas en comparación con el hype alrededor de la inteligencia artificial general.
El artículo detalla un enfoque de ingeniería para construir un asistente de IA local que convierte capturas de pantalla y transcripciones de reuniones en datos consultables utilizando únicamente modelos que se ejecutan eficientemente en portátiles. El sistema aprovecha el marco Vision de Apple para OCR, la distillación durante tiempos inactivos de un modelo Gemma de 4B y la recuperación híbrida para evitar cuellos de botella de rendimiento.
OpenAI ha iniciado una vista previa limitada de la serie de modelos GPT-5.6, presentando tres variantes distintas: Sol como modelo insignia, Terra para trabajo diario equilibrado y Luna para tareas rápidas y asequibles. La empresa planea hacer estos modelos disponibles al público en las próximas semanas tras esta fase inicial con socios de confianza.
Un usuario de Reddit ha adquirido ocho tarjetas de centro de datos Tesla T4 de servidores VDI retirados y está buscando recomendaciones sobre cómo utilizar las unidades restantes. Una tarjeta es actualmente funcional en un chasis DEG1, pero el resto requiere un caso de uso o una estrategia de configuración.
Un usuario en r/LocalLLaMA está considerando actualizar su configuración de hardware de dos GPUs RTX 3090 a cuatro tarjetas RTX 5070 Ti, evaluando específicamente las implicaciones de rendimiento para inferencia de un solo flujo.
Los autores han publicado un entorno para la evaluación de Modelos Visión-Lenguaje (VLMs) que permite a los usuarios probar modelos en sus propios datos de video con total reproducibilidad mediante ejecuciones trazadas. Esta herramienta vincula cada resultado a su entrada y configuración específicas, permitiendo una evaluación precisa de la precisión, latencia y costo.
Una publicación en la comunidad r/LocalLLaMA pide a los usuarios que compartan flujos de trabajo de IA local que hayan mejorado significativamente su productividad o utilidad. El autor invita específicamente a sugerencias sobre RAG, MCP, agentes de codificación, organización de prompts, indexación de documentos y automatización.
Un usuario de Reddit busca recomendaciones de hardware para ejecutar múltiples modelos pequeños y medianos localmente para tareas de análisis, extracción y razonamiento de datos. El usuario tiene la intención de usar la configuración para la construcción de modelos, pruebas, creación de LoRA y destilación, mientras reserva modelos grandes en la nube como Opus para tareas complejas.
Un usuario reporta frustración con la configuración de resolución de imagen predeterminada de Gemma 4, señalando que el modelo tiene dificultades para descifrar texto más pequeño y elementos composicionales más grandes en comparación con competidores como Qwen 3.6.
Un usuario en Reddit está pidiendo opiniones sobre un plan para vender su Zotac Solid RTX 5090 con 128GB de RAM y reemplazarlo con cinco tarjetas RTX 5060 Ti de 16GB.
El contenido fuente proporcionado consiste únicamente en un título de publicación de Reddit y metadatos sin ningún texto de artículo ni información sustantiva acompañante.
Un usuario de Reddit en la comunidad r/LocalLLaMA está considerando actualizar su hardware para mejorar la velocidad y capacidad de inferencia de los modelos Qwen, combinando una futura RTX 5080 con su actual RTX 4060. El usuario busca alcanzar al menos 20-40 tokens por segundo al ejecutar modelos Qwen 27B, utilizando los 24GB combinados de VRAM mediante división de tensores o capas en llama.cpp o vLLm. Está evaluando esta configuración asimétrica de doble GPU frente a otras opciones como la AMD R9700 AI Pro o 7900XTX, citando datos de benchmarks que sugieren ganancias de rendimiento limitadas para las tarjetas AMD en relación con su costo.
Un usuario ha publicado un explicador interactivo sobre el tema de la decodificación especulativa y la predicción de múltiples tokens (MTP). El recurso está disponible a través del enlace proporcionado en la publicación original.
Un usuario informa estar ejecutando Qwen3.6 27B MTP con llama.cpp en una estación de trabajo RTX PRO 6000 Blackwell para reducir la dependencia de Claude, señalando que el modelo es comparable a Sonnet pero sufre de problemas de estabilidad durante las sesiones de codificación.
Un usuario de Reddit está preguntando si otros han probado el modelo Ornith-1.0 9B. El usuario pregunta específicamente si debería considerar usarlo en lugar de las variantes Qwen2.5-9B.
Un usuario de Reddit argumenta que la divergencia de Kullback-Leibler (KL) es una métrica defectuosa para medir la diferencia entre un modelo abliterado y su versión base. El autor señala que KL puede representarse de muchas maneras, depende completamente de los prompts de evaluación y a menudo se manipula mediante KL del primer token para hacer que los modelos parezcan superiores.
Un usuario informa que usar el modo de división de tensor en llama.cpp provoca problemas de bucle con las llamadas a herramientas y los trazos de razonamiento al ejecutar los modelos Qwen 27B y Gemma 4 26B (MoE) entre una RTX 5080 y dos RTX 5060 Ti.