¿Cómo están ejecutando los usuarios no Mac a DeepSeekV4 de forma local?
Los usuarios no Mac están preguntando cómo ejecutar los modelos flash o pro de DeepSeekV4 de forma local, indagando sobre las plataformas compatibles como CPU, CUDA o ROCm.
Los usuarios no Mac están preguntando cómo ejecutar los modelos flash o pro de DeepSeekV4 de forma local, indagando sobre las plataformas compatibles como CPU, CUDA o ROCm.
Un usuario compartió un prompt de jailbreak para Diffusion Gemma, que permite al modelo generar contenido explícito, incluyendo desnudos, pornografía y actos sexuales. El prompt del sistema anula las políticas de seguridad estándar, indicando que cualquier combinación de estos actos está permitida, y el modelo debe cumplir con todas las solicitudes del usuario.
Claude Fable 5 fue prohibido bajo las restricciones de exportación después de que investigadores demostraran que podía 'arreglar' código con vulnerabilidades conocidas. El modelo generó correctamente parches y scripts de prueba para fallos de seguridad, una capacidad esencial para la ciberseguridad defensiva. Los investigadores argumentan que esta es una función de seguridad legítima, no una amenaza, y que prohibir tales modelos socava la ciberdefensa en el mundo real.
Los usuarios han preguntado si ejecutar varias máquinas en paralelo proporciona ventajas para el manejo de contextos más grandes o una inferencia más rápida en modelos de lenguaje grande (LLM) locales. Si bien las máquinas individuales pueden manejar contextos más grandes con suficiente RAM, no existe un avance establecido que permita ganancias significativas de rendimiento al distribuir la inferencia entre múltiples máquinas para LLM locales.
La liberación llama.cpp b9804 introduce una corrección para la arquitectura Mamba2 al eliminar un factor de expansión codificado en 2x y una comprobación de parámetros no válida, permitiendo el soporte para cualquier valor de expand. Este cambio actualiza el script `convert_hf_to_gguf.py` para hacer que el parámetro expand sea opcional con un valor predeterminado de 2.
Los usuarios reportan resultados inconsistentes al utilizar modelos cuantizados en la generación de imágenes, con SD 1.5 funcionando bien pero SDXL fallando. A pesar de una conversión y cuantización exitosas utilizando herramientas como convert.py y llama-quantize, algunos usuarios obtienen salidas de mala calidad mientras que otros no, lo que plantea preguntas sobre el estado actual y la fiabilidad de la tecnología de generación de imágenes cuantizada.
El modelo Nex2 mini Phase Twin, con 30 mil millones de parámetros y una huella de 16 GB, ya está disponible para usuarios de Intel, en particular la gama A770. Alcanza un rendimiento de 89 tokens por segundo en una sola tarjeta A770 y está optimizado para utilizar el kernel adecuado según el hardware, con un rendimiento mejorado cuando se combina con dos tarjetas.
El DGX Spark está siendo criticado injustamente a pesar de su sólida escalabilidad y su rendimiento de IA local utilizable. Su tecnología ConnectX permite una expansión sin pérdidas, y con un consumo de 240W, posibilita ejecutar agentic DS4Flash localmente por alrededor de $9k con 256GB de memoria CUDA.
Katie Moussouris, experta en ciberseguridad, informó que Anthropic compartió con ella el informe de jailbreak Fable para su evaluación. Señaló que Fable se negó a analizar código inseguro, pero accedió cuando se le pidió corregirlo, describiendo esto como el modelo funcionando según lo previsto en la defensa cibernética.
El proyecto Informath demuestra la informalización simbólica para convertir pruebas matemáticas formales en lenguaje natural fluido y preciso. Utiliza Dedukti como un punto central que conecta sistemas de demostración como Agda, Lean y Rocq, con Grammatical Framework garantizando la corrección lingüística en múltiples idiomas.
Un diagnóstico sin entrenamiento, CKA de diferencia contrastiva (CKA_Delta), identifica alineación estructural específica de conceptos a través de arquitecturas de modelos de lenguaje. Detecta convergencia geométrica y transferencia funcional en seis dominios conceptuales, incluyendo tareas no instruccionales, con discriminación significativa donde el CKA estándar falla. Los resultados sugieren que la universalidad puede fortalecerse con la escala del modelo, aunque se necesita más validación.
LOGOS es un modelo de lenguaje generativo unificado que representa objetos científicos y sus interacciones como secuencias de tokens en una gramática compartida. Logra un rendimiento consistente o superior en diversas tareas de ciencias naturales, demostrando la viabilidad de un único modelo que sirva a múltiples dominios. El modelo escala positivamente con el número de parámetros, y su diseño sugiere que la IA para la ciencia debería alinearse profundamente con los grandes modelos de lenguaje a través de arquitecturas compartidas y entrenamiento.
LESS introduce un muestreador adaptivo sin entrenamiento y agnóstico al modelo que reduce los pasos de desvanecimiento inverso en un 72,1 % en comparación con la decodificación de presupuesto fijo. Logra una mayor precisión que los muestreadores existentes sin entrenamiento y reduce el cómputo y la latencia de inferencia mediante reglas de estabilidad mutua que garantizan el compromiso del token solo cuando las predicciones son confiables, consistentes y estables.
IMPACTeen es un conjunto de datos de 1,021 textos anotados desde cinco perspectivas: adolescentes, padres, psicólogos, expertos en comunicación y profesores. Incluye 5,100 registros de anotaciones que cubren técnicas de influencia social, intenciones, consecuencias y resistencia, con anotaciones validadas mediante edición humana. El conjunto de datos, creado mediante generación de LLM y validación humana, está disponible tanto en polaco como en inglés y apoya la investigación sobre influencia social y entrenamiento de modelos de lenguaje.
Un estudio identifica propiedades extrínsecas (tokens cruciales) e intrínsecas (comportamientos cognitivos) que mejoran el razonamiento del intérprete de código en modelos de lenguaje grandes. Los modelos de razonamiento más fuertes muestran una mayor prevalencia de verificación, retroceso y encadenamiento hacia atrás, con estas propiedades mejorando el rendimiento durante la inferencia y el entrenamiento, reduciendo el sobre-pensamiento y aumentando la eficiencia de los tokens.
Un estudio de medición encuentra que 26 operadores semánticos post-hoc no mejoran la precisión en datos no vistos frente a Best-of-N en modelos pequeños de código congelados. Aunque dos operadores —la recuperación por capa de expresión y la parada temprana de consenso adaptativo— ofrecen beneficios en eficiencia computacional o recuperación de programas, ninguno supera a BoN en precisión. Los resultados destacan limitaciones sistémicas en la detección de errores y la cobertura, lo que sugiere que los arneses de modelos y la cobertura de errores deben mejorarse antes de considerar el razonamiento post-hoc.
TokenPilot reduce los costos de inferencia entre un 61% y un 87% tanto en modos aislados como continuos, superando a sistemas anteriores en eficiencia de costos mientras mantiene un rendimiento competitivo. Utiliza compacción consciente de la ingestión y evicción consciente del ciclo de vida para preservar la continuidad de la caché de prompts y minimizar las huellas de tokens.
DeepRubric introduce un marco de construcción de datos que genera pares consulta-rúbrica definiendo primero objetivos de evaluación verificables mediante un árbol de evidencia. Genera 9K ejemplos de supervisión y entrena un modelo de 8B con GRPO, logrando un rendimiento comparable al de los modelos más avanzados utilizando 13 veces menos horas de GPU para RL.
KVEraser permite un borrado localizado eficiente del contexto en modelos de lenguaje grandes al reemplazar únicamente los estados del caché KV de un segmento borrado con estados de dirección aprendidos. Logra un rendimiento cercano al de la recomputación completa en tareas dentro del dominio para longitudes de contexto de 1K a 32K, con solo un aumento de latencia del 24%, y supera a otros métodos aproximados en QA de documentos largos con una aceleración de 3--4x sobre la recomputación completa.
MetaSyn presenta un conjunto de datos de 442 metaanálisis curados por expertos de Nature Portfolio. Evalúa doce configuraciones de agentes LLM y revela un cuello de botella crítico en la selección de estudios, donde ningún sistema recupera más del 52,7% de la literatura incluida de referencia a pesar de una alta tasa de recuperación.