Todos los artículos
media r/LocalLLaMA · hace 14 d

Keye-VL-2.0-30B-A3B se lanza con capacidades avanzadas de comprensión de video y agente

Keye-VL-2.0-30B-A3B es un modelo multimodal de 30B de parámetros diseñado para la comprensión de videos largos y funcionalidad de agente. Supera a los rivales de código abierto y iguala a Gemini-3-Flash en anclaje temporal, admite hasta 256K de contexto con razonamiento casi sin pérdida, e incluye capacidades integradas para flujos de trabajo de agentes de código, herramientas y búsqueda web.

github AutoGPT · hace 14 d

autogpt-platform-beta-v0.6.64 lanzado

La versión autogpt-platform-beta-v0.6.64, fechada el 18 de junio de 2026, introduce nuevas características como el Panel de Contexto de AutoPilot y Búsqueda Global, junto con mejoras en el guardado de gráficos, caché y rendimiento del constructor. También incluye endurecimiento de seguridad, corrección de errores relacionados con proveedores de LLM y mejoras en la interfaz de usuario, como un icono táctil de alta resolución.

media r/LocalLLaMA · hace 14 d

Reseña de GLM-5.2 y respuesta a la censura

GLM-5.2 demuestra una coherencia excepcional en contextos largos y fluidez conversacional, superando a Gemini-3.1-Pro en tareas solo de texto e igualando a GPT-5.5 en calidad de razonamiento. El modelo responde de manera factual a temas sensibles como Taiwán y la Plaza de Tiananmén, proporcionando contexto histórico detallado sin censura explícita, aunque se adhiere a las directrices de contenido del gobierno chino.

media Latent Space · hace 14 d

Midjourney lanza un escáner de ultrasonido y TC de cuerpo completo

Midjourney ha anunciado un escáner de ultrasonido y TC de cuerpo completo, calificándolo como la primera nueva modalidad de imagen médica de cuerpo entero en 50 años. El prototipo, conocido como Midjourney Scanner, utiliza 8.960 transductores distribuidos en 40 sistemas dentro de un anillo de 70 cm para capturar datos a 17 GB/s, con una resolución declarada de hasta 0,5 mm y un objetivo de 358.000 elementos ultrasónicos. El sistema se encuentra actualmente en la Gen 1, con escaneos que toman 20 minutos y sin uso de IA en la generación de imágenes aún, aunque las futuras versiones buscan integrar IA y alcanzar 50.000 escáneres al permitir 1.000 millones de escaneos mensuales.

arxiv arXiv cs.LG · hace 14 d

El RL guiado por discriminador corrige el emparejamiento de flujos con recompensas alineadas a los datos

El RL guiado por discriminador (DRL) utiliza un espacio de representaciones preentrenado para entrenar un discriminador que separa los datos reales de las muestras generadas por el modelo. Su logit se usa como recompensa en el RL con regularización KL, alineando las salidas del modelo con la realismo visual y semántico sin preferencias humanas. DRL mejora FID y FD semántico en modelos como SiT y JiT, y mejora la frontera de Pareto entre preferencia y fidelidad.

arxiv arXiv cs.LG · hace 14 d

Preentrenamiento de Reflexión de Seguridad para LLMs

El Preentrenamiento de Reflexión de Seguridad inserta breves reflexiones de seguridad en los datos de preentrenamiento para habilitar la auto-monitoreo en modelos de lenguaje. Los experimentos con modelos de 1.7B en FineWeb-Edu muestran una mayor precisión de seguridad y tasas reducidas de éxito de ataque, con MedSafetyWorld demostrando que el método previene mejor que la filtración o reescritura de datos que los comportamientos inseguros se generalicen a partir de datos seguros.

arxiv arXiv cs.LG · hace 14 d

Compensaciones del tamaño de lote en métodos de momento estocástico

Los métodos de momento estocástico como HB y ASGD muestran compensaciones distintas del tamaño de lote en eficiencia computacional y tiempo de ejecución secuencial. HB mantiene la eficiencia computacional a nivel de SGD en una ventana de tamaño de lote hasta un factor \sqrt{\kappa} mayor que el tamaño crítico de lote de SGD, mientras que ASGD mejora la eficiencia para lotes pequeños en espectras que decaen rápidamente pero la sacrifica para lotes más grandes a cambio de reducir el tiempo de ejecución secuencial.

arxiv arXiv cs.LG · hace 14 d

AGDN: Resolviendo el problema del viajante con difusión de grafos anisotrópica

AGDN introduce un marco de red neuronal de grafos que aborda los priores topológicos y la pérdida de conectividad en TSP. Utiliza una matriz de transición MixScore y difusión anisotrópica para permitir un intercambio eficiente de información, superando a los métodos existentes en diversos tamaños de problema y distribuciones mientras mantiene un tiempo de cómputo competitivo. La implementación está disponible en GitHub.

arxiv arXiv cs.LG · hace 14 d

AUC entre conjuntos de datos para la evaluación realista de detectores de deepfake

Una nueva métrica, AUC entre conjuntos de datos (Cross-AUC), aborda las limitaciones de las evaluaciones tradicionales de AUC al promediar los AUC por dominio e incorporar la polarización de las predicciones mediante la Distancia de Wasserstein. Refleja mejor el rendimiento en el mundo real bajo cambios de dominio y proporciona interpretaciones claras sobre la degradación del detector.