Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 90

Midjourney lanza un escáner de ultrasonido y TC de cuerpo completo

Midjourney ha anunciado un escáner de ultrasonido y TC de cuerpo completo, calificándolo como la primera nueva modalidad de imagen médica de cuerpo entero en 50 años. El prototipo, conocido como Midjourney Scanner, utiliza 8.960 transductores distribuidos en 40 sistemas dentro de un anillo de 70 cm para capturar datos a 17 GB/s, con una resolución declarada de hasta 0,5 mm y un objetivo de 358.000 elementos ultrasónicos. El sistema se encuentra actualmente en la Gen 1, con escaneos que toman 20 minutos y sin uso de IA en la generación de imágenes aún, aunque las futuras versiones buscan integrar IA y alcanzar 50.000 escáneres al permitir 1.000 millones de escaneos mensuales.

arxiv arXiv cs.LG · hace 2 h

El RL guiado por discriminador corrige el emparejamiento de flujos con recompensas alineadas a los datos

El RL guiado por discriminador (DRL) utiliza un espacio de representaciones preentrenado para entrenar un discriminador que separa los datos reales de las muestras generadas por el modelo. Su logit se usa como recompensa en el RL con regularización KL, alineando las salidas del modelo con la realismo visual y semántico sin preferencias humanas. DRL mejora FID y FD semántico en modelos como SiT y JiT, y mejora la frontera de Pareto entre preferencia y fidelidad.

arxiv arXiv cs.LG · hace 2 h

Fusión Esencial de Subespacios para Aprendizaje Multitarea

La Fusión Esencial de Subespacios (ESM) reduce la interferencia entre tareas al centrarse en las direcciones principales de los cambios de activación. ESM++ extiende esto con selección dinámica de expertos mediante enrutamiento basado en prototipos, permitiendo una fusión eficiente de modelos multitarea sin entrenamiento.

arxiv arXiv cs.LG · hace 2 h

Preentrenamiento de Reflexión de Seguridad para LLMs

El Preentrenamiento de Reflexión de Seguridad inserta breves reflexiones de seguridad en los datos de preentrenamiento para habilitar la auto-monitoreo en modelos de lenguaje. Los experimentos con modelos de 1.7B en FineWeb-Edu muestran una mayor precisión de seguridad y tasas reducidas de éxito de ataque, con MedSafetyWorld demostrando que el método previene mejor que la filtración o reescritura de datos que los comportamientos inseguros se generalicen a partir de datos seguros.

arxiv arXiv cs.LG · hace 2 h

Act2Answer evalúa la retención de conocimiento en modelos de visión-lenguaje-acción

Act2Answer introduce un protocolo ligero para evaluar la retención de conocimiento del sentido común y del mundo en modelos VLA, requiriendo que los agentes respondan preguntas mediante acciones de colocación de objetos. Un estudio a gran escala de 7 modelos VLA y 9 líneas base VLM revela que los VLA funcionan bien en conceptos simples pero muestran brechas mayores en categorías semánticas ricas en comparación con sus VLMs fuente, con el co-entrenamiento VQA mejorando la retención de conocimiento y señales pico relevantes para la respuesta observadas en las capas intermedias de VLA.

Midjourney lanza un escáner de ultrasonido y TC de cuerpo completo

El RL guiado por discriminador corrige el emparejamiento de flujos con recompensas alineadas a los datos

Fusión Esencial de Subespacios para Aprendizaje Multitarea

Preentrenamiento de Reflexión de Seguridad para LLMs

Act2Answer evalúa la retención de conocimiento en modelos de visión-lenguaje-acción

Compensaciones del tamaño de lote en métodos de momento estocástico

AUC entre conjuntos de datos para la evaluación realista de detectores de deepfake

AGDN: Resolviendo el problema del viajante con difusión de grafos anisotrópica

Marco de Anotación Automatizada para Disparadores AEB Retardados y Falsos

RL enfocado en decisiones para carga de vehículos eléctricos con tiempos de salida desconocidos

Geometría de Autovalores Generalizados de Ataques Adversarios Semánticos

XGBoost-Forget para el desprendimiento de aprendizaje en la detección de intrusiones de red

MAST permite el olvido selectivo en el razonamiento inducido por RLVR

Optimización bayesiana con humano en el bucle para restricciones de bioprocesos

STARE: Reponderación de ventajas a nivel de token guiada por sorpresal para la estabilidad de la entropía de la política

TxBench-PP: Rendimiento de Agentes de IA en Farmacología Preclínica

TGO-I: Geometría espectral de los Vision Transformers

Las redes neuronales gráficas aceleran el solucionador de presión multigrid algebraico

OneCanvas: Comprensión de escenas 3D mediante reproyección panorámica

SCAN: Agrupamiento Multiescala para Detección de Anomalías en Series Temporales