Todos los artículos — korshunov.ai

Todos los artículos Página 7 / 93

MakeupMirror mejora la preservación de atributos faciales en modelos de difusión

MakeupMirror, un modelo de transferencia de maquillaje basado en difusión, logra una mejora del +60% en la similitud de reconocimiento facial y una reducción del -50% en la diferencia de tono de piel en comparación con Stable-Makeup. Preserva las características faciales y el tono de piel con una aceptación experta del 94% en criterios de identidad, operando con una latencia de 0.7s a través de un muestreador de Langevin de Levenberg-Marquardt.

arxiv arXiv cs.LG · hace 2 h

Modelos del Mundo Sensorimotores para la Percepción Alineada a la Acción

Se presenta un modelo del mundo sensorimotor (SMWM) que aprende representaciones latentes compactas y alineadas con la acción a partir de trayectorias offline. Utiliza regularización de dinámica inversa para evitar el colapso de la representación y permitir modelos del mundo estables e interpretables sin requerir codificadores congelados ni regularizadores complejos. SMWM logra un rendimiento competitivo en planificación en tareas de control 2D y 3D.

arxiv arXiv cs.LG · hace 2 h

Cuantil de Medias: Método de Conjunto para RL Óptimo en el Sentido Minimax

Un nuevo método de conjunto para MDPs de horizonte finito utiliza estimaciones basadas en cuantiles para alcanzar límites de arrepentimiento óptimos en el sentido minimax. Elimina la dependencia de la incertidumbre basada en conteos y proporciona justificación teórica para la exploración basada en conjuntos en el aprendizaje por refuerzo.

arxiv arXiv cs.LG · hace 2 h

EFIQA: Evaluación de la calidad de imágenes del fondo de ojo sin etiquetas con explicabilidad

EFIQA propone un marco de trabajo sin etiquetas para la evaluación de la calidad de imágenes del fondo de ojo que utiliza priores anatómicos para generar mapas de calidad espaciales. Primero entrena un detector de anomalías no supervisado mediante inpainting anatómico enmascarado para identificar vasos sanguíneos faltantes, luego destila este conocimiento en un adaptador poco profundo para el mapeo de calidad. La evaluación en conjuntos de datos externos muestra que EFIQA supera a los métodos supervisados tanto en rendimiento como en explicabilidad a través de diversos criterios de calidad.

arxiv arXiv cs.LG · hace 2 h

Control de riesgo conforme federado mediante reducción de la curva de riesgo

Un nuevo método de control de riesgo conforme federado aborda las fallas de cobertura en predicciones a nivel hospitalario. En datos reales de tumores cerebrales de 20 instituciones, la calificación agrupada falla en el 40% de los sitios, con uno que excede los objetivos de falsos negativos por 7.8 puntos porcentuales. El protocolo propuesto basado en reducción utiliza curvas de riesgo empíricas y un hiperparámetro n0=19 para lograr 2.7/20 violaciones de cobertura con una expansión del conjunto de predicción de 2.0x, mientras preserva las garantías marginales y asegura que ningún dato a nivel de paciente salga de ningún sitio.

arxiv arXiv cs.LG · hace 2 h

Pose6DAug: Intercambio de objetos multi-vista físicamente plausible

Pose6DAug permite la augmentación de datos robóticos intercambiando objetos en episodios exitosos mientras se preservan trayectorias de poses 6D físicamente válidas. Opera en 3D utilizando una malla anclada por poses temporalmente coherentes, asegurando consistencia multi-vista y plausibilidad física. El ajuste fino de una política VLA con estos datos aumentados mejora las tasas de éxito para objetos nuevos en un 16.5% respecto a las líneas base más avanzadas.

media r/LocalLLaMA · hace 2 h

¿Vender DDR5 por VRAM?

Un usuario de Reddit pregunta si debería vender la mitad de su RAM ECC DDR5 6400 de 768GB para comprar GPUs RTX 6000 Pro, citando los precios actuales de RAM.

media r/LocalLLaMA · hace 2 h

Buscando consejos sobre gabinetes para estación de trabajo LLM con dos RTX 3090

Un usuario está construyendo una estación de trabajo local de LLM utilizando una placa madre ASUS Crosshair VIII Hero y dos GPUs RTX 3090 con límite de potencia, buscando recomendaciones de gabinetes de computadora compatibles.

media r/LocalLLaMA · hace 2 h

Qwen3.6 27B local vs Opus 4.8, motor de voxel en C puro sin frameworks

Un experimento comparativo enfrentó a Claude Code con Opus 4.8 contra un modelo Qwen3.6 27B ejecutándose localmente para construir un motor de mundo de voxel en C plano sin ningún framework o librería externa.

media r/LocalLLaMA · hace 2 h

Usuarios cuestionan la existencia de clasificaciones cerradas frente a abiertas de LLM y el valor de los modelos de 70B-350B

Un usuario de Reddit pregunta si existe un ranking sólido que compare modelos de lenguaje grandes de código cerrado y pesos abiertos lado a lado. Señalan que la mayoría de las evaluaciones disponibles parecen fragmentadas y no abordan las diferencias prácticas entre ejecutar modelos localmente versus utilizar servicios basados en API.

arxiv arXiv cs.LG · hace 3 h

Los núcleos de GPU generados por LLM enfrentan la ilusión de la corrección

Las pruebas de referencia que utilizan comprobaciones de forma fija pasan por alto errores reales en los núcleos de GPU generados por LLM. Un corpus controlado de 24 núcleos, que incluye 9 variantes con errores de transcripción, revela que un oráculo consciente del esquema de operaciones detecta todos los fallos y pasa todos los controles correctos, con resultados idénticos en cinco arquitecturas de GPU.

arxiv arXiv cs.LG · hace 3 h

PASQA: Modelo de Calidad de Voz Enfocado en el Acento Tónico

PASQA es un modelo de evaluación de calidad de voz diseñado para evaluar la corrección del acento tónico en el habla japonesa sintética. Utiliza un conjunto de datos con errores de acento controlados y logra alta precisión al clasificar la gravedad de los errores de acento, superando a los modelos convencionales y alineándose mejor con los juicios humanos.

arxiv arXiv cs.LG · hace 3 h

La tutoría de LLM adaptativa mejora la participación y la eficiencia

Un nuevo sistema utiliza indicaciones conscientes del tema para adaptar las estrategias de tutoría según el rendimiento y la disciplina del estudiante. Las pruebas A/B con 656 conversaciones estudiantiles muestran que el modelo reduce las interacciones en 3 turnos y aumenta la conversión de estrategias de aprendizaje del 19,1% al 28,1% con un enrutador estocástico.

arxiv arXiv cs.LG · hace 3 h

MedRLM: Marco de Inteligencia Multimodal Recursiva para la Salud

Los MedRLs permiten el razonamiento clínico de contexto largo mediante la inspección recursiva de datos del paciente a través de texto, imágenes, sensores y directrices. Integra agentes especializados y una Memoria de Grafo de Evidencia Clínica para conectar observaciones con evidencia y criterios de referencia, apoyando el razonamiento activado por sensores y la revisión clínica con puerta de incertidumbre.

arxiv arXiv cs.LG · hace 3 h

MELT y SALT: Aprendizaje contrastivo multimodal para incrustaciones geográficas

MELT y SALT son modelos de aprendizaje contrastivo multimodal que utilizan datos geoespaciales no emparejados para mejorar las incrustaciones de ubicación. Ambos logran un rendimiento igual al mejor modelo base de dos modalidades en cuatro tareas, pero añadir más modalidades no mejora consistentemente los resultados, lo que indica que el diseño del codificador de ubicación es la principal limitación del rendimiento. MELT ofrece un entrenamiento más estable y es más adecuado para la escalabilidad futura de modelos.

arxiv arXiv cs.LG · hace 3 h

El aprendizaje automático predice la edad gestacional a partir de la resonancia magnética fetal

Una tubería de aprendizaje automático que utiliza datos multimodales de resonancia magnética fetal predice la edad gestacional al nacer con un R2 de 0.13 y un error absoluto medio de 2.74 semanas. Logra una precisión de 0.77, una sensibilidad de 0.59 y una especificidad de 0.82, con la longitud cervical y las estadísticas T2* placentarias como características clave. Este trabajo presenta una prueba de concepto para predecir el parto prematuro utilizando resonancia magnética y aprendizaje automático.

media r/LocalLLaMA · hace 3 h

Consulta de la comunidad sobre el uso de cuantización Q1/Q2 para modelos de lenguaje grandes

Un usuario de Reddit pregunta a la comunidad sobre sus experiencias utilizando niveles de cuantización Q1 o Q2 para modelos de lenguaje grandes que van de 100 a 250 mil millones de parámetros. La publicación enumera modelos específicos en este rango de tamaño, como DeepSeek-V4-Flash y Qwen3-235B-A22B, y los contrasta con modelos más pequeños donde la cuantización baja generalmente se desaconseja.

github llama.cpp · hace 3 h

la versión b9830 de llama.cpp añade la bandera --offline y corrige un error de memoria

La versión b9830 de llama.cpp introduce la capacidad de usar la bandera --offline con el comando llama download, permitiendo que los scripts verifiquen los modelos en caché sin acceso a la red. Esta actualización también resuelve una vulnerabilidad latente de uso después de liberar (use-after-free) en el callback on_done de la tarea URL, donde first_path se capturaba incorrectamente por referencia.

arxiv arXiv cs.LG · hace 3 h

Métodos computacionales para ADN libre de células en la detección temprana de múltiples cánceres

Esta revisión describe los métodos computacionales de 2022 a 2025 para detectar múltiples cánceres a partir de ADN libre de células basado en sangre. Evalúa la fragmentómica y el análisis epigenético, abarcando enfoques estadísticos, de aprendizaje automático y de aprendizaje profundo, con un enfoque en la interpretabilidad biológica, la validación y la preparación clínica. Los métodos de conjunto multimodal muestran la mayor promesa para el uso clínico, pero se necesitan protocolos de evaluación estandarizados para una comparación confiable y el progreso futuro.

arxiv arXiv cs.LG · hace 3 h

La dimensión efectiva gobierna la generalización en modelos de visión cuántica

Los modelos de visión cuántica exhiben una mejor generalización con mayor entrelazamiento o ruido cuántico, fenómenos unificados por la dimensión efectiva del kernel de características cuánticas moldeado por el ruido. Esta dimensión actúa como un mecanismo de regularización en regímenes de sobreajuste, con el amortiguamiento de amplitud mejorando la precisión de prueba hasta un 13% a lo largo de una curva invertida en forma de U.