Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 92

PASQA: Modelo de Calidad de Voz Enfocado en el Acento Tónico

PASQA es un modelo de evaluación de calidad de voz diseñado para evaluar la corrección del acento tónico en el habla japonesa sintética. Utiliza un conjunto de datos con errores de acento controlados y logra alta precisión al clasificar la gravedad de los errores de acento, superando a los modelos convencionales y alineándose mejor con los juicios humanos.

arxiv arXiv cs.LG · hace 2 h

La tutoría de LLM adaptativa mejora la participación y la eficiencia

Un nuevo sistema utiliza indicaciones conscientes del tema para adaptar las estrategias de tutoría según el rendimiento y la disciplina del estudiante. Las pruebas A/B con 656 conversaciones estudiantiles muestran que el modelo reduce las interacciones en 3 turnos y aumenta la conversión de estrategias de aprendizaje del 19,1% al 28,1% con un enrutador estocástico.

arxiv arXiv cs.LG · hace 2 h

MedRLM: Marco de Inteligencia Multimodal Recursiva para la Salud

Los MedRLs permiten el razonamiento clínico de contexto largo mediante la inspección recursiva de datos del paciente a través de texto, imágenes, sensores y directrices. Integra agentes especializados y una Memoria de Grafo de Evidencia Clínica para conectar observaciones con evidencia y criterios de referencia, apoyando el razonamiento activado por sensores y la revisión clínica con puerta de incertidumbre.

arxiv arXiv cs.LG · hace 2 h

MELT y SALT: Aprendizaje contrastivo multimodal para incrustaciones geográficas

MELT y SALT son modelos de aprendizaje contrastivo multimodal que utilizan datos geoespaciales no emparejados para mejorar las incrustaciones de ubicación. Ambos logran un rendimiento igual al mejor modelo base de dos modalidades en cuatro tareas, pero añadir más modalidades no mejora consistentemente los resultados, lo que indica que el diseño del codificador de ubicación es la principal limitación del rendimiento. MELT ofrece un entrenamiento más estable y es más adecuado para la escalabilidad futura de modelos.

arxiv arXiv cs.LG · hace 2 h

El aprendizaje automático predice la edad gestacional a partir de la resonancia magnética fetal

Una tubería de aprendizaje automático que utiliza datos multimodales de resonancia magnética fetal predice la edad gestacional al nacer con un R2 de 0.13 y un error absoluto medio de 2.74 semanas. Logra una precisión de 0.77, una sensibilidad de 0.59 y una especificidad de 0.82, con la longitud cervical y las estadísticas T2* placentarias como características clave. Este trabajo presenta una prueba de concepto para predecir el parto prematuro utilizando resonancia magnética y aprendizaje automático.

media r/LocalLLaMA · hace 2 h

Consulta de la comunidad sobre el uso de cuantización Q1/Q2 para modelos de lenguaje grandes

Un usuario de Reddit pregunta a la comunidad sobre sus experiencias utilizando niveles de cuantización Q1 o Q2 para modelos de lenguaje grandes que van de 100 a 250 mil millones de parámetros. La publicación enumera modelos específicos en este rango de tamaño, como DeepSeek-V4-Flash y Qwen3-235B-A22B, y los contrasta con modelos más pequeños donde la cuantización baja generalmente se desaconseja.

github llama.cpp · hace 2 h

la versión b9830 de llama.cpp añade la bandera --offline y corrige un error de memoria

La versión b9830 de llama.cpp introduce la capacidad de usar la bandera --offline con el comando llama download, permitiendo que los scripts verifiquen los modelos en caché sin acceso a la red. Esta actualización también resuelve una vulnerabilidad latente de uso después de liberar (use-after-free) en el callback on_done de la tarea URL, donde first_path se capturaba incorrectamente por referencia.

arxiv arXiv cs.LG · hace 3 h

Métodos computacionales para ADN libre de células en la detección temprana de múltiples cánceres

Esta revisión describe los métodos computacionales de 2022 a 2025 para detectar múltiples cánceres a partir de ADN libre de células basado en sangre. Evalúa la fragmentómica y el análisis epigenético, abarcando enfoques estadísticos, de aprendizaje automático y de aprendizaje profundo, con un enfoque en la interpretabilidad biológica, la validación y la preparación clínica. Los métodos de conjunto multimodal muestran la mayor promesa para el uso clínico, pero se necesitan protocolos de evaluación estandarizados para una comparación confiable y el progreso futuro.

arxiv arXiv cs.LG · hace 3 h

La dimensión efectiva gobierna la generalización en modelos de visión cuántica

Los modelos de visión cuántica exhiben una mejor generalización con mayor entrelazamiento o ruido cuántico, fenómenos unificados por la dimensión efectiva del kernel de características cuánticas moldeado por el ruido. Esta dimensión actúa como un mecanismo de regularización en regímenes de sobreajuste, con el amortiguamiento de amplitud mejorando la precisión de prueba hasta un 13% a lo largo de una curva invertida en forma de U.

arxiv arXiv cs.LG · hace 3 h

Evaluación fuera de política para recompensas MNAR en MDPs

Proponemos un método de evaluación fuera de política para MDPs de horizonte finito con recompensas que faltan no al azar. Nuestro enfoque utiliza un modelo de propensión dependiente de la recompensa y una función puente para recuperar las recompensas medias condicionales sin modelar el mecanismo MNAR, logrando consistencia y cotas de error en muestras finitas. Los experimentos en datos simulados y de Sepsis MIMIC-III muestran un rendimiento superior frente a métodos existentes.

arxiv arXiv cs.LG · hace 3 h

Detección de deriva conceptual basada en el aprendiz: Análisis y evaluación

Este estudio analiza y evalúa algoritmos de detección de deriva conceptual a través de múltiples categorías utilizando conjuntos de datos de streaming sintéticos y del mundo real. Examina las características de la deriva y evalúa el rendimiento de los detectores bajo escenarios de deriva abrupta y gradual para mejorar la comprensión del comportamiento de la deriva y la aplicabilidad de los detectores.

arxiv arXiv cs.LG · hace 3 h

MAMO: Sistema Multiagente para Optimización Restringida con Múltiples Objetivos

MAMO introduce un enfoque de aprendizaje por refuerzo multiagente para abordar el desafío de equilibrar la minimización de costos y la satisfacción de restricciones en entornos dinámicos. Desacopla la ejecución de tareas de la selección de pesos de recompensa, tratando la elección de pesos como un problema de aprendizaje para permitir soluciones más autónomas y robustas.

arxiv arXiv cs.LG · hace 3 h

Moldeado de Incrustaciones de Frontera para el Desenredo Estructural de Grafos

El Moldeado de Incrustaciones de Frontera (BES) aborda el entrelazamiento estructural de grafos suprimiendo selectivamente las correlaciones espurias de vecinos cerca de las fronteras de clase. BES utiliza aprendizaje contrastivo adaptativo para mejorar la discriminación de fronteras, mejorando la clasificación de nodos GCN en un promedio del 3.3% (hasta un 5.0% en WikiCS) y logrando una precisión superior en la predicción de enlaces.

media Hugging Face Forums · hace 3 h

El usuario solicita la recuperación de la cuenta para zhoucantd

Un usuario en los foros de Hugging Face está preguntando si es posible recuperar su cuenta, identificando específicamente el nombre de usuario "zhoucantd". La publicación indica un hilo de discusión que involucra a dos participantes respecto a esta solicitud.

media Hugging Face Forums · hace 3 h

UCTF: Un formato universal de entrenamiento comprimido para IA multilingüe

Un nuevo concepto llamado UCTF (Universal Compressed Training Format) propone una capa mediadora para abordar la redundancia semántica en el entrenamiento de LLMs multilingües, comprimiendo diversos idiomas en un formato de token unificado e independiente del idioma.

media Hugging Face Forums · hace 3 h

Creación de un widget de chat web con Gradio Parte IV

Un usuario informa que su widget de chatbot de IA, anteriormente funcional en su sitio web, ha dejado de funcionar debido a un error de política CORS tras una actualización reciente de Gradio. El error indica que el encabezado 'Access-Control-Allow-Credentials' en la respuesta está vacío, lo cual entra en conflicto con el modo de credenciales de la solicitud del cliente.

media Hugging Face Forums · hace 3 h

El lenguaje como portador de inteligencia: Más allá de la predicción de tokens

Este artículo sostiene que los grandes modelos de lenguaje derivan su aparente inteligencia de las profundas relaciones geométricas y estados ocultos dentro del propio lenguaje, en lugar de provenir de un cálculo mecánico independiente o de una simple predicción de tokens.

arxiv arXiv cs.LG · hace 3 h

El marco VibrantForests mapea la estructura del bosque a una resolución de 10 metros

El marco VibrantForests utiliza datos de satélite entrenados con muestras de lidar para generar mapas anuales, continuos y de cobertura total del dosel, altura, biomasa, área basal y diámetro medio cuadrático a una resolución de 10 metros en los Estados Unidos contiguos. Mejora la precisión al reducir la sobreestimación en bosques dispersos y la subestimación en bosques densos, extendiendo el rango de predicciones confiables más allá de los modelos tradicionales de sensores pasivos.

arxiv arXiv cs.LG · hace 3 h

SLiR: Relajaciones lineales basadas en desplazamiento para funciones de activación

SLiR permite relajaciones lineales sólidas y ajustadas de funciones de activación generales utilizando únicamente constantes de Lipschitz o puntos críticos. Logra hasta 7.8x más propiedades de verificación que los métodos de última generación al calcular eficientemente cotas superiores e inferiores mediante un procedimiento de desplazamiento.

arxiv arXiv cs.LG · hace 3 h

Propiedades estadísticas del entrenamiento y la generalización

El artículo examina la desviación del aprendizaje profundo de las intuiciones estadísticas clásicas, enfatizando las leyes de escalado de las redes neuronales y su interacción con las restricciones físicas y los sesgos inductivos en las aplicaciones del aprendizaje automático.