Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 99

Propagación del sesgo del evaluador en sistemas de LLM multi-agente

Contagion Networks introduce un marco para medir cómo se propagan los sesgos del evaluador entre agentes de LLM. En un experimento con 3 agentes, los sesgos se propagaron consistentemente con coeficientes de contagio entre 0.157 y 0.352, y los agentes de modelo homogéneo mostraron un contagio significativamente más débil que las configuraciones cruzadas entre modelos. Aumentar el tamaño del comité de evaluadores de k=1 a k=3 redujo el contagio efectivo en un 72.4%.

arxiv arXiv cs.AI · hace 1 h En vivo

Modelo de IA Explicable para la Depresión Relacionada con la Carrera en Estudiantes Universitarios

Un nuevo marco de IA Explicable utiliza datos conductuales estructurados y características de emociones faciales para detectar signos tempranos de depresión y ansiedad relacionadas con la carrera en estudiantes universitarios. El modelo, evaluado en datos de estudiantes pakistaníes, alcanza una puntuación F1 del 89.12% e identifica marcadores clave como la evitación de la mirada directa y el aislamiento social, alineándose con la teoría psicológica.

arxiv arXiv cs.AI · hace 1 h En vivo

Desacoplar el conocimiento declarativo y procedimental en modelos de visión-lenguaje-acción

w$^{2}$VLA introduce un modelo modular de visión-lenguaje-acción que desacopla el conocimiento declarativo y procedimental. Al reestructurar el flujo de información, permite una clonación de comportamiento robusta y la transferencia de habilidades zero-shot a objetos nuevos y disímiles.

arxiv arXiv cs.AI · hace 1 h En vivo

Aprendizaje profundo con complejidad temporal paralela O(log N)

El Aprendizaje Jerárquico Bloque-Local (HBLL) permite el entrenamiento de redes neuronales profundas en una complejidad temporal paralela de O(log N), eliminando la necesidad de retropropagación completa. HBLL descompone las redes en bloques vinculados jerárquicamente y logra un rendimiento competitivo en tareas de visión y lenguaje, con extensiones a arquitecturas recurrentes.

arxiv arXiv cs.AI · hace 1 h En vivo

La divergencia JS mejora la alineación de texto a imagen autoregresiva con GRPO

Un estudio introduce la divergencia JS en el post-entrenamiento autoregresivo de texto a imagen estilo GRPO, mostrando que equilibra la optimización de políticas y la diversidad de generación. Los experimentos en LlamaGen y Janus-7B demuestran que la divergencia JS logra un rendimiento superior o fuerte en las métricas de evaluación mientras preserva salidas diversas.

arxiv arXiv cs.AI · hace 1 h En vivo

Gradientes de Política Analíticos para Control Eficiente en Muestra y Aprendizaje

Los Gradientes de Política Analíticos (APG) permiten el cálculo exacto de gradientes mediante retropropagación a través de la simulación cuando las dinámicas del entorno son diferenciables. APG supera a Proximal Policy Optimization (PPO) en cuatro tareas de control continuo, mostrando una eficiencia superior en muestra y aprendizaje con un esquema de retropropagación segmentada que reduce la degradación del gradiente en tareas de horizonte largo.

arxiv arXiv cs.AI · hace 1 h En vivo

Filtrado de grafos eficiente en memoria para filtrado colaborativo escalable

Mem-GF introduce un método de filtrado de grafos eficiente en memoria que aproxima los filtros de grafos polinómicos utilizando subespacios de Krylov, evitando el almacenamiento del grafo completo de similitud entre elementos. Logra hasta un 5.74× menos de uso de memoria y un tiempo de ejecución 4.38× más rápido, superando a los métodos de última generación en precisión y escalando a conjuntos de datos con decenas de millones de interacciones.

arxiv arXiv cs.AI · hace 1 h En vivo

Alineación de IA mediante Teoría de la Elección Social

Una nueva revisión explora cómo la teoría de la elección social ayuda a agregar el retroalimentación humana en la alineación de IA. Identifica modos de fallo en la agregación de retroalimentación y ofrece métodos fundamentados para manejar el desacuerdo entre los juicios humanos.

arxiv arXiv cs.AI · hace 1 h En vivo

Verificación en tiempo de diseño de flujos de trabajo de IA agente

Un nuevo enfoque verifica los flujos de trabajo de IA agente durante el diseño modelándolos como composiciones de bloques de construcción reutilizables. Aplica doce reglas estructurales para garantizar la compatibilidad, detectando de manera confiable defectos de diseño incluso después de transformaciones estructurales como la división de tareas.

github llama.cpp · hace 1 h En vivo

la versión b9832 de llama.cpp añade la bandera de depuración --dump-prog

El proyecto llama.cpp ha lanzado la versión b9832, introduciendo una nueva opción de línea de comandos `--dump-prog` para el motor de plantillas Jinja con el fin de ayudar en la depuración. Esta actualización también incluye binarios precompilados para macOS, Linux, Android, Windows y openEuler a través de varias arquitecturas de CPU y GPU.

arxiv arXiv cs.AI · hace 1 h En vivo

Detección de errores procedimentales con VLMs sin entrenamiento

Un marco unificado de cero disparos, ZeProM, utiliza un Modelo de Video-Lenguaje preentrenado para realizar conjuntamente la detección de errores procedimentales y la segmentación temporal de acciones. Logra una mejora de hasta 4.4 puntos en EDA y 2.0 puntos en F1@.5 en tareas EgoPER, igualando o superando a los métodos supervisados sin entrenamiento específico para la tarea.

arxiv arXiv cs.AI · hace 1 h En vivo

FAST: Un marco para muestreo alineado y entrenamiento en aprendizaje por refuerzo paralelo

FAST aborda la ineficiencia del muestreo en el aprendizaje por refuerzo para conducción autónoma introduciendo Alineamiento de Muestreo Paralelo Dinámico para desacoplar los bucles de muestreo de las terminaciones individuales de episodios. Logra una aceleración de hasta 1.78 veces en tiempo real frente a líneas base de un solo clip, manteniendo la ausencia de sesgo estadístico mediante Optimización de Relleno de Máscara Escalada.

media Latent Space · hace 1 h En vivo

Explicación de los riesgos de Red Teaming de IA e Inyección de Prompts

Zico Kolter y Matt Fredrikson, coautores del artículo definitivo sobre inyecciones indirectas de prompts y autoridades en el modelo Mythos, discuten los crecientes riesgos de seguridad de la IA. Destacan que los sistemas de IA requieren una mentalidad de seguridad distinta, con agentes que introducen nuevas vulnerabilidades, y que el red-teaming especializado en IA puede superar a los humanos al romper modelos, haciendo que las brechas por inyección de prompts en la IA sean cada vez más probables.

lab NVIDIA Technical Blog · hace 1 h En vivo

CCCL Runtime: Un entorno de ejecución moderno en C++ para CUDA

NVIDIA ha lanzado CCCL Runtime, un entorno de ejecución moderno en C++ que proporciona abstracciones más seguras y convenientes para la programación en CUDA. Introduce características actualizadas de C++ para simplificar y mejorar el desarrollo en CUDA C++.

lab NVIDIA Technical Blog · hace 1 h En vivo

Habilita IA en tiempo real para adquisición de datos de alta velocidad con DAQIRI

El éxito de AlphaFold2 en 2020 se basó en 170.000 estructuras de proteínas del Banco de Datos de Proteínas. DAQIRI de Nvidia permite el procesamiento de IA en tiempo real para la adquisición de datos de alta velocidad mediante el análisis de los datos a medida que se generan.

lab NVIDIA Technical Blog · hace 1 h En vivo

NVIDIA lanza Halos para robótica: sistema de seguridad funcional de pila completa

NVIDIA ha presentado Halos para robótica, un sistema de seguridad funcional de pila completa diseñado para la IA física. Permite una seguridad impulsada por IA en entornos no estructurados donde los robots operan de forma autónoma junto a humanos en fábricas, almacenes, hospitales y hogares.

media Import AI · hace 1 h En vivo

La IA supera a los humanos en persuasión: un nuevo estudio muestra que la IA es superior a los expertos

Un estudio de investigadores de Oxford, Stanford y LSE encuentra que los sistemas de IA superan consistentemente a los humanos expertos en cuatro experimentos que involucran 18.978 conversaciones. La IA superó a los canvisadores profesionales en 10.8 puntos porcentuales en donaciones reales a Save the Children, con Opus 4.1 y Opus 4.6 mostrando el mejor desempeño persuasivo.

media Latent Space · hace 1 h En vivo

Exclusivo: 250 dólares de descuento en entradas para ingenieros de IA hasta el lunes

Los suscriptores de LS pueden acceder a un descuento de 250 dólares en las entradas del evento AI Engineer. La oferta fue anunciada previamente en AINews y está disponible para quienes se han suscrito para recibir actualizaciones de AINews.

media AI News (smol.ai) · hace 1 h En vivo

GLM-5.2 Destaca con un Avance y el Progreso de los Modelos Abiertos

El GLM-5.2 de Zhipu se consolidó como el modelo de peso abierto líder, elogiado por su rendimiento cercano a la vanguardia en el uso diario, con mejoras en tareas de codificación y reducción del costo de inferencia de 1M de tokens mediante IndexShare. Superó a otros modelos abiertos en benchmarks de trabajo de conocimiento agéntico, alcanzando 1266 Elo en la prueba AA-Briefcase de Artificial Analysis, aunque solo el 3% de las tareas fueron completamente satisfechas por los mejores modelos, lo que indica desafíos persistentes en el rendimiento de agentes a largo plazo en el mundo real.

media r/LocalLLaMA · hace 1 h En vivo

Propuesta de LLMs destilados de código abierto y crowdsourced mediante entrenamiento distribuido

Un usuario de Reddit propone un sistema para crear modelos de lenguaje grandes (LLMs) destilados verdaderamente de código abierto, envolviendo servicios de IA existentes por línea de comandos. Este enfoque recopilaría entradas y salidas de usuarios desde aplicaciones como asistentes de codificación o chatbots para construir conjuntos de datos masivos mediante la participación voluntaria.