Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 100

Explicación de los riesgos de Red Teaming de IA e Inyección de Prompts

Zico Kolter y Matt Fredrikson, coautores del artículo definitivo sobre inyecciones indirectas de prompts y autoridades en el modelo Mythos, discuten los crecientes riesgos de seguridad de la IA. Destacan que los sistemas de IA requieren una mentalidad de seguridad distinta, con agentes que introducen nuevas vulnerabilidades, y que el red-teaming especializado en IA puede superar a los humanos al romper modelos, haciendo que las brechas por inyección de prompts en la IA sean cada vez más probables.

lab NVIDIA Technical Blog · hace 2 h

CCCL Runtime: Un entorno de ejecución moderno en C++ para CUDA

NVIDIA ha lanzado CCCL Runtime, un entorno de ejecución moderno en C++ que proporciona abstracciones más seguras y convenientes para la programación en CUDA. Introduce características actualizadas de C++ para simplificar y mejorar el desarrollo en CUDA C++.

lab NVIDIA Technical Blog · hace 2 h

Habilita IA en tiempo real para adquisición de datos de alta velocidad con DAQIRI

El éxito de AlphaFold2 en 2020 se basó en 170.000 estructuras de proteínas del Banco de Datos de Proteínas. DAQIRI de Nvidia permite el procesamiento de IA en tiempo real para la adquisición de datos de alta velocidad mediante el análisis de los datos a medida que se generan.

lab NVIDIA Technical Blog · hace 2 h

NVIDIA lanza Halos para robótica: sistema de seguridad funcional de pila completa

NVIDIA ha presentado Halos para robótica, un sistema de seguridad funcional de pila completa diseñado para la IA física. Permite una seguridad impulsada por IA en entornos no estructurados donde los robots operan de forma autónoma junto a humanos en fábricas, almacenes, hospitales y hogares.

media Import AI · hace 2 h

La IA supera a los humanos en persuasión: un nuevo estudio muestra que la IA es superior a los expertos

Un estudio de investigadores de Oxford, Stanford y LSE encuentra que los sistemas de IA superan consistentemente a los humanos expertos en cuatro experimentos que involucran 18.978 conversaciones. La IA superó a los canvisadores profesionales en 10.8 puntos porcentuales en donaciones reales a Save the Children, con Opus 4.1 y Opus 4.6 mostrando el mejor desempeño persuasivo.

media Latent Space · hace 2 h

Exclusivo: 250 dólares de descuento en entradas para ingenieros de IA hasta el lunes

Los suscriptores de LS pueden acceder a un descuento de 250 dólares en las entradas del evento AI Engineer. La oferta fue anunciada previamente en AINews y está disponible para quienes se han suscrito para recibir actualizaciones de AINews.

media AI News (smol.ai) · hace 2 h

GLM-5.2 Destaca con un Avance y el Progreso de los Modelos Abiertos

El GLM-5.2 de Zhipu se consolidó como el modelo de peso abierto líder, elogiado por su rendimiento cercano a la vanguardia en el uso diario, con mejoras en tareas de codificación y reducción del costo de inferencia de 1M de tokens mediante IndexShare. Superó a otros modelos abiertos en benchmarks de trabajo de conocimiento agéntico, alcanzando 1266 Elo en la prueba AA-Briefcase de Artificial Analysis, aunque solo el 3% de las tareas fueron completamente satisfechas por los mejores modelos, lo que indica desafíos persistentes en el rendimiento de agentes a largo plazo en el mundo real.

media r/LocalLLaMA · hace 2 h

Propuesta de LLMs destilados de código abierto y crowdsourced mediante entrenamiento distribuido

Un usuario de Reddit propone un sistema para crear modelos de lenguaje grandes (LLMs) destilados verdaderamente de código abierto, envolviendo servicios de IA existentes por línea de comandos. Este enfoque recopilaría entradas y salidas de usuarios desde aplicaciones como asistentes de codificación o chatbots para construir conjuntos de datos masivos mediante la participación voluntaria.

media AI News (smol.ai) · hace 2 h

GLM-5.2 surge como modelo de código líder de pesos abiertos

GLM-5.2 es ampliamente considerado el primer modelo de código de pesos abiertos que rivaliza con modelos de vanguardia como Opus 4.8 y GPT-5.5 en capacidad. Los profesionales destacan su fuerte uso de herramientas, planificación a largo plazo y comportamiento autónomo de subagentes, con consenso de que ahora opera de manera creíble en el rango de SWE de vanguardia. La aparición del modelo subraya el creciente valor de los pesos abiertos para la competencia entre proveedores, despliegue on-prem y reducción del bloqueo de proveedor.

lab NVIDIA Technical Blog · hace 2 h

Construye tu propio modelo de base de transacciones para inteligencia financiera

Los datos de transiciones capturan patrones ricos del comportamiento humano y son un activo clave para las empresas. Los casos de uso actuales a menudo dependen de características frágiles e ingenierizadas manualmente que no logran capturar el comportamiento secuencial del cliente en los historiales de transacciones.

lab NVIDIA Technical Blog · hace 2 h

NVIDIA lanza XR AI para gafas de realidad aumentada y dispositivos portátiles

NVIDIA presenta XR AI para cerrar la brecha de infraestructura para desarrolladores que crean experiencias de IA en gafas de RA y dispositivos de RA. La solución permite la integración de flujos de sensores en vivo, modelos de IA multimodales y datos empresariales dentro de entornos de ejecución específicos del dispositivo, agilizando el desarrollo de agentes de IA para dispositivos portátiles.

media Latent Space · hace 2 h

Suscriptores de Latent Space obtienen un descuento de $250 para AIE WF 2026

Los suscriptores de Latent Space reciben un descuento por tiempo limitado de $250 en las entradas para AIE WF 2026. Los asistentes también reciben $40k en créditos de patrocinadores de empresas como Warp, Datadog, SourceGraph, Stripe y Fireworks.

media Latent Space · hace 2 h

GLM-5.2 supera la prueba de vibes y supera a GPT-5.5

GLM-5.2 ha superado una 'prueba de vibes' como modelo abierto de vanguardia, recibiendo elogios de Jeremy Howard y superando a GPT-5.5 en el nuevo benchmark de trabajo de conocimiento de Artificial Analysis. También obtuvo la validación de la comunidad /r/LocalLlama, lo que indica una utilidad y rendimiento sólidos en el mundo real.

arxiv arXiv cs.AI · hace 2 h

UFP4: El entrenamiento uniforme de 4 bits supera el sesgo de contracción en el preentrenamiento de LLM

Un estudio identifica un sesgo de contracción en los formatos FP4 basados en E2M1 debido a la asimetría geométrica, lo que provoca acumulación de errores multiplicativos e inestabilidad en el entrenamiento. La receta UFP4 propuesta utiliza cuadrículas uniformes E1M2/INT4 y aplica la Transformada de Hadamard Aleatoria a todos los GEMM, logrando una degradación menor de la pérdida que las líneas base E2M1 en el preentrenamiento de LLM a gran escala. Los autores recomiendan E1M2/INT4 como un primitivo de entrenamiento de primera clase para futuros aceleradores.

arxiv arXiv cs.AI · hace 2 h

DataMagic convierte datos tabulares en videos interactivos de insights

DataMagic transforma datos tabulares crudos y consultas en lenguaje natural en videos narrativos de insights de datos. Utiliza DVSpec para garantizar la fidelidad de los datos vinculando elementos visuales a campos de datos mediante referencias semánticas, y emplea una arquitectura multiagente para generar y orquestar escenas de video coherentes. El sistema admite exploración interactiva y preguntas-respuestas basadas en procedencia de datos, permitiendo a los usuarios interactuar con los datos más allá de vistas estáticas.

arxiv arXiv cs.AI · hace 2 h

NRT-Bench: Red-teaming multi-turn de agentes LLM en sistemas críticos para la seguridad

NRT-Bench presenta un benchmark para el red-teaming multi-turn de agentes LLM que operan en una planta de energía nuclear simulada. En cuatro modelos de operador de vanguardia, entre el 8,7 % y el 12,1 % de las sesiones de ataque provocan la pérdida de una función crítica de seguridad, con vulnerabilidades en gran medida disjuntas entre los modelos. La efectividad de las defensas varía significativamente según el modelo, mostrando una fuerte dependencia del modelo.

arxiv arXiv cs.AI · hace 2 h

La descompilación multi-vista mejora la clasificación de malware basada en LLM

Un benchmark de binarios benignos y maliciosos compilados y descompilados con Ghidra y RetDec revela que proporcionar ambas vistas del descompilador a los modelos de lenguaje grandes mejora el F1 de la clase maliciosa, principalmente al aumentar la recall. El análisis muestra que Ghidra y RetDec cometen errores distintos, lo que indica que sus salidas ofrecen evidencia complementaria para la clasificación de malware.

arxiv arXiv cs.AI · hace 2 h

Aprendizaje profundo guiado por atención para la clasificación interpretable de morfología espermática

Un nuevo marco de aprendizaje profundo combina EfficientNet-B0 con CBAM para mejorar la precisión y la interpretabilidad en la clasificación de morfología espermática. Evaluado en los conjuntos de datos SMIDS y HuSHem, alcanza una precisión del 90,2 % y del 93,9 % con puntuaciones F1 macro de 0,913 y 0,948, superando a los modelos base. Las visualizaciones Grad-CAM++ permiten un análisis transparente de las características, apoyando la adopción clínica en clínicas de fertilidad.

arxiv arXiv cs.AI · hace 2 h

Calibración sin comprensión en la detección de vulnerabilidades de LLM

CWE-Trace evalúa ocho LLMs base y 15 LLMs ajustados con LoRA en la detección de vulnerabilidades del kernel de Linux. Los resultados muestran que la contaminación de los datos no ofrece ninguna ventaja, y el ajuste fino solo desplaza los umbrales de salida sin alterar las políticas de decisión. A pesar de las puntuaciones de detección mejoradas, los LLMs carecen de razonamiento de seguridad confiable, con una precisión de CWE top-1 inferior al 1.3% y un rendimiento de detección binaria del 52.1%.

arxiv arXiv cs.AI · hace 2 h

FreeStyle: Generación escalable de referencias duales de estilo y contenido mediante minería de LoRA comunitario

FreeStyle propone un marco que mina LoRAs comunitarios para generar tripletes de imágenes de referencia dual de estilo-contenido a gran escala. Emplea un currículo en dos etapas con mecanismos de desentrelazamiento para suprimir la fuga de estilo e introduce una evaluación con puntuaciones invariantes al estilo y basadas en VLM para evaluar la preservación del contenido y el rechazo de fugas.