Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 104

Pipeline de aprendizaje profundo para el reconocimiento y la traducción al hindi de lenguas señas indias

Un pipeline de aprendizaje profundo en dos etapas clasifica clips de video de lengua de señas india en palabras en inglés utilizando un modelo VideoMAE ajustado finamente y los traduce a hindi, telugu y bengalí mediante el modelo multilingüe NLLB-200. El sistema alcanza una precisión del 99% en entrenamiento y del 78% en validación sobre un conjunto de datos de 13 clases y 197 clips con clips uniformes de 16 fotogramas a resolución 22-224, e incluye una demo de Streamlit para videos subidos por el usuario con análisis por clase e identificación de modos de fallo.

arxiv arXiv cs.AI · hace 2 h

El Preprocesamiento Lado a Prompt Mejora la Precisión de la IA en el Borde

Un marco de prompt estructurado mejora la precisión de los LLM locales en el monitoreo ambiental al transformar datos crudos de sensores en representaciones textuales enriquecidas. Las evaluaciones en conjuntos de datos interiores y exteriores muestran que la precisión del modelo local aumenta de 50.9% a 81.7% en interiores y de 63.7% a 79.3% en exteriores con prompts enriquecidos, manteniendo una baja latencia de casi 0.22 segundos en modo sin cadena de pensamiento.

arxiv arXiv cs.AI · hace 2 h

Imagine para garantizar la seguridad en el aprendizaje por refuerzo jerárquico

El método combina un modelo de mundo aprendible con políticas de alto y bajo nivel para permitir una exploración segura en tareas de largo horizonte. La política de alto nivel guía la exploración hacia subobjetivos seguros, mientras que la política de bajo nivel utiliza rollouts imaginados para prevenir comportamientos inseguros, superando a los métodos existentes de Safe RL en tasa de éxito y satisfacción de restricciones en diversas tareas.

arxiv arXiv cs.AI · hace 2 h

Fed-CausalDiff: Sincronización desacoplada para Do-Simulación Federada

Fed-CausalDiff introduce un marco de difusión causal federada que permite do-simulación en entornos descentralizados. Descompone la evolución del estado latente en componentes globales y locales, permitiendo una sincronización desacoplada que reduce el costo de comunicación mientras mantiene una evaluación precisa de la política y la estimación del ATE.

arxiv arXiv cs.AI · hace 2 h

Decadencia de la gobernanza en agentes LLM de horizonte largo

La compactación del contexto en agentes LLM de horizonte largo elimina silenciosamente las restricciones de seguridad en el contexto, lo que lleva a acciones de herramientas prohibidas. En 1,323 episodios, la compactación aumenta las violaciones de política del 0% al 30% y hasta el 59% para algunos modelos, con violaciones que alcanzan el 38% cuando se eliminan las restricciones. El Anclaje de Restricciones, un método sin entrenamiento, restaura cero violaciones al aislar las restricciones de gobernanza de la compactación.

arxiv arXiv cs.AI · hace 2 h

Marco de Optimización Robusta Generativa

La Optimización Robusta Generativa (GRO) introduce un modelo generativo profundo para definir conjuntos de incertidumbre, capturando correlaciones no lineales, asimetría y multimodalidad. Un marco de evaluación de cinco puntos valora los conjuntos de incertidumbre basados en redes neuronales en términos de fidelidad de reconstrucción, coincidencia de distribución, regularidad latente, relevancia robusta y tractabilidad computacional, con experimentos que validan la efectividad de GRO en la planificación de producción y la ubicación de instalaciones.

arxiv arXiv cs.AI · hace 2 h

Gazer: Corrección semántica sin entrenamiento para modelos visuales autoregresivos

Gazer introduce un marco de trabajo sin entrenamiento que utiliza retroalimentación de modelos de lenguaje grande multimodales para corregir errores semánticos en tiempo real durante la generación de modelos visuales autoregresivos. Al integrar etapas de diagnóstico reflexivo y corrección semántica, Gazer mejora la precisión composicional y la alineación semántica en múltiples modelos sin entrenamiento adicional.

media r/LocalLLaMA · hace 2 h

Usuario de Reddit refuta las afirmaciones de Dario Amodei contra la IA de código abierto

Una publicación en Reddit desafía la afirmación de Dario Amodei de que los modelos de código abierto son inferiores a los sistemas propietarios, argumentando que malinterpreta la tecnología. El autor sostiene que Amodei desconoce la transparencia y las capacidades de los modelos actuales de pesos abiertos.

media Hugging Face Forums · hace 2 h

Consulta hipotética sobre el aprendizaje de código binario por IA

Un usuario del foro plantea una pregunta especulativa sobre si entrenar redes neuronales o sistemas de IA para comprender código binario mejoraría significativamente sus capacidades generales, particularmente en tareas de programación.

media Hugging Face Forums · hace 2 h

Concepto: Intercambio de datos para entrenar modelos de IA

Un usuario propone un concepto para un sitio web donde las personas intercambian datos para entrenar modelos de IA, eliminando la necesidad de transacciones monetarias. El sistema opera en una economía basada en créditos donde los usuarios comienzan con una cantidad establecida de créditos y publican recompensas por necesidades específicas de datos.

arxiv arXiv cs.AI · hace 2 h

MacAgentBench lanza un benchmark de agentes de IA para macOS

MacAgentBench presenta un benchmark integral con 676 tareas en 25 aplicaciones, el 60% de las cuales involucran interacciones tanto de GUI como de CLI. Utiliza evaluación determinista basada en reglas y puntuación multi-punto de gran detalle, revelando que Claude Opus 4.6 en OpenClaw alcanza un 73.7% Pass@1, principalmente debido a su biblioteca de habilidades en lugar del diseño del framework.

arxiv arXiv cs.AI · hace 2 h

Cadena de Pensamiento Multimodal: Capacidades y Limitaciones

El razonamiento de Cadena de Pensamiento Multimodal mejora el rendimiento en razonamiento matemático y científico, pero perjudica la fundamentación visual y el conteo de objetos en tareas de percepción. Los modelos exhiben un patrón 'Mirar Ligero, Pensar Pesado', donde la reflexión visual disminuye mientras aumenta el razonamiento verbal, lo que indica un cuello de botella persistente en la introspección visual durante el razonamiento multimodal.

arxiv arXiv cs.AI · hace 2 h

Aprendizaje de Prompt con Restricciones de Concepto para Adaptación de CLIP con Pocos Ejemplos

CCPL introduce un marco ligero que ancla los prompts de clase a prototipos de concepto congelados, mejorando la adaptación de CLIP con pocos ejemplos. Logra un mejor rendimiento de base a nuevo en DTD y EuroSAT en comparación con CoOp, con ganancias consistentes gracias a la regularización de conceptos en el espacio de texto, mientras mantiene neutralidad en OxfordPets. El método utiliza dropout de concepto y fusión de conjunto controlable durante la inferencia, con resultados sensibles a la semántica del conjunto de datos y al protocolo.

arxiv arXiv cs.AI · hace 2 h

La tubería SmartSDG mejora la detección de objetos sintético-a-real

El artículo presenta SmartSDG, una tubería automatizada que utiliza NVIDIA Isaac Sim y Sombreado Basado en Física para optimizar la adaptación de dominio sintético-a-real. Muestra que la iluminación indirecta y los fondos complejos mejoran la detección de objetos al preservar las texturas de superficie y reducir falsos positivos, superando a los datos sintéticos convencionales con luz directa.

arxiv arXiv cs.AI · hace 2 h

Destilación y ablación conscientes del contexto para Text2DSL

Un nuevo sistema Text2DSL utiliza destilación consciente del contexto con un contexto estructurado de gramática BNF, especificación de API y vocabulario de identificadores cerrados. Los estudios de ablación muestran que el vocabulario tiene el mayor impacto en la calidad semántica, mientras que la API y la BNF mejoran significativamente la validez estructural, confirmando que el contexto estructurado es un componente crítico y portador de carga.

arxiv arXiv cs.AI · hace 2 h

Generalización a nivel de CWE en HIDS basados en syscalls

Un detector de anomalías de una clase entrenado con el comportamiento normal de CVEs que comparten una clase CWE puede generalizar a CVEs no vistos dentro de la misma clase, pero la efectividad varía según la familia de CWE. El detector de CWE-307 alcanza F1 = 0.6976 a una tasa de falsos positivos del 5%, mientras que CWE-89 y CWE-434 tienen un rendimiento deficiente, con F1 ≤ 0.21. La transferencia entre CVEs es dependiente de la dirección y está impulsada más por la amplitud del perfil normal de origen que por la categoría CWE.

arxiv arXiv cs.AI · hace 2 h

Text2DSL: Generación de código basada en LLM para lenguajes específicos del dominio

Este artículo presenta Text2DSL, una tarea distintiva de generación de código de lenguajes específicos del dominio a partir de lenguaje natural. Utilizando el conjunto de datos PolkitBench con 4,204 pares validados, muestra que el contexto estructurado —como gramáticas BNF y especificaciones de API— mejora la validez sintáctica y estructural, así como las puntuaciones CodeBLEU en un 60% a 95% en diferentes modelos LLM, sin ajuste fino.

arxiv arXiv cs.AI · hace 2 h

La Destilación On-Policy Ponderada por Importancia Aborda el Sesgo de Posición

La Destilación On-Policy (OPD) sufre de sesgo de posición donde los tokens posteriores proporcionan una supervisión deficiente. La OPD ponderada por importancia (IW-OPD) asigna pesos dinámicos basados en la discrepancia de distribución, priorizando los tokens iniciales y suprimiendo los tardíos. IW-OPD converge más rápido y logra ganancias de rendimiento de hasta 6.9 puntos en AIME-2025 en comparación con OPD estándar.

arxiv arXiv cs.AI · hace 2 h

PaperClaw: Investigación autónoma con refinamiento humano en el bucle

PaperClaw es un sistema multiagente que realiza investigación de forma autónoma, desde la selección del campo hasta la publicación del artículo. Utiliza un ciclo propuesto-validado de propuesta-prueba-reflexión, basado en referencias reales y resultados ejecutables, y admite refinamiento humano en el bucle en cualquier etapa. La evaluación muestra que produce artículos sólidos tanto de forma autónoma como con supervisión humana.

media Interconnects · hace 2 h

Artefactos 22: Zyphra, Cohere y Poolside están ampliando la amplitud del ecosistema

El panorama de los modelos de IA abierta se está volviendo cada vez más diverso, pasando de la dominación por unos pocos actores chinos a una mezcla más amplia de organizaciones que incluyen iniciativas de IA soberana, Big Tech y empresas de productos.