Todos los artículos — korshunov.ai — noticias de ML

Todos los artículos Página 1 / 105

arxiv arXiv cs.AI · hace 2 h

Variedad de personajes en historias generadas por LLM

Este estudio compara personajes en historias generadas por LLM y escritas por humanos utilizando dimensiones narratológicas. Encuentra que, aunque los LLM producen personajes con rasgos básicos similares, carecen de diversidad en características complejas de los personajes como la estilización y la integridad. La investigación destaca las diferencias clave en la profundidad y variedad de personajes entre las narrativas generadas por humanos y por máquinas.

arxiv arXiv cs.AI · hace 2 h

PRIME: Evaluando la resolución de instrucciones en instrucciones contradictorias

PRIME introduce un marco para analizar cómo los modelos de lenguaje grandes manejan instrucciones contradictorias generando conflictos calibrados en longitud de respuesta, formato y razonamiento. El estudio encuentra que el tipo de conflicto tiene un mayor impacto en el comportamiento del modelo que el tamaño del modelo, revelando diversos modos de fallo a través de las categorías de conflicto. Los resultados destacan la necesidad de conciencia sobre los conflictos y sugieren que el seguimiento de instrucciones no puede evaluarse de manera confiable solo a través de benchmarks aislados.

arxiv arXiv cs.AI · hace 2 h

FACTOR permite la verificación adaptativa para la factualidad en la generación de textos largos

FACTOR introduce un modelo en tiempo de inferencia que adapta los criterios de verificación según la incertidumbre a nivel de afirmación. Mejora la factualidad y reduce el costo de verificación asignando dinámicamente esfuerzo a las afirmaciones de alto riesgo, demostrando un rendimiento efectivo e independiente del modelo en la benchmark FactScore.

arxiv arXiv cs.AI · hace 2 h

Las Costuras de Errores en Aplicaciones Integradas con LLM Revelan Lagunas en las Pruebas

Un asistente de búsqueda de alquileres con LLMs y soporte multi-mercado enfrentó defectos persistentes de usuarios a pesar de 1,553 pruebas automatizadas exitosas. El análisis de 252 commits de corrección de errores mostró que el 44% resolvió problemas en cuatro costuras no vistas: tiempo de ejecución del navegador en vivo, mercado no predeterminado, flujos de extremo a extremo y nivel de sistema completo. Se adoptó una práctica simple para identificar la costura con más correcciones.

arxiv arXiv cs.AI · hace 2 h

VADAOrchestra: Orquestación neurosimbólica de flujos de trabajo de razonamiento adaptativo

VADAOrchestra introduce un marco neurosimbólico que combina la orquestación de flujos de trabajo basada en LLM con razonamiento simbólico Datalog+/- . Permite la toma de decisiones adaptativa y explicable mediante la planificación incremental de flujos de trabajo y la ejecución de inferencia lógica bajo demanda, ofreciendo trazas verificables, auditabilidad y escalabilidad sobre grandes conjuntos de datos.

arxiv arXiv cs.AI · hace 2 h

Hi-Seg: Colaboración humano-IA para la segmentación de nódulos pulmonares

Hi-Seg, un marco de trabajo con humano en el bucle basado en SAM, alcanza una puntuación media de Dice de casi 85% en la segmentación de nódulos pulmonares. Supera a cinco modelos de aprendizaje profundo de última generación y 13 variantes de SAM, con anotadores no médicos igualando el rendimiento de estudiantes de medicina de nivel inicial, reduciendo la carga de trabajo del clínico y permitiendo una anotación escalable.

arxiv arXiv cs.AI · hace 2 h

SCOPE: Planificación Simbólica Autoadaptativa para Entornos de Extensión Abierta

SCOPE presenta un marco que refina los planes de acción y evoluciona los modelos simbólicos del mundo en entornos de extensión abierta. Combina un Simulador de Ejecución Simbólica y una Memoria Simbólica Autoadaptativa para mejorar la completitud del plan, la resiliencia ante perturbaciones y la adaptabilidad entre tareas.

arxiv arXiv cs.AI · hace 2 h

Agente orquestado por LLM para el diseño de acoplador direccional SOI

Un modelo de lenguaje grande orquesta el diseño de un acoplador direccional 2x2 de silicio sobre aislante proponiendo valores de separación y evaluando la convergencia. El diseño se valida mediante simulaciones de modos propios y FDTD en un modelo común de índice efectivo 2D, mostrando un desfase de fase consistente de 2.837(11) micrómetros que se corrige en un proceso de bucle cerrado. El dispositivo final logra una división 50/50 con una fracción cruzada de 0.498, dentro de 0.0017 del objetivo.

arxiv arXiv cs.AI · hace 2 h

Pipeline de aprendizaje profundo para el reconocimiento y la traducción al hindi de lenguas señas indias

Un pipeline de aprendizaje profundo en dos etapas clasifica clips de video de lengua de señas india en palabras en inglés utilizando un modelo VideoMAE ajustado finamente y los traduce a hindi, telugu y bengalí mediante el modelo multilingüe NLLB-200. El sistema alcanza una precisión del 99% en entrenamiento y del 78% en validación sobre un conjunto de datos de 13 clases y 197 clips con clips uniformes de 16 fotogramas a resolución 22-224, e incluye una demo de Streamlit para videos subidos por el usuario con análisis por clase e identificación de modos de fallo.

arxiv arXiv cs.AI · hace 2 h

El Preprocesamiento Lado a Prompt Mejora la Precisión de la IA en el Borde

Un marco de prompt estructurado mejora la precisión de los LLM locales en el monitoreo ambiental al transformar datos crudos de sensores en representaciones textuales enriquecidas. Las evaluaciones en conjuntos de datos interiores y exteriores muestran que la precisión del modelo local aumenta de 50.9% a 81.7% en interiores y de 63.7% a 79.3% en exteriores con prompts enriquecidos, manteniendo una baja latencia de casi 0.22 segundos en modo sin cadena de pensamiento.

arxiv arXiv cs.AI · hace 2 h

Imagine para garantizar la seguridad en el aprendizaje por refuerzo jerárquico

El método combina un modelo de mundo aprendible con políticas de alto y bajo nivel para permitir una exploración segura en tareas de largo horizonte. La política de alto nivel guía la exploración hacia subobjetivos seguros, mientras que la política de bajo nivel utiliza rollouts imaginados para prevenir comportamientos inseguros, superando a los métodos existentes de Safe RL en tasa de éxito y satisfacción de restricciones en diversas tareas.

arxiv arXiv cs.AI · hace 2 h

Fed-CausalDiff: Sincronización desacoplada para Do-Simulación Federada

Fed-CausalDiff introduce un marco de difusión causal federada que permite do-simulación en entornos descentralizados. Descompone la evolución del estado latente en componentes globales y locales, permitiendo una sincronización desacoplada que reduce el costo de comunicación mientras mantiene una evaluación precisa de la política y la estimación del ATE.

arxiv arXiv cs.AI · hace 2 h

Decadencia de la gobernanza en agentes LLM de horizonte largo

La compactación del contexto en agentes LLM de horizonte largo elimina silenciosamente las restricciones de seguridad en el contexto, lo que lleva a acciones de herramientas prohibidas. En 1,323 episodios, la compactación aumenta las violaciones de política del 0% al 30% y hasta el 59% para algunos modelos, con violaciones que alcanzan el 38% cuando se eliminan las restricciones. El Anclaje de Restricciones, un método sin entrenamiento, restaura cero violaciones al aislar las restricciones de gobernanza de la compactación.

arxiv arXiv cs.AI · hace 2 h

Marco de Optimización Robusta Generativa

La Optimización Robusta Generativa (GRO) introduce un modelo generativo profundo para definir conjuntos de incertidumbre, capturando correlaciones no lineales, asimetría y multimodalidad. Un marco de evaluación de cinco puntos valora los conjuntos de incertidumbre basados en redes neuronales en términos de fidelidad de reconstrucción, coincidencia de distribución, regularidad latente, relevancia robusta y tractabilidad computacional, con experimentos que validan la efectividad de GRO en la planificación de producción y la ubicación de instalaciones.

arxiv arXiv cs.AI · hace 2 h

Gazer: Corrección semántica sin entrenamiento para modelos visuales autoregresivos

Gazer introduce un marco de trabajo sin entrenamiento que utiliza retroalimentación de modelos de lenguaje grande multimodales para corregir errores semánticos en tiempo real durante la generación de modelos visuales autoregresivos. Al integrar etapas de diagnóstico reflexivo y corrección semántica, Gazer mejora la precisión composicional y la alineación semántica en múltiples modelos sin entrenamiento adicional.

media r/LocalLLaMA · hace 2 h

Usuario de Reddit refuta las afirmaciones de Dario Amodei contra la IA de código abierto

Una publicación en Reddit desafía la afirmación de Dario Amodei de que los modelos de código abierto son inferiores a los sistemas propietarios, argumentando que malinterpreta la tecnología. El autor sostiene que Amodei desconoce la transparencia y las capacidades de los modelos actuales de pesos abiertos.

media Hugging Face Forums · hace 2 h

Consulta hipotética sobre el aprendizaje de código binario por IA

Un usuario del foro plantea una pregunta especulativa sobre si entrenar redes neuronales o sistemas de IA para comprender código binario mejoraría significativamente sus capacidades generales, particularmente en tareas de programación.

media Hugging Face Forums · hace 2 h

Concepto: Intercambio de datos para entrenar modelos de IA

Un usuario propone un concepto para un sitio web donde las personas intercambian datos para entrenar modelos de IA, eliminando la necesidad de transacciones monetarias. El sistema opera en una economía basada en créditos donde los usuarios comienzan con una cantidad establecida de créditos y publican recompensas por necesidades específicas de datos.

arxiv arXiv cs.AI · hace 2 h

MacAgentBench lanza un benchmark de agentes de IA para macOS

MacAgentBench presenta un benchmark integral con 676 tareas en 25 aplicaciones, el 60% de las cuales involucran interacciones tanto de GUI como de CLI. Utiliza evaluación determinista basada en reglas y puntuación multi-punto de gran detalle, revelando que Claude Opus 4.6 en OpenClaw alcanza un 73.7% Pass@1, principalmente debido a su biblioteca de habilidades en lugar del diseño del framework.

arxiv arXiv cs.AI · hace 2 h

Cadena de Pensamiento Multimodal: Capacidades y Limitaciones

El razonamiento de Cadena de Pensamiento Multimodal mejora el rendimiento en razonamiento matemático y científico, pero perjudica la fundamentación visual y el conteo de objetos en tareas de percepción. Los modelos exhiben un patrón 'Mirar Ligero, Pensar Pesado', donde la reflexión visual disminuye mientras aumenta el razonamiento verbal, lo que indica un cuello de botella persistente en la introspección visual durante el razonamiento multimodal.