Soporte para DFlash fusionado en llama.cpp
El soporte para el formato DFlash ha sido fusionado en el repositorio de llama.cpp. Esta actualización permite a los usuarios utilizar archivos DFlash dentro del marco.
El soporte para el formato DFlash ha sido fusionado en el repositorio de llama.cpp. Esta actualización permite a los usuarios utilizar archivos DFlash dentro del marco.
Un nuevo marco llamado HISR utiliza hipergrafos para modelar relaciones complejas entre múltiples entidades, mejorando la precisión de la interpretación semántica hasta un 36.6% en comparación con los métodos existentes. Permite una inferencia semántica robusta bajo pérdida parcial de información al mapear entidades y relaciones de orden superior en subespacios semánticos dedicados.
Los MedRLs permiten el razonamiento clínico de contexto largo mediante la inspección recursiva de datos del paciente a través de texto, imágenes, sensores y guías. Integra agentes especializados y una Memoria de Grafo de Evidencia Clínica para conectar observaciones con evidencia y criterios de referencia, apoyando el razonamiento activado por sensores y la revisión clínica con puerta de incertidumbre.
RS-Neg es el primer benchmark para evaluar la comprensión de negación en tareas de teledetección a través de escenarios a nivel de región y a nivel de escena. Revela que los MLLMs avanzados de teledetección tienen dificultades con la negación, mostrando alucinaciones y caídas de rendimiento. NeFo, un método de aprendizaje en tiempo de prueba, mejora la comprensión de la negación utilizando solo el 5% de datos de prueba sin etiquetar y se generaliza bien a nuevas tareas.
HilDA introduce un marco de preentrenamiento auto-supervisado para backbones de LiDAR que utiliza destilación jerárquica y difusión de ocupación temporal para mejorar la comprensión semántica y geométrica. Logra resultados de última generación en benchmarks de destilación cross-modal y supera a métodos anteriores en detección de objetos 3D, flujo de escena y predicción de ocupación semántica.
Un análisis psicométrico formal muestra que los aparentes perfiles psicológicos de los modelos de lenguaje grandes están impulsados principalmente por el sesgo de respuesta, no por rasgos reales. Este sesgo, que hace que los modelos favorezcan consistentemente un extremo de una escala, explica del 81% al 90% de la variación entre modelos, superando ampliamente las diferencias humanas. El estudio concluye que estos perfiles son artefactos del diseño del instrumento y no propiedades verdaderas del modelo, instando al desarrollo de evaluaciones basadas en la ortogonalidad de la respuesta.
Presentamos la Puntuación de Violación de Reglas (RVS), una métrica que evalúa qué tan bien los modelos predictivos se adhieren a reglas lógicas. RVS distingue entre reglas estrictas y flexibles, funciona con cualquier conjunto de datos relacional y modelo, y puede calcularse mediante consultas SQL para reglas de Horn. La evaluación en múltiples conjuntos de datos muestra que los modelos con precisión predictiva similar pueden diferir enormemente en cumplimiento lógico, destacando la capacidad de RVS para revelar comportamientos pasados por alto por las métricas estándar.
FlowMaps es un modelo de coincidencia de flujos latentes que predice las ubicaciones futuras de objetos en entornos 3D aprendiendo patrones espacio-temporales a partir de interacciones humanas. Supera a los métodos más avanzados en la navegación de objetos dinámicos a lo largo de más de 600 episodios tanto en entornos simulados como del mundo real.
Este artículo propone un marco para aplicar el aprendizaje por refuerzo profundo a la IA de los videojuegos, con el objetivo de crear personajes más creíbles y similares a los humanos. Aborda las limitaciones actuales en el despliegue de agentes de aprendizaje automático en videojuegos e identifica los principales desafíos de investigación que podrían acelerar la adopción de la IA en la industria de los videojuegos.
Este estudio analiza y evalúa algoritmos de detección de deriva de conceptos a través de varias categorías utilizando conjuntos de datos de streaming sintéticos y del mundo real. Examina las características de la deriva y evalúa el rendimiento de los detectores bajo escenarios de deriva abrupta y gradual para mejorar la comprensión del comportamiento de la deriva y la aplicabilidad de los detectores.
QMFOL es un marco automatizado que genera tareas de razonamiento en lógica de primer orden monádica con complejidad cuantificable. Produce 2880 instancias de evaluación en 960 configuraciones, evaluando seis modelos grandes de razonamiento y dos LLMs, mostrando degradación del rendimiento y aumento del costo computacional a medida que la complejidad lógica aumenta.
La inteligencia se define como la amplificación reglada de futuros raros pero válidos. Un marco muestra que la auto-simulación recursiva es necesaria y casi suficiente para una alta inteligencia termodinámica, permitiendo una escala universal y medible a través de sistemas desde la materia hasta los humanos y la IA.
ScholarQuest es un benchmark a gran escala para la búsqueda de artículos académicos agénticos, construido a partir de 1.000 temas de ciencias de la computación y cuatro intenciones de investigación. Incluye construcción escalable de respuestas y un backend de recuperación compartido, ScholarBase, que permite una evaluación reproducible. Los resultados muestran que los métodos agénticos superan a la recuperación básica, con el mejor agente logrando 0.314 Recall@100 y 0.355 Recall@All, lo que indica un margen significativo de mejora.
MAMO introduce un enfoque de aprendizaje por refuerzo multiagente para abordar el desafío de equilibrar la minimización de costos y la satisfacción de restricciones en entornos dinámicos. Desacopla la ejecución de tareas de la selección de pesos de recompensa, tratando la elección de pesos como un problema de aprendizaje para permitir soluciones más autónomas y robustas.
SPOT-E introduce un método en tiempo de prueba que utiliza focos visuales para mejorar la fundamentación de evidencias en modelos de visión y lenguaje congelados. Emplea anclas de baja entropía y un objetivo de moldeado de entropía para reducir la incertidumbre de las respuestas mientras se preservan los tokens de alta confianza, mejorando la robustez bajo corrupciones visuales a través de benchmarks y familias de VLMs.
MACR introduce un marco de razonamiento multiagente para resolver conflictos de conocimiento en la inferencia de LLM evaluando conjuntamente el conocimiento interno y externo. Utiliza entropía semántica para medir la confianza y emplea tres agentes especializados para inducir reglas, detectar conflictos y resolver inconsistencias entre contextos. Los resultados empíricos muestran que MACR supera a los métodos más avanzados y proporciona resoluciones de conflictos interpretables.
Los modelos Visión-Lenguaje-Acción muestran una redundancia capa por capa severa a pesar de los grandes conteos de parámetros. Un método de compresión sin entrenamiento que utiliza Alineación del Núcleo Centrado elimina capas gemelas, reduciendo la profundidad del modelo hasta un 50% y permitiendo un entrenamiento 40-50% más rápido y una inferencia hasta un 30% más rápida sin pérdida de rendimiento, validado en tareas robóticas de simulación y del mundo real.
El Marco de Inteligencia Semántica (MIF) introduce un esquema de nueve dimensiones para analizar el discurso público nigeriano, abordando la falla de contexto en los sistemas de IA. Un conjunto de datos de calibración de 30 elementos muestra que la indicación informada por el esquema mejora la precisión de clasificación del registro desde 33.3% hasta 73.3% y aumenta la Puntuación Compuesta de Inteligencia Semántica desde 73.2 hasta 78.6.
Un estudio de caso con una institución pública nórdica del conocimiento demuestra cómo la participación editorial puede re-alinear las interfaces de LLM con los estándares editoriales. El artículo introduce la alineación editorial como una práctica de diseño en IA Participativa, donde los valores editoriales se traducen en objetivos de alineación técnica. Este enfoque empodera a los editores con agencia en la diseminación de conocimientos mediada por LLM.
Un usuario demuestra ejecutar el modelo Step-3.7-Flash de 198B parámetros de StepFun en una configuración de consumo con 4×RTX 3090, revelando compromisos críticos de rendimiento entre niveles de cuantización y predicción multi-token (MTP) con capacidades de visión.