gracias a /u/TheDankestSlav por esta joya
Este post de Reddit en r/LocalLLaMA es un simple agradecimiento al usuario /u/TheDankestSlav. Enlaza a una imagen compartida por el usuario, descrita como una "joya".
Este post de Reddit en r/LocalLLaMA es un simple agradecimiento al usuario /u/TheDankestSlav. Enlaza a una imagen compartida por el usuario, descrita como una "joya".
Un usuario de Reddit argumenta que el CEO de Anthropic, Dario Amodei, comprende fundamentalmente mal cómo funcionan los modelos de IA de código abierto, refutando específicamente su reciente testimonio ante el Congreso del 28 de junio de 2026. El autor sostiene que las afirmaciones de Amodei sobre transparencia y accesibilidad son incorrectas desde el punto de vista factual basándose en el estado actual de los modelos de pesos abiertos.
Claude Code versión 2.1.196 introduce modelos predeterminados de organización, archivos adjuntos clicables y una seguridad mejorada para las aprobaciones del servidor MCP. La actualización también mejora la fiabilidad de las sesiones en segundo plano, corrige varios problemas de informe de estado del agente y optimiza el uso de tokens en flujos de trabajo de revisión de código.
Los investigadores presentan MotifGen, un modelo generativo diseñado para la interpolación espacio-temporal de imágenes de microondas de ciclones tropicales a partir de múltiples fuentes geoespaciales con intervalos de tiempo irregulares y desalineación geográfica. El modelo aborda el desafío de la alta heterogeneidad en los datos de microondas combinando entradas de varios instrumentos para llenar los vacíos causados por los largos tiempos de revisita satelital.
Este artículo presenta dos esquemas numéricos basados en redes neuronales para resolver sistemas de ecuaciones diferenciales estocásticas backward acopladas ergódicas (eBSDEs), motivado por la aproximación de estrategias óptimas en modelos de factores estocásticos con cambio de régimen.
Este artículo presenta el conjunto de datos PROTECT-90, una referencia de benchmark simulada por transitorios electromagnéticos (EMT) y de acceso abierto diseñada para abordar la falta de conjuntos de datos de formas de onda de alta tensión estandarizados y disponibles públicamente para la protección de sistemas eléctricos. El lanzamiento tiene como objetivo permitir una evaluación transparente y reproducible de métodos basados en datos mediante mediciones consistentes similares a las de registradores digitales de fallos.
Este estudio propone dos estrategias dinámicas de programación agnósticas al hardware, un agente de Aprendizaje por Refuerzo libre de modelos y un método de Predición Aproximada sobre la marcha, para gestionar la energía volátil en sistemas IoT sin batería sin perfiles previos de tareas. Evaluadas frente a líneas base adaptativas y estáticas utilizando un marco de simulación personalizado, la investigación destaca compensaciones operativas distintas para diferentes restricciones del sistema.
Los autores presentan OVBEVSeg, un marco para la segmentación en vista de pájaro (BEV) de vocabulario abierto que utiliza modelos de visión-lenguaje para reconocer categorías más allá del conjunto de entrenamiento mientras mantiene una eficiencia en tiempo real. Para abordar la inconsistencia geométrica 3D inherente al elevar semánticas 2D a BEV, el método emplea restricciones geométricas 3D robustas a través de tres etapas progresivas.
Los autores presentan PHANTOM, un conjunto de datos abierto y a gran escala que contiene 47.524 ataques adversarios pregenerados diseñados para evaluar la seguridad y robustez de los modelos de visión y lenguaje (VLMs). Este recurso consolida las evaluaciones existentes y las extiende con nuevas categorías para proporcionar datos de evaluación diversos y prácticos para la comunidad investigadora.
Los autores proponen H-Res (Dirección Residual Jerárquica), un mecanismo que adapta grandes modelos Transformer modulando su paisaje de energía efectivo sin alterar el equilibrio global ni expandir la longitud de la secuencia. Este enfoque formula la adaptación como un problema de control en la variedad de activaciones para dirigir las trayectorias de tokens hacia cuencas de atracción específicas de la tarea.
Este artículo presenta RE4, un marco para el aprendizaje por imitación que combina teorías fundamentadas de manipulación con benchmarks modernos para preservar tanto el rendimiento como la interpretabilidad en tareas de interacción con objetos. El enfoque utiliza estimación de pose ligera y auto-supervisada, junto con transformaciones conscientes del modo, para recuperar y replanificar demostraciones de manera efectiva.
LongCat-2.0 se presenta como un modelo de lenguaje MoE (Mixture of Experts) a gran escala con 1,6 billones de parámetros en total y aproximadamente 48 mil millones activados por token.
Este trabajo introduce identificadores naturales (NIDs), que son cadenas aleatorias estructuradas como hashes criptográficos y URLs acortadas encontradas en los datos de entrenamiento de LLM, para abordar los desafíos de auditar la privacidad de los modelos de lenguaje grandes. Los NIDs permiten auditorías escalables de privacidad diferencial post-hoc sin costoso reentrenamiento y facilitan la inferencia de conjuntos de datos sin requerir conjuntos de datos privados retenidos.
Este artículo investiga si el aumento parcial de datos puede lograr los mismos beneficios estadísticos que el aumento completo, desarrollando un marco basado en el análisis de Fourier y la teoría de representaciones de grupos finitos.
Este artículo presenta PCFM, un enfoque de coincidencia de flujos para la finalización de nubes de puntos médicas que integra Point Transformer v3 (PTv3) con modelado generativo de tiempo continuo. El método se evalúa en los conjuntos de datos SkullFix, SkullBreak y Mandibular Defect para evaluar su rendimiento en tareas de reconstrucción anatómica.
Los investigadores han desarrollado un modelo agnóstico para la Zona Habitable Fotosintética (PHZ) basado en termodinámica y química redox, eliminando los sesgos antropocéntricos encontrados en estimaciones anteriores. Al optimizar una reacción fotoquímica genérica contra espectros de irradiación de exoplanetas utilizando un algoritmo genético, el estudio predice que la viabilidad fotosintética disminuye linealmente con la distancia orbital en lugar de cuadráticamente.
Este artículo propone un marco de aprendizaje por transferencia de dos etapas guiado por conocimiento para abordar los desafíos del diagnóstico de fallos en rodamientos que involucran heterogeneidad de conjuntos de datos, variaciones en las condiciones de operación y datos etiquetados limitados. El enfoque utiliza un Transformador ligero estilo GPT-2 con autoatención causal para la extracción jerárquica de características a partir de señales de vibración.
CrossPool es un motor de servicio diseñado para modelos Mixture-of-Experts (MoE) en frío que aborda las ineficiencias de memoria GPU separando los pesos FFN y el KV-cache en pools distintos. Esta disgregación permite al sistema consolidar los pesos estáticos mientras aprovisiona dinámicamente la demanda activa de KV-cache, superando las limitaciones de la asignación monolítica de memoria.
Este estudio realiza una reevaluación rigurosa de nueve Modelos Fundacionales de Grafos (GFMs) recientes para la predicción de propiedades de nodos con el fin de abordar la falta de estándares de evaluación unificados en el campo. Los autores comparan estos modelos contra puntos de referencia sólidos de Redes Neuronales de Grafos (GNN) para determinar su rendimiento relativo y eficiencia.
Este artículo reinterpreta los Modelos de Lenguaje Grandes como Memorias Asociativas Densas de alta dimensión donde el razonamiento correcto corresponde a cuencas de atracción profundas en el paisaje de energía. Los autores introducen un mecanismo de recuperación que muestrea múltiples trayectorias de razonamiento y las pondera por energía inversa para aproximar la distribución de equilibrio.