¡Efecto de GLM 5.2 !!
Un usuario de Reddit compartió una imagen titulada "Efecto de GLM 5.2 !!" en el subreddit r/LocalLLaMA.
Un usuario de Reddit compartió una imagen titulada "Efecto de GLM 5.2 !!" en el subreddit r/LocalLLaMA.
El autor argumenta que la comunidad de código abierto debería priorizar la construcción de un conjunto de datos masivo y de alta calidad para el pre-entrenamiento, en lugar de intentar coordinar el entrenamiento descentralizado de LLM en GPUs domésticas. Este cambio se presenta como una respuesta más práctica e inmediata a las recientes prohibiciones gubernamentales sobre modelos frontier comerciales y a la escasez de lanzamientos de pesos abiertos pequeños y medianos.
Bolt Graphics está desarrollando una GPU que incluye dos ranuras SODIMM DDR5 para memoria de desbordamiento, con el objetivo de alcanzar la producción completa para Navidad de 2027. La compañía tiene prototipos funcionales y dirige a los creadores como su audiencia inicial.
Este estudio propone un marco probabilístico para el modelado longitudinal de la progresión de la enfermedad de Alzheimer que combina la predicción ordinal del diagnóstico, la generación de trayectorias multi-horizonte y la estimación descompuesta de la incertidumbre. El enfoque utiliza un codificador Temporal Fusion Transformer y una Red de Densidad de Mezclas autoregresiva para generar trayectorias probabilísticas a cinco años mientras cuantifica tanto la incertidumbre aleatoria como la epistémica.
El artículo presenta ScaleToT, un método que aprende razonamiento estructurado a partir de un pequeño subconjunto de usuarios y lo extiende a miles de millones de usuarios de baja actividad con perfiles dispersos. Combina un refinamiento de Tree-of-Thought guiado por entropía acotada con ajuste fino supervisado y optimización de la política de recompensa para transferir capacidades de razonamiento sin inferencia completa de LLM.
Este artículo aborda la abstracción de consultas en el acceso a datos basado en ontologías (OBDA) traduciendo las consultas de datos a la capa de ontología utilizando reglas existenciales y semántica de respuestas ciertas.
Este artículo investiga los desafíos de la verificación de Preguntas de Competencia (PC), un proceso donde las ontologías se evalúan contra preguntas en lenguaje natural para garantizar una modelación adecuada. Los autores analizan por qué las PC se vuelven difíciles y cómo un asistente de LLM puede apoyar a los usuarios durante esta evaluación.
Este artículo presenta una descripción categórica de la causalidad infinitesimal en categorías de Markov de Frobenius equipadas con semántica del fibrado tangente. Define la suficiencia causal mediante la compatibilidad de dos estructuras de Frobenius distintas: una que codifica operaciones clásicas de variables y otra que representa integrabilidad geométrica.
Los autores presentan Themis, un marco de prueba y evaluación habilitado para XAI que combina transparencia a través de la explicabilidad con alineación mediante retroalimentación humana para sistemas seguros de Aprendizaje por Refuerzo.
Los autores proponen un marco de trabajo multiagente que sanitiza el contenido recuperado en sistemas de Generación Aumentada por Recuperación (RAG) mediante reescritura semántica para prevenir fugas de privacidad causadas por prompts maliciosos. Al emplear tres agentes especializados para la extracción de privacidad, análisis semántico y reconstrucción, el enfoque elimina identificadores sensibles mientras preserva el significado central del texto.
El artículo presenta SAFARI, un marco diseñado para diagnosticar fallos en agentes autónomos reemplazando la carga lineal del contexto con un bucle de diagnóstico aumentado por herramientas. Este enfoque desacopla la precisión del diagnóstico de los límites contextuales arquitecturales utilizando herramientas especializadas y memoria a corto plazo para analizar segmentos de trayectoria.
Este artículo examina cómo las elecciones de diseño intencionales y pluralistas en plataformas digitales habilitadas por IA pueden producir visualizaciones que enfatizan los matices y las similitudes entre grupos, reduciendo así la polarización política. Destaca una iniciativa específica de tecnología deliberativa que mapea espacios de opinión de alta dimensión para revelar áreas tanto de consenso como de disenso entre poblaciones diversas.
JetBrains ha liberado como código abierto los modelos Mellum2, una serie de LLMs de 12B-2.5A entrenados desde cero para apuntar a una inferencia rápida en hardware H100/H200, así como a despliegues locales.
Los investigadores proponen CineCap, un marco que combina razonamiento estructurado con anclajes espaciotemporales y aprendizaje por refuerzo para mejorar la descripción de videos cinematográficos. El método fundamenta descripciones del lenguaje cinematográfico profesional en evidencia visual explícita, equilibrando la exhaustividad descriptiva y la corrección factual.
Anthropic ha lanzado Claude Tag, una nueva función de flujo de trabajo que permite a los equipos delegar tareas en Claude de forma asíncrona dentro de Slack. Posicionado como un cambio desde el chat individual hacia la colaboración en todo el equipo, la herramienta permite que Claude se una como miembro del equipo con acceso a canales seleccionados, herramientas y repositorios de código.
El consumo de energía representa el 40% de los gastos operativos para ejecutar una fábrica de IA, y el rendimiento por vatio se está convirtiendo en una métrica crítica de eficiencia que impacta directamente en los costos por token.
Un desarrollador comparte su experiencia al crear una capa de acceso web centralizada para gestionar las interacciones entre modelos de IA locales y servicios externos. Este enfoque aborda la carga de mantenimiento de construir integraciones individuales para cada nuevo proyecto de agente.
Investigadores de Red Hat y la NASA están desarrollando el Asistente Digital del Oficial Médico de la Tripulación (CMO-DA), un sistema de IA médica que ejecuta modelos de lenguaje grandes en hardware local con cero dependencia de la nube. Esta iniciativa aborda la inviabilidad de la telemedicina basada en la Tierra para astronautas en misiones a la Luna o Marte debido al retraso de luz y las interrupciones de comunicación.
Un usuario configuró con éxito una GPU NVIDIA H200 NVL en una estación de trabajo construida con la placa base ASUS WRX90E-SAGE SE y un procesador Threadripper de 64 núcleos, demostrando que los aceleradores de IA de gama alta pueden ejecutarse en hardware no orientado a servidores.
Un usuario probó la versión de 4 bits de GLM-5.2 (GLM-5.2-UD-Q4_K_XL) en un servidor equipado con un procesador Epyc Rome 7452 y 512GB de RAM. El modelo fue evaluado utilizando un prompt de codificación complejo que requería la creación de un juego de arena 3D autocontenido en HTML, CSS y JavaScript.