Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 121

Valor de GPU dual: paralelismo sobre tamaño del modelo para LLMs locales

El autor argumenta que actualizar de una a dos GPUs ofrece mayores beneficios mediante el procesamiento paralelo en lugar de habilitar el uso de cuantizaciones de modelos más grandes y de mayor calidad. Para tareas de programación, la diferencia de calidad entre las cuantizaciones Q4 y Q6/Q8 es mínima, haciendo que un mayor contexto y throughput sean más valiosos.

media r/LocalLLaMA · hace 10 h

¡Efecto de GLM 5.2 !!

Un usuario de Reddit compartió una imagen titulada "Efecto de GLM 5.2 !!" en el subreddit r/LocalLLaMA.

media r/LocalLLaMA · hace 10 h

Proponiendo un conjunto de datos abierto unificado en lugar de entrenamiento descentralizado de LLM

El autor argumenta que la comunidad de código abierto debería priorizar la construcción de un conjunto de datos masivo y de alta calidad para el pre-entrenamiento, en lugar de intentar coordinar el entrenamiento descentralizado de LLM en GPUs domésticas. Este cambio se presenta como una respuesta más práctica e inmediata a las recientes prohibiciones gubernamentales sobre modelos frontier comerciales y a la escasez de lanzamientos de pesos abiertos pequeños y medianos.

media r/LocalLLaMA · hace 10 h

La GPU de Bolt Graphics contará con 2 ranuras DIMM DDR5 para portátil

Bolt Graphics está desarrollando una GPU que incluye dos ranuras SODIMM DDR5 para memoria de desbordamiento, con el objetivo de alcanzar la producción completa para Navidad de 2027. La compañía tiene prototipos funcionales y dirige a los creadores como su audiencia inicial.

arxiv arXiv cs.AI · hace 11 h

Pronóstico longitudinal de la progresión de la enfermedad de Alzheimer con conciencia de incertidumbre utilizando aprendizaje profundo

Este estudio propone un marco probabilístico para el modelado longitudinal de la progresión de la enfermedad de Alzheimer que combina la predicción ordinal del diagnóstico, la generación de trayectorias multi-horizonte y la estimación descompuesta de la incertidumbre. El enfoque utiliza un codificador Temporal Fusion Transformer y una Red de Densidad de Mezclas autoregresiva para generar trayectorias probabilísticas a cinco años mientras cuantifica tanto la incertidumbre aleatoria como la epistémica.

arxiv arXiv cs.AI · hace 11 h

ScaleToT: Generalización del razonamiento estructurado de LLM para la modelización de usuarios de baja actividad a escala de miles de millones

El artículo presenta ScaleToT, un método que aprende razonamiento estructurado a partir de un pequeño subconjunto de usuarios y lo extiende a miles de millones de usuarios de baja actividad con perfiles dispersos. Combina un refinamiento de Tree-of-Thought guiado por entropía acotada con ajuste fino supervisado y optimización de la política de recompensa para transferir capacidades de razonamiento sin inferencia completa de LLM.

arxiv arXiv cs.AI · hace 11 h

Abstracciones de consultas en el acceso a datos basado en ontologías

Este artículo aborda la abstracción de consultas en el acceso a datos basado en ontologías (OBDA) traduciendo las consultas de datos a la capa de ontología utilizando reglas existenciales y semántica de respuestas ciertas.

arxiv arXiv cs.AI · hace 11 h

Cuando fallan las PC: Desafíos en la verificación de PC con asistencia de OE

Este artículo investiga los desafíos de la verificación de Preguntas de Competencia (PC), un proceso donde las ontologías se evalúan contra preguntas en lenguaje natural para garantizar una modelación adecuada. Los autores analizan por qué las PC se vuelven difíciles y cómo un asistente de LLM puede apoyar a los usuarios durante esta evaluación.

arxiv arXiv cs.AI · hace 11 h

Causalidad infinitesimal

Este artículo presenta una descripción categórica de la causalidad infinitesimal en categorías de Markov de Frobenius equipadas con semántica del fibrado tangente. Define la suficiencia causal mediante la compatibilidad de dos estructuras de Frobenius distintas: una que codifica operaciones clásicas de variables y otra que representa integrabilidad geométrica.

arxiv arXiv cs.AI · hace 11 h

Themis: Un marco de aprendizaje por refuerzo con retroalimentación humana habilitado para IA explicable

Los autores presentan Themis, un marco de prueba y evaluación habilitado para XAI que combina transparencia a través de la explicabilidad con alineación mediante retroalimentación humana para sistemas seguros de Aprendizaje por Refuerzo.

arxiv arXiv cs.AI · hace 11 h

RAG que preserva la privacidad mediante reescritura semántica multiagente

Los autores proponen un marco de trabajo multiagente que sanitiza el contenido recuperado en sistemas de Generación Aumentada por Recuperación (RAG) mediante reescritura semántica para prevenir fugas de privacidad causadas por prompts maliciosos. Al emplear tres agentes especializados para la extracción de privacidad, análisis semántico y reconstrucción, el enfoque elimina identificadores sensibles mientras preserva el significado central del texto.

arxiv arXiv cs.AI · hace 11 h

SAFARI: Escalar la atribución de fallos agénticos en horizontes largos mediante investigación activa

El artículo presenta SAFARI, un marco diseñado para diagnosticar fallos en agentes autónomos reemplazando la carga lineal del contexto con un bucle de diagnóstico aumentado por herramientas. Este enfoque desacopla la precisión del diagnóstico de los límites contextuales arquitecturales utilizando herramientas especializadas y memoria a corto plazo para analizar segmentos de trayectoria.

arxiv arXiv cs.AI · hace 11 h

Visualizar 'Nosotros el Pueblo': Cerrar la brecha de percepción mediante narrativas de datos pluralistas

Este artículo examina cómo las elecciones de diseño intencionales y pluralistas en plataformas digitales habilitadas por IA pueden producir visualizaciones que enfatizan los matices y las similitudes entre grupos, reduciendo así la polarización política. Destaca una iniciativa específica de tecnología deliberativa que mapea espacios de opinión de alta dimensión para revelar áreas tanto de consenso como de disenso entre poblaciones diversas.

media r/LocalLLaMA · hace 11 h

Despliegues locales de Mellum2

JetBrains ha liberado como código abierto los modelos Mellum2, una serie de LLMs de 12B-2.5A entrenados desde cero para apuntar a una inferencia rápida en hardware H100/H200, así como a despliegues locales.

arxiv arXiv cs.AI · hace 12 h

CineCap: Razonamiento estructurado con anclajes espaciotemporales para la descripción de videos cinematográficos

Los investigadores proponen CineCap, un marco que combina razonamiento estructurado con anclajes espaciotemporales y aprendizaje por refuerzo para mejorar la descripción de videos cinematográficos. El método fundamenta descripciones del lenguaje cinematográfico profesional en evidencia visual explícita, equilibrando la exhaustividad descriptiva y la corrección factual.

media AI News (smol.ai) · hace 12 h

Anthropic lanza Claude Tag, una herramienta de delegación asíncrona nativa para Slack

Anthropic ha lanzado Claude Tag, una nueva función de flujo de trabajo que permite a los equipos delegar tareas en Claude de forma asíncrona dentro de Slack. Posicionado como un cambio desde el chat individual hacia la colaboración en todo el equipo, la herramienta permite que Claude se una como miembro del equipo con acceso a canales seleccionados, herramientas y repositorios de código.

lab NVIDIA Technical Blog · hace 12 h

Maximice la eficiencia energética de su fábrica de IA mediante optimizaciones de inferencia y entrenamiento de extremo a extremo

El consumo de energía representa el 40% de los gastos operativos para ejecutar una fábrica de IA, y el rendimiento por vatio se está convirtiendo en una métrica crítica de eficiencia que impacta directamente en los costos por token.

media r/LocalLLaMA · hace 12 h

Construyendo una capa de acceso web para agentes de IA locales

Un desarrollador comparte su experiencia al crear una capa de acceso web centralizada para gestionar las interacciones entre modelos de IA locales y servicios externos. Este enfoque aborda la carga de mantenimiento de construir integraciones individuales para cada nuevo proyecto de agente.

media r/LocalLLaMA · hace 12 h

La NASA prueba la inferencia de LLM local para futuras misiones espaciales

Investigadores de Red Hat y la NASA están desarrollando el Asistente Digital del Oficial Médico de la Tripulación (CMO-DA), un sistema de IA médica que ejecuta modelos de lenguaje grandes en hardware local con cero dependencia de la nube. Esta iniciativa aborda la inviabilidad de la telemedicina basada en la Tierra para astronautas en misiones a la Luna o Marte debido al retraso de luz y las interrupciones de comunicación.

media r/LocalLLaMA · hace 12 h

Configurar una H200 NVL en hardware (semi) de consumo

Un usuario configuró con éxito una GPU NVIDIA H200 NVL en una estación de trabajo construida con la placa base ASUS WRX90E-SAGE SE y un procesador Threadripper de 64 núcleos, demostrando que los aceleradores de IA de gama alta pueden ejecutarse en hardware no orientado a servidores.