Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 119

Sobrerechazo de pequeños LLM locales en contexto legal penal

Un estudio investiga el impacto del sobrerechazo en modelos de lenguaje grandes pequeños, ejecutados en dispositivo, al procesar prompts legales, encontrando que los prefijos de estilo autoritario aumentan sistemáticamente las tasas de rechazo entre 2 y 20 veces en comparación con una línea base sin prefijo. Si bien los prefijos de jailbreak mediante role-play mostraron efectos mixtos en diferentes modelos, los resultados indican que estos pequeños LLM son inestables bajo encuadres contextuales típicos de usuarios institucionales reales.

arxiv arXiv cs.AI · hace 6 h

ASALT: Alineación adaptativa del estado para transferencia lateral en aprendizaje por refuerzo multiagente

Este artículo presenta ASALT, un método para el aprendizaje de transferencia lateral en el aprendizaje por refuerzo multiagente que se adapta a las dimensionalidades desiguales del espacio de estados entre los dominios de origen y destino. El enfoque utiliza adaptadores a nivel de observación y a nivel de estado para mapear las entradas en un espacio de incrustación compartido, lo que permite una transferencia efectiva del conocimiento entre entornos heterogéneos.

media r/LocalLLaMA · hace 6 h

Valor de GPU dual: paralelismo sobre tamaño del modelo para LLMs locales

El autor argumenta que actualizar de una a dos GPUs ofrece mayores beneficios mediante el procesamiento paralelo en lugar de habilitar el uso de cuantizaciones de modelos más grandes y de mayor calidad. Para tareas de programación, la diferencia de calidad entre las cuantizaciones Q4 y Q6/Q8 es mínima, haciendo que un mayor contexto y throughput sean más valiosos.

media r/LocalLLaMA · hace 6 h

¡Efecto de GLM 5.2 !!

Un usuario de Reddit compartió una imagen titulada "Efecto de GLM 5.2 !!" en el subreddit r/LocalLLaMA.

media r/LocalLLaMA · hace 6 h

Proponiendo un conjunto de datos abierto unificado en lugar de entrenamiento descentralizado de LLM

El autor argumenta que la comunidad de código abierto debería priorizar la construcción de un conjunto de datos masivo y de alta calidad para el pre-entrenamiento, en lugar de intentar coordinar el entrenamiento descentralizado de LLM en GPUs domésticas. Este cambio se presenta como una respuesta más práctica e inmediata a las recientes prohibiciones gubernamentales sobre modelos frontier comerciales y a la escasez de lanzamientos de pesos abiertos pequeños y medianos.

media r/LocalLLaMA · hace 6 h

La GPU de Bolt Graphics contará con 2 ranuras DIMM DDR5 para portátil

Bolt Graphics está desarrollando una GPU que incluye dos ranuras SODIMM DDR5 para memoria de desbordamiento, con el objetivo de alcanzar la producción completa para Navidad de 2027. La compañía tiene prototipos funcionales y dirige a los creadores como su audiencia inicial.

arxiv arXiv cs.AI · hace 7 h

Pronóstico longitudinal de la progresión de la enfermedad de Alzheimer con conciencia de incertidumbre utilizando aprendizaje profundo

Este estudio propone un marco probabilístico para el modelado longitudinal de la progresión de la enfermedad de Alzheimer que combina la predicción ordinal del diagnóstico, la generación de trayectorias multi-horizonte y la estimación descompuesta de la incertidumbre. El enfoque utiliza un codificador Temporal Fusion Transformer y una Red de Densidad de Mezclas autoregresiva para generar trayectorias probabilísticas a cinco años mientras cuantifica tanto la incertidumbre aleatoria como la epistémica.

arxiv arXiv cs.AI · hace 7 h

ScaleToT: Generalización del razonamiento estructurado de LLM para la modelización de usuarios de baja actividad a escala de miles de millones

El artículo presenta ScaleToT, un método que aprende razonamiento estructurado a partir de un pequeño subconjunto de usuarios y lo extiende a miles de millones de usuarios de baja actividad con perfiles dispersos. Combina un refinamiento de Tree-of-Thought guiado por entropía acotada con ajuste fino supervisado y optimización de la política de recompensa para transferir capacidades de razonamiento sin inferencia completa de LLM.

arxiv arXiv cs.AI · hace 7 h

Abstracciones de consultas en el acceso a datos basado en ontologías

Este artículo aborda la abstracción de consultas en el acceso a datos basado en ontologías (OBDA) traduciendo las consultas de datos a la capa de ontología utilizando reglas existenciales y semántica de respuestas ciertas.

arxiv arXiv cs.AI · hace 7 h

Cuando fallan las PC: Desafíos en la verificación de PC con asistencia de OE

Este artículo investiga los desafíos de la verificación de Preguntas de Competencia (PC), un proceso donde las ontologías se evalúan contra preguntas en lenguaje natural para garantizar una modelación adecuada. Los autores analizan por qué las PC se vuelven difíciles y cómo un asistente de LLM puede apoyar a los usuarios durante esta evaluación.

arxiv arXiv cs.AI · hace 7 h

Causalidad infinitesimal

Este artículo presenta una descripción categórica de la causalidad infinitesimal en categorías de Markov de Frobenius equipadas con semántica del fibrado tangente. Define la suficiencia causal mediante la compatibilidad de dos estructuras de Frobenius distintas: una que codifica operaciones clásicas de variables y otra que representa integrabilidad geométrica.

arxiv arXiv cs.AI · hace 7 h

Themis: Un marco de aprendizaje por refuerzo con retroalimentación humana habilitado para IA explicable

Los autores presentan Themis, un marco de prueba y evaluación habilitado para XAI que combina transparencia a través de la explicabilidad con alineación mediante retroalimentación humana para sistemas seguros de Aprendizaje por Refuerzo.

arxiv arXiv cs.AI · hace 7 h

RAG que preserva la privacidad mediante reescritura semántica multiagente

Los autores proponen un marco de trabajo multiagente que sanitiza el contenido recuperado en sistemas de Generación Aumentada por Recuperación (RAG) mediante reescritura semántica para prevenir fugas de privacidad causadas por prompts maliciosos. Al emplear tres agentes especializados para la extracción de privacidad, análisis semántico y reconstrucción, el enfoque elimina identificadores sensibles mientras preserva el significado central del texto.

arxiv arXiv cs.AI · hace 7 h

SAFARI: Escalar la atribución de fallos agénticos en horizontes largos mediante investigación activa

El artículo presenta SAFARI, un marco diseñado para diagnosticar fallos en agentes autónomos reemplazando la carga lineal del contexto con un bucle de diagnóstico aumentado por herramientas. Este enfoque desacopla la precisión del diagnóstico de los límites contextuales arquitecturales utilizando herramientas especializadas y memoria a corto plazo para analizar segmentos de trayectoria.

arxiv arXiv cs.AI · hace 7 h

Visualizar 'Nosotros el Pueblo': Cerrar la brecha de percepción mediante narrativas de datos pluralistas

Este artículo examina cómo las elecciones de diseño intencionales y pluralistas en plataformas digitales habilitadas por IA pueden producir visualizaciones que enfatizan los matices y las similitudes entre grupos, reduciendo así la polarización política. Destaca una iniciativa específica de tecnología deliberativa que mapea espacios de opinión de alta dimensión para revelar áreas tanto de consenso como de disenso entre poblaciones diversas.

media r/LocalLLaMA · hace 7 h

Despliegues locales de Mellum2

JetBrains ha liberado como código abierto los modelos Mellum2, una serie de LLMs de 12B-2.5A entrenados desde cero para apuntar a una inferencia rápida en hardware H100/H200, así como a despliegues locales.

arxiv arXiv cs.AI · hace 8 h

CineCap: Razonamiento estructurado con anclajes espaciotemporales para la descripción de videos cinematográficos

Los investigadores proponen CineCap, un marco que combina razonamiento estructurado con anclajes espaciotemporales y aprendizaje por refuerzo para mejorar la descripción de videos cinematográficos. El método fundamenta descripciones del lenguaje cinematográfico profesional en evidencia visual explícita, equilibrando la exhaustividad descriptiva y la corrección factual.

media AI News (smol.ai) · hace 8 h

Anthropic lanza Claude Tag, una herramienta de delegación asíncrona nativa para Slack

Anthropic ha lanzado Claude Tag, una nueva función de flujo de trabajo que permite a los equipos delegar tareas en Claude de forma asíncrona dentro de Slack. Posicionado como un cambio desde el chat individual hacia la colaboración en todo el equipo, la herramienta permite que Claude se una como miembro del equipo con acceso a canales seleccionados, herramientas y repositorios de código.

lab NVIDIA Technical Blog · hace 8 h

Maximice la eficiencia energética de su fábrica de IA mediante optimizaciones de inferencia y entrenamiento de extremo a extremo

El consumo de energía representa el 40% de los gastos operativos para ejecutar una fábrica de IA, y el rendimiento por vatio se está convirtiendo en una métrica crítica de eficiencia que impacta directamente en los costos por token.

media r/LocalLLaMA · hace 8 h

Construyendo una capa de acceso web para agentes de IA locales

Un desarrollador comparte su experiencia al crear una capa de acceso web centralizada para gestionar las interacciones entre modelos de IA locales y servicios externos. Este enfoque aborda la carga de mantenimiento de construir integraciones individuales para cada nuevo proyecto de agente.