Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 119

video-SALMONN-R3: Comprensión eficiente de vídeo mediante aprendizaje por refuerzo

El artículo presenta video-SALMONN-R$^3$, un modelo de lenguaje grande para vídeo de extremo a extremo que permite el re-visualización eficiente de segmentos de vídeo mediante aprendizaje por refuerzo, sin depender de datos de cadena de pensamiento. Este enfoque aborda las limitaciones computacionales y de memoria que típicamente obligan a los modelos a utilizar tasas de fotogramas reducidas y resoluciones espaciales.

arxiv arXiv cs.AI · hace 3 h

Marco de aprendizaje automático adaptativo para la optimización de trayectorias de UAV en O-RAN

Este artículo presenta un marco novedoso para optimizar las trayectorias de vehículos aéreos no tripulados (UAV) en sistemas celulares 6G, integrando aprendizaje continuo mejorado dentro de la arquitectura O-RAN. El sistema utiliza una biblioteca de modelos preentrenados y un mecanismo de selección para minimizar el tiempo de adaptación al operar en entornos dinámicos.

arxiv arXiv cs.AI · hace 3 h

RetiSEM: Generalización de Modelos Causales para Datos Biomédicos Fragmentados

Los autores proponen RetiSEM, un marco de modelado de ecuaciones estructurales con restricciones de dominio diseñado para recuperar grafos causales y realizar análisis de mediación utilizando datos biomédicos fragmentados con recursos multimodales limitados. El método organiza las variables en bloques informados biológicamente y aplica restricciones de aristas prohibidas para descomponer los efectos a nivel de vía.

arxiv arXiv cs.AI · hace 3 h

Red-Teaming del Red-Team Agéntico

Este trabajo presenta el primer análisis de seguridad en profundidad de sistemas agénticos ampliamente utilizados para operaciones de seguridad ofensiva, revelando defectos de diseño comunes que permiten a los adversarios exfiltrar claves de API y comprometer las máquinas del operador incluso dentro de sandboxes.

arxiv arXiv cs.AI · hace 3 h

CrossPool: Servicio eficiente de múltiples LLM para modelos MoE en frío mediante la disgregación de KV-Cache y pesos

CrossPool es un motor de servicio diseñado para modelos Mixture-of-Experts (MoE) en frío que disgrega los pesos FFN y el KV-cache en pools separados de memoria GPU para abordar las ineficiencias de memoria en escenarios de solicitudes dispersas. Al consolidar los pesos estáticos y aprovisionar dinámicamente la demanda activa de KV-cache, el sistema tiene como objetivo mejorar la utilización de la memoria GPU y admitir solicitudes de contexto largo con ráfagas.

media r/LocalLLaMA · hace 3 h

El modelo abliterado de HuiHui supera al vanilla 3.6-35B-a3b en matemáticas y código

Una receta de cuantización personalizada aplicada al modelo abliterado de HuiHui demuestra un rendimiento superior en comparación con la variante vanilla 3.6-35B-a3b en tareas de matemáticas y programación. Los resultados sugieren que eliminar los mecanismos de rechazo permite al modelo lograr mayor precisión y sabiduría en estos dominios.

media r/LocalLLaMA · hace 3 h

Amodei: "Los modelos de código abierto se comerán a tus hijos"

Esta publicación de Reddit comparte una imagen que contiene la cita "Los modelos de código abierto se comerán a tus hijos" atribuida a Amodei. El contenido consiste en un enlace a la imagen y un enlace al hilo de comentarios asociado en r/LocalLLaMA.

media r/LocalLLaMA · hace 3 h

Amodei de Anthropic: Los modelos de código abierto podrían ser peligrosos

Dario Amodei, CEO de Anthropic, ha expresado preocupaciones de que los modelos de IA de código abierto puedan llevar a resultados peligrosos. La declaración destaca los riesgos potenciales asociados con el acceso sin restricciones a tecnologías avanzadas de inteligencia artificial.

arxiv arXiv cs.AI · hace 4 h

Sobre la pequeñez de los exponentes de escalado de los modelos de lenguaje grandes

El artículo analiza las razones por las que los exponentes de escalado de las aplicaciones actuales de Modelos de Lenguaje Grande indican un régimen insostenible en cuanto a recursos energéticos.

arxiv arXiv cs.AI · hace 4 h

Una evaluación justa de modelos fundacionales de grafos para la predicción de propiedades de nodos

Este estudio realiza una reevaluación rigurosa de nueve Modelos Fundacionales de Grafos (GFMs) recientes para la predicción de propiedades de nodos, comparándolos con líneas base sólidas de Redes Neuronales de Grafos (GNN) para abordar la falta de estándares de evaluación unificados en el campo.

arxiv arXiv cs.AI · hace 4 h

RaDaR: Un LLM de razonamiento especializado para acelerar el diagnóstico de enfermedades raras

Los investigadores presentan RaDaR, un modelo de lenguaje grande (LLM) de código abierto con 32B parámetros diseñado para acelerar el diagnóstico de enfermedades raras abordando desafíos en la implementabilidad clínica y la escasez de datos. El modelo fue entrenado con casi 50,000 casos públicos y más de 100,000 casos sintéticos, demostrando un rendimiento superior en benchmarks y centros de validación externa.

arxiv arXiv cs.AI · hace 4 h

Aprendizaje por Refuerzo para Agentes de Uso Informático con Evaluación Autónoma

Los autores proponen un marco de ajuste fino basado en aprendizaje por refuerzo que utiliza la evaluación autónoma de visión y lenguaje como una señal de supervisión escalable para agentes de GUI, eliminando la necesidad de etiquetas manuales o heurísticas específicas de la tarea. Al tratar los comentarios del evaluador como un canal de recompensa binario ruidoso y derivar un estimador corregido por ruido para la Optimización de Política Próxima (Proximal Policy Optimization), el método aborda la dificultad de obtener recompensas legibles por máquina en entornos de escritorio de propósito general.

arxiv arXiv cs.AI · hace 4 h

AdversaBench: Red-teaming automatizado de LLM con confirmación de múltiples jueces y transferibilidad entre modelos

Los autores presentan AdversaBench, una pipeline de red-teaming end-to-end que genera entradas difíciles para grandes modelos de lenguaje utilizando cinco operadores de mutación estructurados y confirma fallos mediante un panel de tres jueces con desempate por un meta-juez.

media r/LocalLLaMA · hace 4 h

Samsung, SK Hynix y Micron demandados en EE. UU. por fijación de precios de memoria

Se ha presentado una demanda en Estados Unidos contra los principales fabricantes de chips de memoria Samsung, SK Hynix y Micron por alegaciones de fijación de precios.

blog Simon Willison · hace 4 h

Ornith-1.0: Autoandamiaje de LLMs para Codificación Agéntica

DeepReinforce ha lanzado Ornith-1.0, un modelo de pesos abiertos con licencia MIT que alcanza un rendimiento de vanguardia entre los modelos de código abierto de tamaño comparable en benchmarks de codificación. El modelo se basa en las bases preentrenadas Gemma 4 y Qwen 3.5 e incluye variantes con recuentos de parámetros de 9B Dense, 31B Dense, 35B MoE y 397B MoE.

media r/LocalLLaMA · hace 4 h

Artículo de Arxiv en espera durante 2 meses.

Un investigador que presenta su primer artículo en arXiv informa que el manuscrito ha estado bajo revisión por moderadores durante dos meses a pesar de pasar las verificaciones automáticas de calificación. El autor pregunta si este retraso es normal y solicita consejos sobre si volver a enviar o continuar esperando.

github llama.cpp · hace 4 h

Lanzamiento b9842 de llama.cpp: deduplicación de presets y entradas de modelo en caché en /v1/models

El lanzamiento b9842 de llama.cpp introduce un cambio para deduplicar las entradas de preset y de modelo en caché en el endpoint /v1/models. Esta actualización está firmada por Adrien Gallouët de Hugging Face.

arxiv arXiv cs.AI · hace 5 h

Póster: Explorando los límites de la detección basada en audio de estafas telefónicas turcas

Esta investigación investiga el uso de modelos de lenguaje grandes para detectar llamadas telefónicas fraudulentas en turco, un idioma con pocos recursos donde los datos anotados son escasos. El estudio presenta el primer conjunto de datos multimodal público que contiene 100 pares alineados de audio y transcripción de conversaciones fraudulentas y benignas.

arxiv arXiv cs.AI · hace 5 h

Memoria compartida gobernada para sistemas LLM multi-agente

Este artículo formaliza el problema de la memoria de flota en entornos LLM multi-agente, identificando cuatro modos fundamentales de fallo: fuga no autorizada, propagación obsoleta, persistencia de contradicciones y colapso de procedencia. Para abordar estos problemas, los autores definen primitivas explícitas a nivel del sistema que incluyen recuperación con ámbito, supresión temporal, seguimiento de procedencia y propagación de memoria gobernada por políticas.

arxiv arXiv cs.AI · hace 5 h

Convergencia Cuántica: Uniendo la Inversión en Valor Clásica con los Modelos de Factores Modernos

Esta investigación prueba si las reglas clásicas de inversión en valor de Benjamin Graham pueden actuar como un filtro matemático para evitar que los modelos complejos de aprendizaje automático memoricen el ruido del mercado. El estudio compara las reglas puras de Graham, los factores modernos y una combinación de ambos contra los modelos XGBoost y AutoGluon utilizando 20 años de datos del S&P 500.