Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 37

La Universidad Estatal de Ohio lanza el agente de investigación profunda QUEST-35B de código abierto

El equipo de PLN de la Universidad Estatal de Ohio ha lanzado QUEST-35B, un agente de investigación profunda de código abierto entrenado en aproximadamente 32 GPUs H100 utilizando 8.000 muestras sintéticas. El equipo ha liberado como código abierto la receta de entrenamiento, el código, los pesos y los conjuntos de datos, con resultados de evaluación que muestran un rendimiento competitivo en comparación con los principales sistemas de investigación profunda de código cerrado.

media r/LocalLLaMA · hace 1 h En vivo

La Universidad Estatal de Ohio lanza el agente de investigación profunda QUEST-35B de código abierto

Los investigadores de la Universidad Estatal de Ohio entrenaron QUEST-35B, un agente de investigación profunda, utilizando aproximadamente 32 GPUs H100 y 8.000 muestras sintéticas. Han liberado como código abierto la receta de entrenamiento, el código, los pesos y los conjuntos de datos, con resultados de evaluación que muestran un rendimiento competitivo en comparación con los principales sistemas de investigación profunda propietarios.

media r/LocalLLaMA · hace 1 h En vivo

GLM-5.2 ahora puede ejecutarse localmente en llama.cpp y Unsloth Studio

GLM-5.2, el modelo abierto más potente hasta la fecha, ahora puede ejecutarse localmente usando llama.cpp y Unsloth Studio. El modelo cuantizado a 2 bits conserva ~82% de precisión tras reducir su tamaño de 1.51TB a 238GB, una reducción del 84%, y es compatible con configuraciones de 256GB de RAM o VRAM.

media r/LocalLLaMA · hace 1 h En vivo

Un poco tarde, gracias al equipo de DeepSeek

Un usuario agradeció al equipo de DeepSeek por lanzar DeepSeek V4 Pro y su versión Flash, que cabe en hardware local. La publicación se realizó siete meses después de una publicación inicial en Reddit.

media r/LocalLLaMA · hace 1 h En vivo

Chicos, Le Chaton Fat es real...

Le Chaton Fat ha sido requantizado en formato GGUF y pronto estará disponible en Hugging Face. Se recomienda a los usuarios instalar un comando pip específico para acceder al modelo, incluyendo banderas como --trust-remote y --just-do-it.

media r/LocalLLaMA · hace 1 h En vivo

¿Cómo puedo autoalojar la revisión de código?

Un usuario pregunta sobre el autoalojamiento de herramientas de revisión de código debido a que Gemini Code Assist finaliza el soporte para consumidores y se traslada exclusivamente al ámbito empresarial. Están explorando aplicaciones o acciones de GitHub para soluciones locales o basadas en la nube.

media r/LocalLLaMA · hace 1 h En vivo

SupraLabs lanza el modelo de visión y lenguaje SupraVL-Nano-900k

SupraLabs ha lanzado SupraVL-Nano-900k, un modelo de visión y lenguaje con 900k parámetros, completamente transparente, entrenado desde cero en Flickr8k. Cuenta con un codificador visual CNN, un decodificador estilo GPT-2 y fusión por concatenación de prefijos, con todos los componentes documentados abiertamente y diseñados para claridad educativa.

arxiv arXiv cs.CL · hace 1 h En vivo

El conjunto de datos RefRad2D permite la fundamentación espacial escalable en radiología

RefRad2D es un conjunto de datos bilingüe a gran escala de 1.2M pares de imagen-texto de TC y RM de la práctica clínica. Entrenado con estos datos, RadGrounder logra resultados competitivos en VQA y realiza fundamentación espacial sin degradar la calidad del lenguaje, permitiendo salidas verificables en radiología.

arxiv arXiv cs.CL · hace 1 h En vivo

Alineación de LLM usando retroalimentación implícita del usuario

Un nuevo conjunto de datos, IFLLM, recopila trayectorias del ratón y datos de fijación ocular de usuarios que interactúan con LLMs. Muestra que la retroalimentación implícita mejora significativamente la alineación de LLMs, aumentando la precisión del modelo de recompensa basado en texto del 55% al 64% y casi triplicando las mejoras en la calidad de respuesta después del entrenamiento DPO en ocho LLMs.

arxiv arXiv cs.CL · hace 1 h En vivo

H-RePlan: Recuperación jerárquica para sistemas de agentes multi-dispositivo

H-RePlan introduce un marco de replanificación jerárquica que separa la recuperación de estrategias locales del dispositivo de la replanificación global del orquestador. Supera a las líneas base existentes al lograr una mayor tasa de finalización y adherencia a las instrucciones, con menor costo en tokens, mediante una recuperación consciente del alcance en sistemas de agentes multi-dispositivo.

arxiv arXiv cs.CL · hace 2 h

StylisticBias: Las pistas visuales impulsan la mayoría de los sesgos sociales en MLLMs

StylisticBias introduce una prueba controlada para evaluar el sesgo social a nivel de atributos en modelos de lenguaje multimodales grandes. Revela que la edad y el tipo de cuerpo dominan los efectos a nivel de identidad, mientras que el estilo de moda y 15 atributos visuales clave impulsan la mayoría del sesgo, representando casi el 80% de la variación. La prueba destaca que los juicios del modelo son más sensibles a las pistas relacionadas con la apariencia, especialmente en contextos socioeconómicos y basados en estilo.

arxiv arXiv cs.CL · hace 2 h

LedgerAgent: Estado estructurado para agentes de llamada a herramientas adherentes a la política

LedgerAgent introduce un libro contable estructurado para mantener los estados de las tareas separados en agentes que llaman a herramientas. Convierte estos estados en prompts y aplica restricciones de políticas antes de la ejecución de las herramientas, reduciendo las violaciones de políticas y mejorando el rendimiento en dominios de atención al cliente.

media r/LocalLLaMA · hace 2 h

Experimento de viabilidad con Tesla P40 y diseño de refrigeración mejorado

Un usuario ha demostrado que las GPUs Tesla P40 pueden modificarse a una configuración de 8+6 pines y utilizarse con disipadores estándar de la 1080 TI. Diseñó un deflector de flujo de aire 2-1-2 que permite un rendimiento sostenido estable de 120-130W, previene el apagado térmico y reduce el ruido a aproximadamente 42dB, mejorando significativamente sobre las opciones de refrigeración existentes.

media r/LocalLLaMA · hace 2 h

¿SETI @ Home como motor de inferencia LLM distribuido?

SETI @ Home es un proyecto que utiliza computación distribuida para el análisis de datos de radiotelescopios. No se conoce ningún sistema existente que funcione como un motor de inferencia LLM distribuido bajo este nombre. La propuesta sugiere que tal sistema podría construirse, pero sigue siendo especulativo y no implementado.

arxiv arXiv cs.CL · hace 2 h

Los Transformers de CoT pueden simular eficientemente algoritmos de Word RAM

Los transformers de cadena de pensamiento (CoT) pueden simular eficientemente algoritmos de Word RAM con una sobrecarga solo polilogarítmica. Esta eficiencia mejora a log-cuadrado para conjuntos de instrucciones planos y logarítmico para aquellos sin multiplicación, en contraste con las simulaciones anteriores de máquinas de Turing que requieren una sobrecarga cuadrática.

arxiv arXiv cs.CL · hace 2 h

El Análisis de Sentimiento Pierde Resultados Clave del Cliente

Un estudio de 70.450 conversaciones de soporte encontró que el análisis de sentimiento captura pobremente la satisfacción del cliente, con estimaciones de satisfacción basadas en GPT-5.4 correlacionándose 0.47 con las calificaciones frente a los 0.36 del sentimiento. El modelo también reveló que en el 44% de las conversaciones el tono y la satisfacción divergen, exponiendo 'fricción tolerada'—clientes satisfechos que aún reportan problemas solucionables—invisibles para el análisis de sentimiento.

arxiv arXiv cs.CL · hace 2 h

TerraMARS: Pipeline de modelo de lenguaje pequeño para literatura sobre terraformación de Marte

TerraMARS es un pipeline de extremo a extremo que utiliza un modelo de lenguaje pequeño adaptado al dominio para extraer información estructurada de la literatura científica sobre Marte. Convierte texto no estructurado en formato JSON y soporta preguntas y respuestas relacionadas con la terraformación de Marte, permitiendo su integración en modelos de habitabilidad y aplicaciones de gemelo digital. El pipeline utiliza Google Gemma 3 1B ajustado finamente con QLoRA en conjuntos de datos específicos de Marte, aunque se necesita más trabajo para mejorar la precisión y la consistencia factual.

arxiv arXiv cs.CL · hace 2 h

NEST: Conjunto de datos para estructuras de eventos narrativos en videos largos

NEST presenta un conjunto de datos de 1005 películas completas, cada una anotada con 102 eventos narrativos multimodales fundamentados en contenido visual, diálogo y audio. El conjunto de datos captura relaciones de eventos como orden temporal, jerarquía y dependencias a largo alcance, con tareas de referencia que muestran bajo rendimiento en la detección y localización de eventos, y mayor rendimiento en la extracción de relaciones de eventos después del ajuste fino.

arxiv arXiv cs.CL · hace 2 h

FineREX: NER-RE ajustado para grafos de conocimiento sobre tráfico humano

FineREX es una pipeline de grafo de conocimiento específica del dominio que utiliza un LLM ajustado para la extracción de entidades nominales y relaciones. Supera a los modelos de propósito general en un 15,50% en F1-score de entidad y en un 31,46% en F1-score de relación, reduciendo el ruido legal casi a la mitad y la duplicación de nodos del 17,78% al 11.-17%. El sistema también reduce el tiempo de procesamiento de extremo a extremo en un 50,0% eliminando pasos redundantes.

arxiv arXiv cs.CL · hace 2 h

Presentación de P-CHR AUC y CRR para caché semántico

Introducimos el Índice de Precisión-Caché Hit Ratio (P-CHR) AUC y la Tasa de Retención de Calibración (CRR) para abordar la brecha de calibración en el caché semántico. Estas métricas evalúan la precisión a través de los niveles de utilización del caché y miden cómo persiste la calidad del ranking offline en el despliegue. Nuestro análisis muestra que la brecha está impulsada por los objetivos de entrenamiento, no por la escala de datos, y la calibración post-hoc solo la resuelve parcialmente.