Todos los artículos — korshunov.ai

Todos los artículos Página 8 / 33

Discrepancia entre el rendimiento de Llama Bench y el del mundo real

El usuario reporta una brecha significativa entre los resultados de las pruebas de Llama y el rendimiento real del modelo. Las pruebas muestran 754 tk/s de prefill y 36 tk/s de generación, pero el uso real revela solo 7.98 tokens por segundo, con alta latencia y bajo throughput. La discrepancia se atribuye a las condiciones de uso en el mundo real, no a la configuración de las pruebas, lo que sugiere que el rendimiento real del modelo está muy por debajo de la velocidad medida en las pruebas.

media r/LocalLLaMA · hace 1 h En vivo

Agente LLM Local Ahora Genera Imágenes y Video Sin Conexión

Un usuario compartió que su agente LLM local fue equipado con herramientas MCP para generar imágenes y videos directamente. El sistema opera completamente sin conexión y es gratuito, con detalles y código fuente disponibles en los comentarios.

media r/LocalLLaMA · hace 1 h En vivo

Disponibilidad de la versión local de Le Chaton Fat Flash

Los usuarios muestran interés en una versión local "flash" de Le Chaton Fat por privacidad y soberanía. La comunidad está pidiendo actualizaciones sobre cuándo estará disponible dicha versión ligera local.

media r/LocalLLaMA · hace 1 h En vivo

Modelos de ML recomendados para MacBook Pro con chip M5 Max y 128GB de RAM

El usuario solicita recomendaciones de modelos para su MacBook Pro de 16 pulgadas con chip M5 Max y 128GB de RAM. Actualmente ejecuta Qwen 3.6 35B a3b a través del agente Hermes y LM Studio, señalando la idoneidad de los modelos MLX en Apple Silicon.

media r/LocalLLaMA · hace 1 h En vivo

Keye-VL-2.0-30B-A3B se lanza con capacidades avanzadas de comprensión de video y agente

Keye-VL-2.0-30B-A3B es un modelo multimodal de 30B de parámetros diseñado para la comprensión de videos largos y funcionalidad de agente. Supera a los rivales de código abierto y iguala a Gemini-3-Flash en anclaje temporal, admite hasta 256K de contexto con razonamiento casi sin pérdida, e incluye capacidades integradas para flujos de trabajo de agentes de código, herramientas y búsqueda web.

arxiv arXiv cs.CL · hace 1 h En vivo

Alineación fallida en LLMs: Un estudio cuantitativo

Un nuevo estudio presenta VETO, un conjunto de datos de 2.032 pares contrastivos derivados de BBQ, para cuantificar la alineación fallida en modelos de lenguaje grandes. Define la Tasa de Alineación Fallida (MAR) y encuentra que todos los LLMs evaluados exhiben MARs entre 4.7% y 18.9%, mientras que los participantes humanos logran 0%. La investigación muestra que las señales de alineación pueden amplificar estos fallos, con supresión de evidencia que ocurre en las capas tardías de los modelos y emerge después del entrenamiento por instrucciones.

media r/LocalLLaMA · hace 2 h

¿Alguien tiene suficiente capacidad de cómputo para crear un conjunto de datos de destilación a partir de GLM5.2?

Un usuario pregunta si alguien con recursos informáticos suficientes puede crear un gran conjunto de datos de destilación de 70-1 millones de ejemplos a partir de GLM5.2. El objetivo es permitir un mejor entrenamiento de modelos más pequeños como Qwen3.5, beneficiando a la comunidad en general.

media r/LocalLLaMA · hace 2 h

LocalLLaMA propone un conjunto de datos de programación colaborativo

Una iniciativa comunitaria sugiere crear un conjunto de datos de programación colaborativo para habilitar el desarrollo de LLMs locales. La propuesta busca permitir que cualquier persona con hardware pueda contribuir con datos, mientras que usuarios con mayor capacidad ayuden a ajustar o cuantificar modelos, reduciendo así la dependencia de los modelos publicados por las empresas.

media r/LocalLLaMA · hace 2 h

¿En qué has estado trabajando últimamente?

Un usuario de Reddit le pregunta a la comunidad sobre sus proyectos recientes, señalando que mientras las discusiones se centran en herramientas, hay poca información sobre las aplicaciones reales o el trabajo que se está realizando con esas herramientas.

media r/LocalLLaMA · hace 2 h

Reseña de GLM-5.2 y respuesta a la censura

GLM-5.2 demuestra una coherencia excepcional en contextos largos y fluidez conversacional, superando a Gemini-3.1-Pro en tareas solo de texto e igualando a GPT-5.5 en calidad de razonamiento. El modelo responde de manera factual a temas sensibles como Taiwán y la Plaza de Tiananmén, proporcionando contexto histórico detallado sin censura explícita, aunque se adhiere a las directrices de contenido del gobierno chino.

media r/LocalLLaMA · hace 2 h

El efecto del aumento de precios es salvaje

Una publicación en Reddit discute el posible lanzamiento de Q.01, señalando que la precisión ya no es una prioridad. La publicación destaca un fenómeno denominado 'efecto del aumento de precios' como significativo e inesperado.

media r/LocalLLaMA · hace 2 h

Los CEOs de Anthropic y Google DeepMind piden una coalición de IA liderada por EE.UU. en el G7

Los CEOs de Anthropic y Google DeepMind instaron a la formación de una coalición de IA liderada por EE.UU. durante una reunión del G7. Los líderes enfatizaron la necesidad de esfuerzos globales coordinados para garantizar un desarrollo y gobernanza responsables de la IA.

media r/LocalLLaMA · hace 2 h

Evaluación de pequeños LLMs en extracción de datos HTML compleja

Un usuario evaluó modelos de 2B a 35B parámetros en 29 páginas difíciles de extracción de datos HTML, encontrando que modelos más pequeños como gemma4 e2b y e4b superan a los más grandes. Qwen3.6 27B lideró en rendimiento, mientras que todos los modelos MOE obtuvieron malos resultados, destacando la importancia de la evaluación específica para cada tarea.

arxiv arXiv cs.CL · hace 2 h

Dango: Un LLM estrictamente L1 para investigación de AAL

Dango es un LLM de 1.8B parámetros diseñado para estudiar la adquisición de una segunda lengua del japonés al inglés. Utiliza un método de filtrado para minimizar la contaminación en inglés durante el preentrenamiento monolingüe, preservando la exposición realista a L1. Ajustado finamente con lecciones generadas por LLM, Dango produce salidas L2 similares a las humanas, superando a los modelos multilingües sin filtrar y estándar.

github vLLM · hace 2 h

v0.24.0

La versión v0.24.0 incluye una actualización de integración continua para aumentar el tiempo de espera inicial de GSM8K en las configuraciones MoE Refactor Qwen3 NVFP4.

arxiv arXiv cs.CL · hace 2 h

LLM como interfaz, ML como predictor para apendicitis pediátrica

ClaMPAPP, un sistema híbrido, utiliza un LLM para extraer características clínicas estructuradas de notas de texto libre y las pasa a un clasificador XGBoost para el diagnóstico. Superó a los LLM de extremo a extremo tanto en validación interna como externa, con mayor estabilidad y menos casos de apendicitis no detectados, demostrando un rendimiento diagnóstico y una seguridad superiores en la triaje pediátrica.

arxiv arXiv cs.CL · hace 2 h

RECOM: Compromiso entre validez y discriminación en métricas de QA de Reddit

RECOM evalúa 15,000 preguntas de r/AskReddit con respuestas auténticas de la comunidad publicadas después del entrenamiento del modelo. Muestra que ningún métrica automática logra simultáneamente una fuerte validez y poder discriminatorio, con BERTScore clasificando débilmente a los modelos incluso cuando se controla la longitud. El compromiso surge del diseño de representación, no de diferencias entre modelos, y requiere informar tanto la validez como la discriminación con umbrales mínimos basados en aleatoriedad.

arxiv arXiv cs.CL · hace 2 h

STARE: Reponderación de ventajas a nivel de token guiada por sorpresividad para la estabilidad de la entropía de la política

STARE aborda el colapso de la entropía de la política en el aprendizaje por refuerzo basado en GRPO identificando subconjuntos de tokens críticos para la entropía mediante cuantiles de sorpresividad y reponderando sus ventajas. Mantiene una entropía de la política estable a través de escalas de modelos y tareas, superando a DAPO y otras líneas base entre un 4% y un 8% en AIME24 y AIME25, con un equilibrio consistente entre exploración y explotación.

arxiv arXiv cs.CL · hace 2 h

DreamReasoner-8B: Aprendizaje de currículo por tamaño de bloque para razonamiento con difusión

DreamReasoner-8B es un modelo de difusión por bloques de código abierto que demuestra una sólida capacidad de razonamiento en cadenas largas de pensamiento. Un estudio sistemático muestra que los tamaños pequeños de bloques de entrenamiento preservan la efectividad del razonamiento, mientras que los tamaños grandes degradan el rendimiento. El aprendizaje de currículo por tamaño de bloque transita gradualmente el entrenamiento desde bloques finos hasta gruesos, permitiendo un razonamiento robusto y generalizable en diferentes configuraciones de inferencia, con resultados competitivos frente a Qwen3-8B en benchmarks matemáticos y de código.

arxiv arXiv cs.CL · hace 2 h

Gibbs de Lenguaje Grande para Inferencia Probabilística Estructurada

Gibbs de Lenguaje Grande utiliza distribuciones condicionales de LLM como operadores de transición para el remuestreo iterativo de variables. Este método permite una inferencia estructurada probabilísticamente coherente al evitar sesgos dependientes del orden y lograr una distribución estacionaria que equilibra los condicionales locales. Demuestra eficacia práctica en distribuciones sintéticas, razonamiento consistente y aprendizaje de estructura bayesiana.