cambio de vibra: puedo ver esto venir...
El contenido fuente proporcionado consiste únicamente en un título de publicación de Reddit y metadatos sin ningún texto de artículo ni información sustantiva acompañante.
El contenido fuente proporcionado consiste únicamente en un título de publicación de Reddit y metadatos sin ningún texto de artículo ni información sustantiva acompañante.
Un usuario de Reddit en la comunidad r/LocalLLaMA está considerando actualizar su hardware para mejorar la velocidad y capacidad de inferencia de los modelos Qwen, combinando una futura RTX 5080 con su actual RTX 4060. El usuario busca alcanzar al menos 20-40 tokens por segundo al ejecutar modelos Qwen 27B, utilizando los 24GB combinados de VRAM mediante división de tensores o capas en llama.cpp o vLLm. Está evaluando esta configuración asimétrica de doble GPU frente a otras opciones como la AMD R9700 AI Pro o 7900XTX, citando datos de benchmarks que sugieren ganancias de rendimiento limitadas para las tarjetas AMD en relación con su costo.
Un usuario ha publicado un explicador interactivo sobre el tema de la decodificación especulativa y la predicción de múltiples tokens (MTP). El recurso está disponible a través del enlace proporcionado en la publicación original.
Un usuario informa estar ejecutando Qwen3.6 27B MTP con llama.cpp en una estación de trabajo RTX PRO 6000 Blackwell para reducir la dependencia de Claude, señalando que el modelo es comparable a Sonnet pero sufre de problemas de estabilidad durante las sesiones de codificación.
Un usuario de Reddit está preguntando si otros han probado el modelo Ornith-1.0 9B. El usuario pregunta específicamente si debería considerar usarlo en lugar de las variantes Qwen2.5-9B.
Un usuario de Reddit argumenta que la divergencia de Kullback-Leibler (KL) es una métrica defectuosa para medir la diferencia entre un modelo abliterado y su versión base. El autor señala que KL puede representarse de muchas maneras, depende completamente de los prompts de evaluación y a menudo se manipula mediante KL del primer token para hacer que los modelos parezcan superiores.
Un usuario informa que usar el modo de división de tensor en llama.cpp provoca problemas de bucle con las llamadas a herramientas y los trazos de razonamiento al ejecutar los modelos Qwen 27B y Gemma 4 26B (MoE) entre una RTX 5080 y dos RTX 5060 Ti.
Un usuario de Reddit está pidiendo a la comunidad datos sobre cuánto tiempo se tarda en reanudar sesiones de agentes de codificación con contextos largos de 100k tokens o más. La consulta se dirige específicamente a usuarios que ejecutan estos agentes localmente.
Un usuario pregunta si ejecutar dos GPUs en una configuración PCIe 5.0 x8/x4 en lugar de x8/x8 provoca caídas significativas de rendimiento para la inferencia de LLM.
Este artículo presenta un marco de modelado evolutivo que integra la semántica formal al permitir que los significados léxicos y las funciones composicionales coevolucionen bajo presiones por simplicidad conceptual y precisión comunicativa.
Este artículo presenta un marco conceptual para analizar la dinámica del diálogo en contextos de resolución colaborativa de problemas, con un enfoque específico en las interacciones humano-IA y multiagente. Los autores argumentan que comprender estas interacciones dialógicas es crucial para optimizar las asociaciones a medida que los sistemas inteligentes ganan capacidades de razonamiento autónomo.
Este estudio investiga si los modelos de lenguaje funcionan como bases de conocimiento consistentes al analizar si los hechos adquiridos durante una tarea permanecen accesibles en otras. La investigación revela que los LMs codifican el conocimiento de manera específica para la tarea, con subconjuntos distintos de parámetros subyacentes a diferentes tareas para el mismo hecho.
La arquitectura CARVE aborda tres defectos críticos en el modelo recurrente GDN-2 basado en la regla delta, al restringir las operaciones de borrado al eje de clave, permitiendo así la resolución triangular válida de chunks en forma WY y mejorando la eficiencia del valor. Al reutilizar el tensor de salida recurrente como señal de contenido y reemplazar las proyecciones de puerta de escritura por valor individual con escalares únicos, CARVE mantiene una inicialización bit a bit idéntica a GDN-2 mientras resuelve los problemas de enmascaramiento ciego de memoria.
Este artículo aborda el desafío de la selección de fuentes sin entrenamiento para modelos de lenguaje grandes con vocabularios compartidos en dominios científicos como SMILES y genómica, donde las métricas clásicas son poco informativas o computacionalmente prohibitivas. Los autores demuestran que las métricas de similitud de representación no son identificables para la transferencia porque los modelos pueden compartir representaciones idénticas pero tener actualizaciones de cabeza ortogonales.
Este artículo propone un marco diagnóstico que descompone la dificultad del lenguaje histórico en costo de tokenización, incertidumbre predictiva, robustez semántica y sensibilidad al contexto. Los autores evalúan este marco en textos italianos del siglo XVII, italiano del siglo XIX y ruso del siglo XVIII para comprender cómo los LLM procesan lenguas históricas.
Las cascadas de traducción para razonamiento traducen las consultas al inglés, realizan el razonamiento y traducen de vuelta, pero este proceso es estructuralmente con pérdidas debido a la descarte de información en cada etapa. Los autores proponen una cascada de traducción consciente del contexto que preserva la pregunta original, la consulta traducida y la traza de razonamiento para mitigar estas pérdidas.
Los investigadores proponen una taxonomía orientada a mecanismos de expresiones lingüísticas indirectas (ILE) para categorizar las operaciones subyacentes utilizadas para codificar y recuperar significado en el lenguaje codificado. Este enfoque se abstrae de los objetivos comunicativos para centrarse en los mecanismos específicos de codificación encontrados en el algospeak, los eufemismos y la ofuscación adversarial.
Este artículo presenta el primer estudio de caso que aplica Modelos de Lenguaje Grande al proceso del Banco Central Alemán para verificar la elegibilidad de valores como garantía, pasando del Reconocimiento Tradicional de Entidades Nombradas a una pipeline generativa de Extracción de Información. El enfoque descompone la tarea en extracción, normalización e interpretación para manejar el texto ruidoso y el contenido bilingüe de manera más efectiva.
Los investigadores presentan el método PEEU (Planning Experience Exploration and Utilization) para mejorar la planificación de tareas en agentes web multimodales utilizando pequeños modelos de lenguaje grande multimodales (MLLMs) de código abierto. Este enfoque explora autónomamente los entornos para descubrir experiencias y sintetiza datos de entrenamiento de alto nivel mediante la utilización de experiencias retrospectivas.
Este estudio propone un marco de análisis textual longitudinal que combina la extracción de métricas de PLN en japonés con pruebas emparejadas y análisis de funciones de cambio para evaluar cambios cualitativos en las divulgaciones de riesgos corporativos. Aplicado a las reformas de divulgación de Japón de 2019, el enfoque analiza 19.770 observaciones empresa-año durante diez años para capturar dinámicas multidimensionales que a menudo se ocultan con métodos de un solo indicador.