Todos los artículos
media r/LocalLLaMA · hace 2 h

Mi nuevo punto de referencia: ¿qué tan buenas son las LLM para simular el comportamiento de humedecimiento?

Un nuevo micro-punto de referencia para LLM evalúa qué tan bien los modelos de lenguaje grandes pueden simular interfaces sólido-líquido utilizando Surface Evolver, una herramienta de 1992 para modelar superficies líquidas. El punto de referencia requiere que las LLM escriban archivos de datos SE que definan la geometría y las restricciones a través de un proceso agénico iterativo con calificación objetiva, ofreciendo una tarea de nicho con relevancia científica real y datos de entrenamiento escasos.

media r/LocalLLaMA · hace 2 h

Benchmark TTS solo con CPU: Kokoro 82M vs Supertonic 3 vs Inflect-Nano-v1

Un benchmark de texto a voz solo con CPU compara Kokoro-82M, Supertonic-3 e Inflect-Nano-v1 en un Intel Xeon con 4 núcleos y 15.6GB de RAM. Kokoro ofrece el sonido más natural (MOS 4.44-4.45) a pesar de su velocidad más lenta, con la versión ONNX superando a PyTorch en factor de tiempo real mientras mantiene una calidad idéntica. Supertonic-5-step logra un resultado equilibrado a 3.2x tiempo real y MOS 4.37, convirtiéndolo en la opción práctica para usabilidad y calidad.

media r/LocalLLaMA · hace 2 h

La evaluación humana muestra que GLM-5.2 compite con los mejores modelos

Una evaluación humana en el tablero de Design Arena revela que GLM-5.2 tiene un rendimiento casi tan bueno como Fable 5 en tareas de desarrollo de juegos, ubicándose solo un paso por debajo. El modelo, basado en pesos abiertos y licencia MIT, se evalúa como equivalente en capacidad a los mejores modelos Claude disponibles, lo que sugiere que las pruebas estandarizadas ya pueden no reflejar con precisión el rendimiento en el mundo real.

media r/LocalLLaMA · hace 2 h

Caché MoE multinivel: optimización de la activación de expertos en modelos grandes

Los modelos MoE como GLM 5.2 y Deepseek V4 muestran que el 20% superior de los expertos maneja el 85% de las activaciones. Un enfoque de caché multinivel podría desplazar estos expertos a la memoria GPU, aprovechando la VRAM de alta banda ancha para una inferencia más rápida. Sistemas existentes como PowerInfer, llama.cpp de Lidenburg y HOBBIT demuestran implementaciones prácticas de caché y prefetching de expertos.

media r/LocalLLaMA · hace 2 h

¿SFT o RL-first para el entrenamiento del agente de herramientas de Qwen 3.5?

Un usuario pregunta si se sigue recomendando el ajuste fino supervisado (SFT) seguido de aprendizaje por refuerzo (RL) para entrenar agentes de Qwen 3.5 de 4B o 9B para el uso de múltiples herramientas, o si los enfoques solo con RL producen mejores resultados. La publicación también busca orientación sobre el diseño de recompensas y el manejo de la ejecución paralela de herramientas en flujos de trabajo de agentes.

arxiv arXiv cs.CL · hace 2 h

Estimación de la Importancia del Predicado y Destilación Desacoplada de Racional-Puntuación para Alineación de Entidades

Un nuevo método mejora la alineación de entidades en grafos de conocimiento introduciendo la Estimación de la Importancia del Predicado y la Destilación Desacoplada de Racional-Puntuación. Estos módulos mejoran la precisión de clasificación y permiten la verificación con humano en el bucle mediante la detección de predicciones inciertas a través de una estimación desacoplada de la puntuación de confianza.

arxiv arXiv cs.CL · hace 2 h

Optimización de Políticas de Grupo-Gráfico para RL Agénico de Largo Alcance

La Optimización de Políticas de Grupo-Gráfico (G2PO) introduce un enfoque basado en grafos para mejorar el aprendizaje por refuerzo agénico de largo alcance, transformando trayectorias de interacción en grafos de transición de estado. Permite la estimación agregada del valor de estado y el cálculo de ventaja centrado en las aristas, mejorando la asignación de crédito y reduciendo la varianza, logrando hasta un 22.2% de mejora en la tasa de éxito sobre GRPO en los benchmarks WebShop, ALFWorld y AppWorld.

arxiv arXiv cs.CL · hace 2 h

Evaluación comparativa de sistemas de TM y grupos de posteditores en traducción especializada

El estudio compara tres sistemas de TM: DeepL, eTranslation y Systran, y dos grupos de posteditores: lingüistas/traductores y expertos en PLN. Los resultados muestran diferencias significativas en la precisión terminológica y la fluidez, destacando el papel del conocimiento del dominio en la traducción especializada y el rendimiento variable de los sistemas de TM en contextos específicos del idioma.

arxiv arXiv cs.CL · hace 2 h

¿Los espacios de incrustación de LLM recuperan la estructura experta?

Las incrustaciones de LLM preentrenadas muestran una alineación medible con la estructura de síntomas de salud mental definida por expertos. El ajuste fino mejora esta alineación, especialmente a nivel de categorías finas, y los tamaños de modelo más grandes mejoran tanto el rendimiento zero-shot como las ganancias supervisadas. La alineación residual persiste después de controlar por confusores lingüísticos y estilísticos, lo que indica que la recuperación de la estructura experta depende del nivel y requiere pruebas explícitas de confusores.

arxiv arXiv cs.CL · hace 2 h

Inferencia de pertenencia a nivel de entidad mediante interrogación de LLM

Los investigadores proponen la inferencia de pertenencia a nivel de entidad para determinar si un LLM ha estado expuesto a información sobre una entidad del mundo real durante el entrenamiento. Al construir prompts con pistas limitadas de la entidad y analizar las características semánticas en las respuestas generadas, sus cinco estrategias de interrogación logran hasta 0.97 AUC y mejoran la Precisión Balanceada entre un 6.0% y 17.5% en comparación con las líneas base adaptadas para entidades personales.