Todos los artículos
arxiv arXiv cs.CL · hace 1 h En vivo

Panel de Modelos de Lenguaje para la Medición de Posiciones Políticas en Regiones con Datos Escasos

Un nuevo método utiliza modelos de lenguaje grandes como evaluadores falibles en un panel para medir posiciones políticas en regiones con datos escasos. La adición de definiciones escritas de ejes mejora la consistencia de las puntuaciones y el acuerdo entre los evaluadores, mientras que el alfa de Krippendorff de 0.86 indica alta fiabilidad entre modelos y laboratorios. Los desacuerdos destacan problemas interpretativos, sugiriendo que el método detecta problemas de referente en lugar de errores de medición.

media r/LocalLLaMA · hace 1 h En vivo

Los precios de los modelos de OpenRouter implican una cuantización más pesada

La fijación de precios de los modelos de OpenRouter sugiere una cuantización significativa, ya que los costos de inferencia sin procesar superan los precios de la API sin un alto rendimiento o un servicio optimizado. El autor argumenta que, a menos que los proveedores logren una eficiencia mucho mejor o ofrezcan acceso premium y de alta fidelidad, es probable que la cuantización degrade la calidad de salida, especialmente en tareas complejas como la planificación y la programación, lo que genera preocupaciones sobre la transparencia y el acceso a la verdadera capacidad del modelo.

media r/LocalLLaMA · hace 1 h En vivo

Benchmark de Scribeo Médico con LLM: Las Omisiones Superan a las Alucinaciones

Un benchmark de 8 LLMs en 300 diálogos sintéticos entre médico y paciente encontró 12 alucinaciones de alto impacto y 520 omisiones clínicamente relevantes. Las omisiones fueron mucho más comunes que las alucinaciones, con DeepSeek destacando en prosa y costo pero omitiendo muchos hechos de seguridad, mientras que Claude Opus tuvo menos omisiones pero peor calidad de prosa.

media r/LocalLLaMA · hace 1 h En vivo

7 empresas chinas envían chips de IA de clase H100/H200, la mayoría salieron a bolsa en los últimos 6 meses

Al menos siete empresas chinas están enviando ahora aceleradores de IA de clase H100/H200, con la mayoría habiendo salido a bolsa en los últimos seis meses. Huawei solo envió 812,000 tarjetas de IA el año pasado, representando el 49% del suministro doméstico de China, y su Ascend 950 está dirigido según informes al rendimiento de clase H200. Varias de estas empresas fueron fundadas por antiguos líderes de GPU de NVIDIA y AMD, incluyendo MetaX, que vio crecer sus ingresos 3,800x en tres años, y Alibaba, que lanzó un servidor con 1.5TB de VRAM para despliegue de modelos fronterizos on-premises.

media r/LocalLLaMA · hace 1 h En vivo

Análisis KLD de la cuantización del KV Cache para Qwen3.6-35B-A3B y Gemma4-E2B QAT

Un análisis detallado mapea la KLD (divergencia de Kullback-Leibler) de la cuantización del KV cache para los modelos Qwen3.6-35B-A3B y Gemma4-E2B. Los resultados muestran que la cuantización q8/q8 es casi sin pérdidas en ambos modelos, mientras que q4/q4 funciona bien en Qwen pero causa una degradación severa en Gemma. Las variantes de cuantización Turbo muestran un rendimiento mixto, con turbo3 y turbo2 permitiendo una compresión extrema del cache a costa significativa de la precisión.

media r/LocalLLaMA · hace 2 h

Comparando Docling, Liteparse, MinerU y Unstructured para procesamiento de documentos en instalaciones propias

Una universidad que busca procesamiento de documentos en instalaciones propias para flujos de trabajo académicos debe utilizar analizadores locales debido a estrictas políticas de gobernanza de datos que prohíben las APIs en la nube. El usuario evalúa Docling, Liteparse, MinerU y Unstructured, señalando que Docling destaca en diseños complejos con licencia Apache 2.0 pero es más lento; Liteparse ofrece buen rendimiento para documentos impresos con Tesseract OCR; MinerU utiliza PaddleOCR y maneja bien los documentos en francés a pesar de una configuración más larga; Unstructured soporta múltiples formatos incluyendo DOCX y PPTX. La solución debe admitir análisis recurrentes y estables de PDFs en evolución con mínimos cambios de formato.

media r/LocalLLaMA · hace 2 h

Mi nuevo punto de referencia: ¿qué tan buenas son las LLM para simular el comportamiento de humedecimiento?

Un nuevo micro-punto de referencia para LLM evalúa qué tan bien los modelos de lenguaje grandes pueden simular interfaces sólido-líquido utilizando Surface Evolver, una herramienta de 1992 para modelar superficies líquidas. El punto de referencia requiere que las LLM escriban archivos de datos SE que definan la geometría y las restricciones a través de un proceso agénico iterativo con calificación objetiva, ofreciendo una tarea de nicho con relevancia científica real y datos de entrenamiento escasos.

media r/LocalLLaMA · hace 2 h

Benchmark TTS solo con CPU: Kokoro 82M vs Supertonic 3 vs Inflect-Nano-v1

Un benchmark de texto a voz solo con CPU compara Kokoro-82M, Supertonic-3 e Inflect-Nano-v1 en un Intel Xeon con 4 núcleos y 15.6GB de RAM. Kokoro ofrece el sonido más natural (MOS 4.44-4.45) a pesar de su velocidad más lenta, con la versión ONNX superando a PyTorch en factor de tiempo real mientras mantiene una calidad idéntica. Supertonic-5-step logra un resultado equilibrado a 3.2x tiempo real y MOS 4.37, convirtiéndolo en la opción práctica para usabilidad y calidad.