Todos los artículos
media r/LocalLLaMA · hace 2 h

RPG impulsado por LLM local con contenido generado persistente

El desarrollador lanzó un RPG impulsado por LLM local donde los NPCs, ubicaciones, objetos y misiones se generan como objetos persistentes dentro del juego. Estos elementos pueden revisitarse e interactuarse, y el juego integra LLMs en mecánicas centrales de RPG como diálogo, narración y progreso de misiones, mientras gestiona inventario, combate y guardados. El juego vendió aproximadamente 1,800 copias en su primera semana y tiene una calificación de tienda de 4.0, lo que indica el interés de los jugadores en experiencias de RPG impulsadas por IA.

media r/LocalLLaMA · hace 2 h

Los modelos locales pasaron de ser mayormente inútiles a realmente útiles en un año

Los modelos locales evolucionaron de juguetes centrados principalmente en la privacidad a herramientas prácticas para programación, gestión privada de documentos y flujos de trabajo locales en un año. Aunque aún no logran reemplazar a los mejores modelos cerrados para tareas complejas que requieren planificación y corrección de errores, la mejora general en usabilidad y rendimiento es evidente.

media r/LocalLLaMA · hace 2 h

Rio 3.5 397B probablemente un fracaso en el malversamiento de fondos para IA

Se informa que el modelo de IA Rio 3.5 397B fue desarrollado fusionando un Nex N2 Pro sin entrenamiento adicional, utilizando fondos destinados al desarrollo adecuado del modelo. La documentación oficial inicialmente afirmaba un entrenamiento avanzado, pero luego se actualizó para admitir la fusión superficial, mientras aún afirmaba que ocurrió entrenamiento adicional, y el modelo original fue eliminado de Hugging Face.

media r/LocalLLaMA · hace 2 h

Benchmarks de V620 modificada con firmware W6800 en eBay

Una V620 modificada flasheada con firmware W6800 habilita la salida mini-DisplayPort pero desactiva algunos núcleos de cómputo, a pesar de tener relojes de refuerzo más altos. Los benchmarks muestran que Vulkan supera a ROCm en tareas de grupos de tensores (TG), mientras que ROCm es más rápido en el procesamiento de prompts (PP) a profundidades de contexto más largas, con ganancias de rendimiento significativas en configuraciones Q4_K_XL.

media r/LocalLLaMA · hace 2 h

Manera más barata de ejecutar GLM 5.x localmente sin memoria unificada

Un usuario explora métodos rentables para ejecutar GLM 5.x localmente usando cuantización de 4 bits, como IQ4_XS, sin depender de memoria unificada. Las opciones incluyen configuraciones solo con CPU como Sapphire Rapids ES con DDR5, descarga a múltiples GPUs o modelos de tamaño similar. El usuario ejecuta un sistema con 5900X + 128GB DDR4 + 7900XT 20GB, manejando exitosamente Minimax 2.7 en Q4_K_S y Qwen 3.6 27B en IQ4_XS.

arxiv arXiv cs.CL · hace 2 h

Los LLM predicen demencia y depresión a partir del habla clínica

Un estudio utiliza modelos de lenguaje grandes de peso abierto para evaluar la gravedad de la demencia y la depresión a partir de entrevistas clínicas. Los LLM logran una predicción precisa de la depresión en zero-shot (MAE 0.60) y una evaluación mejorada de la demencia con extracción de características (MAE 0.78), reduciendo los errores hasta un 35%. Las transcripciones enriquecidas con pausas coinciden con las transcripciones humanas, apoyando los flujos de trabajo de detección automatizada para trastornos neuropsiquiátricos.

arxiv arXiv cs.CL · hace 2 h

LegalHalluLens: Auditoría de alucinaciones en IA legal

LegalHalluLens introduce un marco para auditar alucinaciones de IA en contextos legales mediante el análisis de perfiles de alucinación tipificados en cuatro categorías de afirmaciones. Revela una brecha de 38-40 puntos entre las afirmaciones obligatorias/numéricas y temporales, y muestra que dos sistemas con tasas de alucinación idénticas del 52% pueden tener direcciones de riesgo opuestas. El marco utiliza un Índice de Dirección de Riesgo y pipelines de debate calibrados para reducir las detecciones fabricadas en un 45% y mejorar la responsabilidad en el despliegue de IA legal.

arxiv arXiv cs.CL · hace 2 h

ProvenanceGuard: Verificación de factualidad consciente de la fuente para agentes LLM basados en MCP

ProvenanceGuard introduce un verificador consciente de la fuente para agentes LLM basados en MCP que detecta la confluencia entre fuentes al enrutar afirmaciones a fuentes de evidencia específicas y comparar la atribución declarada con la propiedad real de la fuente. Logra una F1 por bloque de 0.802 y una precisión de fuente de 0.858 en 260 afirmaciones elegibles por fuente, superando a las líneas base ciegas a la fuente, y detecta todos los intercambios de atribución inyectados en 50 pruebas clínicas.