Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 29

SIQ-1 Qwen3.6 logra un rendimiento destacado en autoresearch y benchmarking

El modelo SIQ-1, entrenado con PPO y recompensa verificable, supera a GLM-5.2 y Qwen-350B en tareas de parameter-golf, con salidas que se asemejan a Opus4.8. También supera a NEX y GPT-5.5 en la prueba bullshit-bench. El modelo y la versión GGUF están disponibles en Hugging Face, junto con una demo de agente compatible con ZeroGPU.

media r/LocalLLaMA · hace 2 h

RPG impulsado por LLM local con contenido generado persistente

El desarrollador lanzó un RPG impulsado por LLM local donde los NPCs, ubicaciones, objetos y misiones se generan como objetos persistentes dentro del juego. Estos elementos pueden revisitarse e interactuarse, y el juego integra LLMs en mecánicas centrales de RPG como diálogo, narración y progreso de misiones, mientras gestiona inventario, combate y guardados. El juego vendió aproximadamente 1,800 copias en su primera semana y tiene una calificación de tienda de 4.0, lo que indica el interés de los jugadores en experiencias de RPG impulsadas por IA.

media r/LocalLLaMA · hace 2 h

¿Se ha resuelto el problema de la aguja en el pajar?

Un usuario pregunta si la prueba 'aguja en el pajar', utilizada para evaluar el rendimiento del modelo, sigue siendo relevante o ha sido abandonada. La publicación reflexiona sobre su uso histórico en los lanzamientos de modelos y cuestiona si ahora se considera obsoleta o olvidada.

media r/LocalLLaMA · hace 2 h

Mejor estimación sobre cuánto tiempo veremos modelos de peso abierto de clase Fable 5

El lanzamiento de GLM 5.2 sugiere que los modelos de peso abierto han alcanzado a Opus 4.8. Los usuarios preguntan cuánto tiempo tomará ver modelos de peso abierto igualando el rendimiento de la clase Mythos o Fable desde China.

media r/LocalLLaMA · hace 2 h

Los modelos locales pasaron de ser mayormente inútiles a realmente útiles en un año

Los modelos locales evolucionaron de juguetes centrados principalmente en la privacidad a herramientas prácticas para programación, gestión privada de documentos y flujos de trabajo locales en un año. Aunque aún no logran reemplazar a los mejores modelos cerrados para tareas complejas que requieren planificación y corrección de errores, la mejora general en usabilidad y rendimiento es evidente.

media r/LocalLLaMA · hace 2 h

Un año construyendo un asistente de voz para el hogar completamente local

Un desarrollador pasó 12 meses construyendo un asistente de voz local y de código abierto inspirado en Alexa, documentando los desafíos y el progreso. El proyecto buscaba crear una alternativa centrada en la privacidad utilizando modelos locales, con mejoras y correcciones continuas.

media r/LocalLLaMA · hace 2 h

GLM-5.2: Diseñado para tareas de largo alcance

GLM-5.2 es un modelo de lenguaje diseñado específicamente para tareas de largo alcance. Su objetivo es manejar mejor el razonamiento complejo y multi-etapa, así como la planificación a largo plazo, mejorando su capacidad para mantener el contexto en secuencias extendidas.

media r/LocalLLaMA · hace 2 h

Rio 3.5 397B probablemente un fracaso en el malversamiento de fondos para IA

Se informa que el modelo de IA Rio 3.5 397B fue desarrollado fusionando un Nex N2 Pro sin entrenamiento adicional, utilizando fondos destinados al desarrollo adecuado del modelo. La documentación oficial inicialmente afirmaba un entrenamiento avanzado, pero luego se actualizó para admitir la fusión superficial, mientras aún afirmaba que ocurrió entrenamiento adicional, y el modelo original fue eliminado de Hugging Face.

media r/LocalLLaMA · hace 2 h

GLM-5.2 Max es actualmente el tercer mejor modelo

GLM-5.2 Max está clasificado como el tercer mejor modelo disponible, tanto entre modelos de código abierto como propietarios. La evaluación se basa en benchmarks de rendimiento y evaluaciones actuales en el campo de los modelos de lenguaje grandes.

blog Simon Willison · hace 2 h

Datasette 1.0a34 añade herramientas de edición y eliminación de filas

Datasette 1.0a34 introduce herramientas para insertar, editar y eliminar filas dentro de la interfaz. Estas funciones están disponibles en las páginas de tablas y como elementos de acción en las páginas de filas, abordando una capacidad largamente esperada en la UI.

blog Simon Willison · hace 2 h

click-to-play — una imagen fija que se reproduce

El componente Web click-to-play muestra una imagen estática con un botón de clic para reproducir que carga un GIF bajo demanda. Admite mejora progresiva, permitiendo que los GIFs se carguen solo cuando los usuarios interactúan con la imagen.

media r/LocalLLaMA · hace 2 h

Comparativa de benchmarks entre RTX 5060 Ti 16GB y RX 9060 XT 16GB

Una comparativa de benchmarks muestra que la NVIDIA RTX 5060 Ti 16GB supera a la AMD RX 9060 XT 16GB en múltiples modelos LLM, con velocidades de tokens de respuesta y prompt más altas. Las mejoras de rendimiento son consistentes en modelos como Gemma3, Llama3.2 y Qwen3, con la RTX 5060 Ti mostrando un procesamiento de prompt notablemente más rápido, especialmente en modelos más grandes.

media r/LocalLLaMA · hace 2 h

Elias en el faro: diagnosticando la baja diversidad en historias de LLM

Un nuevo estudio examina la limitada diversidad en las historias generadas por modelos de lenguaje grandes, utilizando al personaje recurrente Elias en el faro como caso de estudio. La investigación destaca cómo tales patrones sugieren sesgos sistémicos en los datos de entrenamiento y las salidas del modelo.

blog Simon Willison · hace 2 h

Estado de NetNewsWire: El proyecto de código abierto prospera tras la jubilación

Brent Simmons se retiró hace un año y desde entonces se ha centrado en mejorar NetNewsWire, un lector RSS de código abierto lanzado por primera vez en 2002. El proyecto sigue evolucionando sin presión comercial, manteniendo su compromiso con el software libre y accesible.

media r/LocalLLaMA · hace 2 h

Benchmarks de V620 modificada con firmware W6800 en eBay

Una V620 modificada flasheada con firmware W6800 habilita la salida mini-DisplayPort pero desactiva algunos núcleos de cómputo, a pesar de tener relojes de refuerzo más altos. Los benchmarks muestran que Vulkan supera a ROCm en tareas de grupos de tensores (TG), mientras que ROCm es más rápido en el procesamiento de prompts (PP) a profundidades de contexto más largas, con ganancias de rendimiento significativas en configuraciones Q4_K_XL.

media r/LocalLLaMA · hace 2 h

Manera más barata de ejecutar GLM 5.x localmente sin memoria unificada

Un usuario explora métodos rentables para ejecutar GLM 5.x localmente usando cuantización de 4 bits, como IQ4_XS, sin depender de memoria unificada. Las opciones incluyen configuraciones solo con CPU como Sapphire Rapids ES con DDR5, descarga a múltiples GPUs o modelos de tamaño similar. El usuario ejecuta un sistema con 5900X + 128GB DDR4 + 7900XT 20GB, manejando exitosamente Minimax 2.7 en Q4_K_S y Qwen 3.6 27B en IQ4_XS.

arxiv arXiv cs.CL · hace 2 h

Los LLM predicen demencia y depresión a partir del habla clínica

Un estudio utiliza modelos de lenguaje grandes de peso abierto para evaluar la gravedad de la demencia y la depresión a partir de entrevistas clínicas. Los LLM logran una predicción precisa de la depresión en zero-shot (MAE 0.60) y una evaluación mejorada de la demencia con extracción de características (MAE 0.78), reduciendo los errores hasta un 35%. Las transcripciones enriquecidas con pausas coinciden con las transcripciones humanas, apoyando los flujos de trabajo de detección automatizada para trastornos neuropsiquiátricos.

arxiv arXiv cs.CL · hace 2 h

LegalHalluLens: Auditoría de alucinaciones en IA legal

LegalHalluLens introduce un marco para auditar alucinaciones de IA en contextos legales mediante el análisis de perfiles de alucinación tipificados en cuatro categorías de afirmaciones. Revela una brecha de 38-40 puntos entre las afirmaciones obligatorias/numéricas y temporales, y muestra que dos sistemas con tasas de alucinación idénticas del 52% pueden tener direcciones de riesgo opuestas. El marco utiliza un Índice de Dirección de Riesgo y pipelines de debate calibrados para reducir las detecciones fabricadas en un 45% y mejorar la responsabilidad en el despliegue de IA legal.

arxiv arXiv cs.CL · hace 2 h

Efectos del idioma de origen en el aprendizaje in-context multilingüe

Un estudio descubre que los supuestos basados en ajuste fino sobre la transferencia entre idiomas no se aplican al aprendizaje in-context. La investigación revela que la selección del idioma de origen en ICL requiere nuevas heurísticas, especialmente para tareas generativas donde la confusión lingüística es un desafío clave.

arxiv arXiv cs.CL · hace 2 h

ProvenanceGuard: Verificación de factualidad consciente de la fuente para agentes LLM basados en MCP

ProvenanceGuard introduce un verificador consciente de la fuente para agentes LLM basados en MCP que detecta la confluencia entre fuentes al enrutar afirmaciones a fuentes de evidencia específicas y comparar la atribución declarada con la propiedad real de la fuente. Logra una F1 por bloque de 0.802 y una precisión de fuente de 0.858 en 260 afirmaciones elegibles por fuente, superando a las líneas base ciegas a la fuente, y detecta todos los intercambios de atribución inyectados en 50 pruebas clínicas.