Todos los artículos
arxiv arXiv cs.CL · hace 2 h

Sumi: Modelo de lenguaje de difusión uniforme abierto desde cero

Sumi es un modelo de lenguaje de difusión uniforme de 7B parámetros preentrenado desde cero con 1.5T tokens. Compite con modelos autoregresivos en tareas de conocimiento, razonamiento y codificación, pero tiene un rendimiento inferior en benchmarks de sentido común, probablemente debido a su mezcla de datos centrada en la educación. Los pesos del modelo, los puntos de control y la receta completa de entrenamiento se han liberado públicamente.

arxiv arXiv cs.CL · hace 2 h

Eliminación de la Enfermedad del Índice mediante Separación Física Baseline-Log

En un proyecto de colaboración de IA con 391 sesiones, los LLMs exhibieron 'Enfermedad del Índice'—un fallo donde la complejidad simbólica conduce a salidas autorreferenciales desconectadas de la realidad. El 'Principio Pang' afirma que el lenguaje natural transmite una calidad semántica superior sobre los sistemas simbólicos, y el mecanismo de 'Separación Física Baseline-Log' redujo el volumen de instrucciones de IA en un 75% y eliminó la recurrencia de la Enfermedad del Índice en sesiones posteriores.

arxiv arXiv cs.CL · hace 2 h

Se lanza el conjunto de datos manuscritos Urdu Katib para investigación en UHTR

El conjunto de datos manuscritos Urdu Katib (UKHD) es un nuevo conjunto de datos de referencia de líneas de texto manuscrito offline en urdu, curado a partir de escritos históricos de Katib en caligrafía Nastalique. Evalúa modelos basados en CRNN, con la arquitectura CNN-BGRU-CTC mostrando las tasas de error más bajas, lo que la convierte en una base sólida para el reconocimiento de texto manuscrito en urdu.

arxiv arXiv cs.CL · hace 2 h

El Marco de Coevolución Humano-IA Revela la Emergencia de la Inteligencia Social

El Marco de Dinámicas de Coevolución Humano-IA (HACD-H) introduce un modelo unificado para la interacción humano-IA a largo plazo, integrando adaptación emocional, memoria y personalidad en un sistema cognitivo social autoorganizado. Los resultados muestran que la inteligencia social emerge a través de la coevolución, con una correlación negativa significativa entre la inteligencia social y la energía cognitiva social (r = -0.391, p < 0.001), y una reducción progresiva de la energía con el tiempo en las trayectorias de interacción.

arxiv arXiv cs.CL · hace 2 h

IndicContextEval: Benchmark para la Utilización de Contexto en LLMs de Audio

IndicContextEval introduce un benchmark multilingüe de 56 horas que presenta habla natural de 555 hablantes en 8 idiomas indios y 23 dominios. Emplea un marco de prompting de 7 niveles para probar progresivamente la utilización del contexto, incluyendo metadatos, descripciones e inputs adversarios. La evaluación de cinco modelos muestra diferencias significativas en el anclaje contextual, subrayando la necesidad de una evaluación explícita del uso del contexto en AudioLLMs.

blog Simon Willison · hace 2 h

GLM-5.2 es el modelo de pesos abiertos líder en el Índice de Inteligencia de Artificial Analysis

GLM-5.2, un modelo de solo texto con 753B parámetros de Z.ai, es ahora el modelo de pesos abiertos principal en el Índice de Inteligencia de Artificial Analysis, superando a MiniMax-M3, DeepSeek V4 Pro y Kimi K2.6. Cuenta con una ventana de contexto de 1 millón de tokens y ocupa el segundo lugar en la tabla de clasificación Code Arena WebDev, a pesar de carecer de capacidades de entrada de imagen.

media r/LocalLLaMA · hace 2 h

Lemonade v10.8 lanza gestión automática de memoria, descarga a la nube y soporte para herramientas MCP

Lemonade v10.8 introduce gestión dinámica de VRAM que descarga automáticamente los modelos inactivos y reduce el tamaño del KV-cache para recuperar memoria de GPU. Añade soporte de descarga a la nube para proveedores compatibles con OpenAI, permitiendo el servicio de modelos local-first con enrutamiento opcional a la nube. Una nueva puerta de enlace MCP expone los modelos locales como herramientas mediante POST /mcp, permitiendo que los modelos locales se utilicen como herramientas en aplicaciones compatibles con MCP.

media r/LocalLLaMA · hace 2 h

Necesitamos urgentemente un modelo de 80-160B para dispositivos de memoria unificada

Los usuarios con memoria unificada de 80-160GB o RAM de alta anchura de banda enfrentan limitaciones debido a la falta de modelos adaptados a su hardware. Los modelos existentes son demasiado pequeños para el rendimiento o demasiado grandes para las restricciones de memoria, lo que impulsa una llamada por modelos dispersos de escala 100B como Qwen 3.5 122B o Gemma 4 122B para servir mejor a usuarios con AMD AI Pro, RTX 3090/5090 o dispositivos Apple.

media r/LocalLLaMA · hace 2 h

Post-entrené un modelo para lanzar un dado de manera confiable

Un usuario entrenó un modelo de lenguaje para lanzar un dado, asegurando que cada número aparezca aproximadamente una vez cada seis lanzamientos. La publicación destaca cómo los LLMs convencionales tienden a dar por defecto '4' cuando se les pide lanzar un dado, ilustrando un problema más amplio en el aprendizaje por refuerzo: los modelos a menudo fallan al explorar de manera efectiva y en su lugar siguen patrones conocidos.