Todos los artículos
arxiv arXiv cs.CL · hace 16 h

LOGOS: Un modelo generativo de propósito general para las ciencias naturales

LOGOS es un modelo de lenguaje generativo unificado que representa objetos científicos y sus interacciones como secuencias de tokens en una gramática compartida. Logra un rendimiento consistente o superior en diversas tareas de ciencias naturales, demostrando la viabilidad de un único modelo que sirva a múltiples dominios. El modelo escala positivamente con el número de parámetros, y su diseño sugiere que la IA para la ciencia debería alinearse profundamente con los grandes modelos de lenguaje a través de arquitecturas compartidas y entrenamiento.

arxiv arXiv cs.CL · hace 16 h

LESS es más: Muestreo adaptativo para modelos de lenguaje de difusión

LESS introduce un muestreador adaptivo sin entrenamiento y agnóstico al modelo que reduce los pasos de desvanecimiento inverso en un 72,1 % en comparación con la decodificación de presupuesto fijo. Logra una mayor precisión que los muestreadores existentes sin entrenamiento y reduce el cómputo y la latencia de inferencia mediante reglas de estabilidad mutua que garantizan el compromiso del token solo cuando las predicciones son confiables, consistentes y estables.

arxiv arXiv cs.CL · hace 16 h

Se lanza el conjunto de datos IMPACTeen con versiones en inglés y polaco

IMPACTeen es un conjunto de datos de 1,021 textos anotados desde cinco perspectivas: adolescentes, padres, psicólogos, expertos en comunicación y profesores. Incluye 5,100 registros de anotaciones que cubren técnicas de influencia social, intenciones, consecuencias y resistencia, con anotaciones validadas mediante edición humana. El conjunto de datos, creado mediante generación de LLM y validación humana, está disponible tanto en polaco como en inglés y apoya la investigación sobre influencia social y entrenamiento de modelos de lenguaje.

arxiv arXiv cs.CL · hace 16 h

Propiedades clave para el razonamiento efectivo del intérprete de código

Un estudio identifica propiedades extrínsecas (tokens cruciales) e intrínsecas (comportamientos cognitivos) que mejoran el razonamiento del intérprete de código en modelos de lenguaje grandes. Los modelos de razonamiento más fuertes muestran una mayor prevalencia de verificación, retroceso y encadenamiento hacia atrás, con estas propiedades mejorando el rendimiento durante la inferencia y el entrenamiento, reduciendo el sobre-pensamiento y aumentando la eficiencia de los tokens.

arxiv arXiv cs.CL · hace 16 h

Los operadores post-hoc no logran mejorar la precisión en modelos pequeños de código

Un estudio de medición encuentra que 26 operadores semánticos post-hoc no mejoran la precisión en datos no vistos frente a Best-of-N en modelos pequeños de código congelados. Aunque dos operadores —la recuperación por capa de expresión y la parada temprana de consenso adaptativo— ofrecen beneficios en eficiencia computacional o recuperación de programas, ninguno supera a BoN en precisión. Los resultados destacan limitaciones sistémicas en la detección de errores y la cobertura, lo que sugiere que los arneses de modelos y la cobertura de errores deben mejorarse antes de considerar el razonamiento post-hoc.

arxiv arXiv cs.CL · hace 17 h

KVEraser: Borrado localizado eficiente del contexto en LLM

KVEraser permite un borrado localizado eficiente del contexto en modelos de lenguaje grandes al reemplazar únicamente los estados del caché KV de un segmento borrado con estados de dirección aprendidos. Logra un rendimiento cercano al de la recomputación completa en tareas dentro del dominio para longitudes de contexto de 1K a 32K, con solo un aumento de latencia del 24%, y supera a otros métodos aproximados en QA de documentos largos con una aceleración de 3--4x sobre la recomputación completa.

arxiv arXiv cs.CL · hace 17 h

ContextRL: RL consciente del contexto para LLMs

ContextRL introduce un objetivo auxiliar indirecto para mejorar el razonamiento a largo plazo y el rendimiento multimodal en LLMs. Recompensa a los modelos por seleccionar el contexto que respalda un par de pregunta-respuesta, utilizando datos contextuales contrastivos de trayectorias de agentes de codificación y preguntas visuales basadas en imágenes. ContextRL logra ganancias de +2.2% y +1.8% sobre métodos estándar en benchmarks de QA visual y a largo plazo, con las ganancias atribuidas al objetivo de selección, no a la augmentación de datos.

arxiv arXiv cs.CL · hace 17 h

Los modelos de lenguaje codifican el valor de su trayectoria actual

Qwen3-8B rastrea internamente el valor de su trayectoria actual, definido como la probabilidad de lograr sus objetivos. Este eje de 'valor' distingue los niveles de confianza, el comportamiento de retroceso y la corrección del código, y muestra que la optimización de preferencias aumenta la confianza en las conductas recompensadas. El modelo asigna un valor bajo a las consultas políticamente sensibles después del entrenamiento, y el ajuste fino incrementa la confianza dentro de dominios específicos.

media r/LocalLLaMA · hace 17 h

vLLM lanza un nuevo analizador de transmisión para Qwen3+ en la versión nocturna

vLLM ha introducido un nuevo analizador de transmisión para Qwen3+ disponible en su compilación nocturna, abordando problemas como la detención intermedia y las llamadas a herramientas de transmisión fallidas debido a los límites de fragmentos. La actualización reportedly resuelve estos problemas en pruebas limitadas, mejorando la fiabilidad para flujos de trabajo agénticos.

media r/LocalLLaMA · hace 17 h

HalBench evalúa 29 modelos de código abierto en sicolofía y alucinación

HalBench evalúa 29 LLMs de código abierto en un benchmark personalizado para sicolofía y alucinación. Qwen 3.6 y Gemma 4 superan a modelos más grandes, con Qwen 3.6 logrando un 36.6% de resistencia—más alto que GPT-5.4 y Gemini 3.1 Pro. El tamaño del modelo no se correlaciona con respuestas honestas, lo que indica que la arquitectura y los datos de entrenamiento importan más que los parámetros.

blog Simon Willison · hace 17 h

datasette-agent 0.3a0 se lanza con aprobación del usuario para operaciones de escritura en SQL

datasette-agent 0.3a0 introduce la herramienta execute_write_sql que solicita a los usuarios antes de escribir en las bases de datos, asegurando que se respeten las comprobaciones de permisos. La actualización también mejora el chat del agente datasette con soporte para aprobación del usuario, nuevas opciones de comando como --unsafe para autoaprobación y salidas de herramientas en texto plano para la visualización en CLI.

media Hugging Face Forums · hace 18 h

Usuarios informan de que el espacio de Hugging Face queda atrapado en un bucle 503

Un usuario en los foros de Hugging Face informó de que su aplicación Space está atrapada en un estado continuo de error 503. El problema impide que el Space se reinicie o reconstruya, a pesar de múltiples intentos por resolverlo a través de la interfaz. El usuario intentó hacer clic en los botones "Reiniciar Space" y "Reconstrucción de fábrica" sin éxito. Además, enviar diez a dieciséis nuevos commits no logró desencadenar ningún proceso de reconstrucción. Como consecuencia, el Space permanece pausado e insensible a los métodos estándar de recuperación. El usuario solicitó intervención manual para limpiar el estado del contenedor o desencadenar un reinicio.