Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 33

Se encuentra que las representaciones de la calidad del ensayo en los LLM son linealmente accesibles

Un estudio revela que la información sobre la calidad del ensayo en los modelos de lenguaje grandes está codificada en formas linealmente accesibles dentro de sus representaciones ocultas. Estas representaciones emergen capa por capa, permanecen estables entre diferentes prompts y muestran transferencia parcial entre distintos prompts de ensayo, con ensayos más largos dependiendo más de las capas más profundas del modelo. La investigación identifica "neuronas específicas para la puntuación de ensayos" cuya activación se correlaciona fuertemente con las puntuaciones y puede ser influenciada por intervenciones dirigidas.

arxiv arXiv cs.CL · hace 1 h En vivo

La sonda de caja negra detecta la memorización de identidades en modelos de texto a imagen

Una nueva sonda de caja negra distingue si los modelos de texto a imagen memorizan identidades o las fabrican, sin necesidad de fotos de referencia ni datos de entrenamiento. El conjunto de datos NAMESAKES incluye más de mil nombres y rostros de figuras públicas, junto con nombres perturbados menos conocidos, para evaluar esta capacidad en modelos de última generación.

arxiv arXiv cs.CL · hace 1 h En vivo

MedRLM: Marco de Inteligencia Clínica Multimodal Recursiva

MedRLs permite el razonamiento clínico de contexto largo mediante la inspección recursiva de datos del paciente en texto, imágenes, sensores y guías. Integra agentes especializados y una Memoria de Grafo de Evidencia Clínica para conectar las observaciones del paciente con evidencia, biomarcadores y criterios de derivación, apoyando el razonamiento activado por sensores y la revisión clínica con umbral de incertidumbre.

arxiv arXiv cs.CL · hace 1 h En vivo

ReNikud: Conversión de grafema a fonema en hebreo supervisada por audio

ReNikud presenta un enfoque novedoso para la conversión de grafema a fonema en hebreo, utilizando supervisión de audio débil y una arquitectura de pseudo-vocalización. Supera los métodos anteriores más avanzados en las pruebas G2-Ph del hebreo y en el nuevo benchmark MILIM, permitiendo un hebreo hablado más natural en aplicaciones de texto a voz.

arxiv arXiv cs.CL · hace 1 h En vivo

Algoritmo para la escritura de notas y estimación de tonalidad en la transcripción musical

Un nuevo algoritmo estima los nombres de las notas, las armaduras y las escalas locales a partir de una entrada similar a MIDI optimizando conjuntamente etapas modales y tonales. Se ha evaluado en partituras de jazz con melodía y armonía, transcripciones solistas, temas tradicionales y partituras de piano clásico, definiendo además distancias entre escalas comunes de jazz para la investigación musicológica.

arxiv arXiv cs.CL · hace 1 h En vivo

Los perfiles psicológicos de los LLM son artefactos de medición

Un análisis psicométrico formal muestra que los aparentes perfiles psicológicos de los modelos de lenguaje grandes están impulsados principalmente por el sesgo de respuesta, no por rasgos reales. Este sesgo, que cambia con la capacidad del modelo y se amplifica por el diseño del instrumento, explica el 81-90% de la variación entre modelos, superando ampliamente las diferencias de rasgos humanos. El estudio concluye que estos perfiles son artefactos de medición y no propiedades del modelo, instando al desarrollo de evaluaciones basadas en la ortogonalidad de la respuesta.

arxiv arXiv cs.CL · hace 1 h En vivo

CzechDocs: Conjunto de datos paralelo para traducción de documentos en lenguas minoritarias

CzechDocs es un conjunto de datos paralelo multilingüe de documentos formateados en formatos HTML, DOCX y PDF, que cubre el checo y lenguas minoritarias como ucraniano, inglés, vietnamita y ruso. Permite la evaluación de sistemas de traducción automática que preservan el formato de los documentos, con un subconjunto de validación y un kit de evaluación publicados públicamente. Se utilizará una división de prueba reservada para una tarea compartida futura sobre traducción a nivel de documento con preservación del formato.

arxiv arXiv cs.CL · hace 1 h En vivo

Direcciones de activación causal para mitigar la desalineación emergente en modelos de lenguaje

El ajuste fino de modelos de lenguaje con código inseguro provoca una desalineación emergente. Una dirección de activación compartida entre cuatro familias de modelos logra una separación del 99,6% entre las activaciones alineadas y las desalineadas, y su resta reduce el derrame de código en 21-51 puntos. La transferencia entre arquitecturas muestra supresión conductual pero carece de especificidad; las direcciones dentro del modelo son causalmente accionables, mientras que las direcciones entre modelos solo son causalmente reales.

arxiv arXiv cs.CL · hace 1 h En vivo

PsyScore: Un marco consciente de la psicometría para la calificación de ensayos adaptativa a rasgos y retroalimentación con andamiaje en ZPD

PsyScore integra la calificación diagnóstica y la retroalimentación instruccional utilizando un modelo de habilidad latente compartido. Cuenta con un evaluador de IRT neuronal adaptativo a rasgos basado en GPCM, un generador de retroalimentación con andamiaje en ZPD que adapta la instrucción según el nivel de competencia, y una estrategia de evaluación multi-perspectiva. Los experimentos en ASAP++ muestran calificaciones competitivas y una retroalimentación más alineada pedagógicamente en comparación con los métodos existentes.

arxiv arXiv cs.CL · hace 1 h En vivo

Técnicas de optimización de inferencia orientadas a operaciones de tokens

Este artículo presenta una arquitectura técnica de cuatro capas para la optimización de inferencia orientada a tokens, que incluye Fusión Multi-modelo, Optimización de Modelos, Fusión Compute-Modelo y Fusión Compute-Network-Modelo. Revisa las tecnologías clave y el estado de la industria, analizando su valor en aplicaciones reales para reducir costos de tokens, mejorar la eficiencia del servicio y garantizar un suministro estable de tokens.

arxiv arXiv cs.CL · hace 1 h En vivo

CATCH-ME si puedes RAG: Conjunto de datos multilingüe de contradiscurso para odio y desinformación

CATCH-ME presenta el primer conjunto de datos a gran escala y multilingüe de diálogos de contradiscurso multi-turno anotados contextualmente, dirigidos contra el odio y la desinformación. El conjunto de datos cubre cinco idiomas y se centra en siete grupos marginados, con diálogos fundamentados en fuentes verificadas de verificación de hechos e incluyendo anotaciones de span a nivel de documento y fragmento para sistemas RAG.

media r/LocalLLaMA · hace 1 h En vivo

GLM-5.2 supera a GPT-5.5 en la evaluación AA-Briefcase

La nueva evaluación de trabajo del conocimiento agéntico de Artificial Analysis, AA-Briefcase, muestra que GLM-5.2 supera a GPT-5.5 en rendimiento. El benchmark evalúa la ejecución de tareas del mundo real y las capacidades de razonamiento en escenarios de trabajo del conocimiento.

blog Simon Willison · hace 1 h En vivo

Notas de la versión 0.1a2 de datasette-apps

datasette-apps 0.1a2 introduce un nuevo permiso apps-set-csp para proteger orígenes personalizados de red y CSP, con una lista de permitidos opcional para usuarios no privilegiados. La versión también mejora la navegación por teclado en el selector de consultas almacenadas y corrige problemas con la confirmación de enlaces y los paneles de registro en modo de pantalla completa.

blog Simon Willison · hace 1 h En vivo

Lanzamiento de datasette-apps 0.1a3

datasette-apps 0.1a3 corrige un error que permitía a los usuarios sin permiso para crear apps generar aplicaciones. También resuelve un problema donde no propietarios podían editar apps privadas, alineando los permisos de edición y eliminación con los permisos de visualización.

blog Simon Willison · hace 1 h En vivo

Lanzamiento de datasette-acl 0.6a0

datasette-acl 0.6a0 expande los permisos desde el nivel de tabla al intercambio general de recursos. El plugin permite a las instancias multiusuario de Datasette conceder un control de acceso fino sobre los recursos.

media r/LocalLLaMA · hace 1 h En vivo

Fecha de lanzamiento de GLM-5.2 Flash (broma)

Un usuario de Reddit bromea sobre la apertura del código de GLM-5.2 por parte de Z.ai, expresando entusiasmo por un sucesor de GLM-4.7-flash. La publicación sugiere humorísticamente que un modelo en el rango de 27-120B parámetros sería ideal, aunque se presenta como una broma.

blog Simon Willison · hace 1 h En vivo

Datasette lanza el plugin Apps para aplicaciones HTML personalizadas

Datasette ha lanzado un nuevo plugin, datasette-apps, que permite ejecutar aplicaciones autocontenidas de HTML+JavaScript en una sandbox de iframe segura. Estas aplicaciones pueden ejecutar consultas SQL de solo lectura o de escritura contra las bases de datos de Datasette, con funciones de seguridad integradas como encabezados CSP y restricciones de sandbox para prevenir la exfiltración de datos o el acceso no autorizado.

media r/LocalLLaMA · hace 1 h En vivo

GLM-5.2 (744B, 2-bit) alcanza 7.3 tok/s en 4×3090 con 192GB de RAM

GLM-5.2 UD-IQ2_M funciona a ~7.3 tokens por segundo en 4×RTX 3090s con 192GB de RAM DDR5 usando expert offload de llama.cpp. Reducir la cuantización de IQ2 a IQ1 no proporcionó ganancia de velocidad, mientras que aumentar los hilos de CPU de 6 a 12 mejoró el rendimiento en un 22%. La decodificación está limitada por el cómputo de CPU, no por el ancho de banda de memoria, y los expertos descargados deben distribuirse explícitamente entre las GPUs para evitar errores de falta de memoria.

media r/LocalLLaMA · hace 1 h En vivo

LQ50/LQ50-24GB cuesta alrededor de $1200

Un usuario informó haber encontrado los modelos LQ50 y LQ50-24GB en TAOBAO, señalando que son costosos. La publicación destaca el costo como aproximadamente $1200.

media r/LocalLLaMA · hace 1 h En vivo

DiffusionGemma 26B en 4090 alcanza 475t/s con limitaciones

DiffusionGemma 26B funciona a hasta 475t/s en un 4090 mediante vLLM con cuantización INT4 AWQ, alcanzando velocidades entre 290t/s y 700t/s según la longitud de salida. Sin embargo, sufre de operación para un solo usuario, menor precisión de respuesta, pérdida rápida del contexto y mayor tiempo hasta el primer token en comparación con los modelos estándar de 26B.