Todos los artículos
media r/LocalLLaMA · hace 12 d

La Universidad Estatal de Ohio lanza el agente de investigación profunda QUEST-35B de código abierto

Los investigadores de la Universidad Estatal de Ohio entrenaron QUEST-35B, un agente de investigación profunda, utilizando aproximadamente 32 GPUs H100 y 8.000 muestras sintéticas. Han liberado como código abierto la receta de entrenamiento, el código, los pesos y los conjuntos de datos, con resultados de evaluación que muestran un rendimiento competitivo en comparación con los principales sistemas de investigación profunda propietarios.

github llama.cpp · hace 13 d

llama.cpp versión b9714 añade el encabezado X-Accel-Buffering y nuevos binarios

llama.cpp versión b9714 añade el encabezado "X-Accel-Buffering": "no" a los puntos de conexión de transmisión para evitar que Nginx almacene en búfer las respuestas, lo que resuelve problemas de transmisión con aplicaciones como el entorno de codificación Pi. El lanzamiento incluye binarios para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas y opciones de aceleración por hardware.

arxiv arXiv cs.AI · hace 13 d

UFP4: El entrenamiento uniforme de 4 bits supera el sesgo de contracción en el preentrenamiento de LLM

Un estudio identifica un sesgo de contracción en los formatos FP4 basados en E2M1 debido a la asimetría geométrica, lo que provoca acumulación de errores multiplicativos e inestabilidad en el entrenamiento. La receta UFP4 propuesta utiliza cuadrículas uniformes E1M2/INT4 y aplica la Transformada de Hadamard Aleatoria a todos los GEMM, logrando una degradación menor de la pérdida que las líneas base E2M1 en el preentrenamiento de LLM a gran escala. Los autores recomiendan E1M2/INT4 como un primitivo de entrenamiento de primera clase para futuros aceleradores.

arxiv arXiv cs.AI · hace 13 d

DataMagic convierte datos tabulares en videos interactivos de insights

DataMagic transforma datos tabulares crudos y consultas en lenguaje natural en videos narrativos de insights de datos. Utiliza DVSpec para garantizar la fidelidad de los datos vinculando elementos visuales a campos de datos mediante referencias semánticas, y emplea una arquitectura multiagente para generar y orquestar escenas de video coherentes. El sistema admite exploración interactiva y preguntas-respuestas basadas en procedencia de datos, permitiendo a los usuarios interactuar con los datos más allá de vistas estáticas.

arxiv arXiv cs.AI · hace 13 d

NRT-Bench: Red-teaming multi-turn de agentes LLM en sistemas críticos para la seguridad

NRT-Bench presenta un benchmark para el red-teaming multi-turn de agentes LLM que operan en una planta de energía nuclear simulada. En cuatro modelos de operador de vanguardia, entre el 8,7 % y el 12,1 % de las sesiones de ataque provocan la pérdida de una función crítica de seguridad, con vulnerabilidades en gran medida disjuntas entre los modelos. La efectividad de las defensas varía significativamente según el modelo, mostrando una fuerte dependencia del modelo.

arxiv arXiv cs.AI · hace 13 d

La descompilación multi-vista mejora la clasificación de malware basada en LLM

Un benchmark de binarios benignos y maliciosos compilados y descompilados con Ghidra y RetDec revela que proporcionar ambas vistas del descompilador a los modelos de lenguaje grandes mejora el F1 de la clase maliciosa, principalmente al aumentar la recall. El análisis muestra que Ghidra y RetDec cometen errores distintos, lo que indica que sus salidas ofrecen evidencia complementaria para la clasificación de malware.

arxiv arXiv cs.AI · hace 13 d

Aprendizaje profundo guiado por atención para la clasificación interpretable de morfología espermática

Un nuevo marco de aprendizaje profundo combina EfficientNet-B0 con CBAM para mejorar la precisión y la interpretabilidad en la clasificación de morfología espermática. Evaluado en los conjuntos de datos SMIDS y HuSHem, alcanza una precisión del 90,2 % y del 93,9 % con puntuaciones F1 macro de 0,913 y 0,948, superando a los modelos base. Las visualizaciones Grad-CAM++ permiten un análisis transparente de las características, apoyando la adopción clínica en clínicas de fertilidad.

arxiv arXiv cs.AI · hace 13 d

El modelo bayesiano consciente del contexto mejora la predicción del éxito de la FIV

Un modelo bayesiano jerárquico que utiliza 55 características ambientales conscientes del contexto reduce el error de predicción al 1.27% en datos de FIV, en comparación con el 3-5% obtenido con promedios crudos de sensores. El modelo alcanza un R2 = 0.86 en datos no vistos y reduce el error en un 64% para mujeres de 35 a 39 años, mostrando una señal clínica transferible entre clínicas.