Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 54

RaDaR: El modelo de IA mejora el diagnóstico de enfermedades raras

RaDaR, un modelo de lenguaje grande compacto de razonamiento, superó a otros modelos de código abierto en el diagnóstico de enfermedades raras. En un ensayo aleatorizado, RaDaR mejoró la precisión diagnóstica de los médicos en 21.44 puntos porcentuales en comparación con la búsqueda por internet sola.

arxiv arXiv cs.CL · hace 1 h En vivo

Póster: Exploración de la detección de estafas basada en audio en turco

Esta investigación presenta el primer conjunto de datos multimodal público de 100 pares alineados de audio-transcripción para llamadas de estafa y benignas en turco. Evalúa siete modelos de lenguaje grandes bajo entradas de audio crudo, transcripción automática y transcripción corregida por humanos, encontrando que las entradas basadas en transcripción superan al procesamiento directo de audio, con la corrección humana teniendo un impacto mínimo.

arxiv arXiv cs.CL · hace 1 h En vivo

AGORA: Benchmark para el razonamiento de documentos en entornos laborales basados en agentes

Agora presenta un benchmark con 362 preguntas y 9,664 documentos auténticos de entornos laborales que suman 372M tokens, superando la ventana de contexto de cualquier modelo. Evalúa la capacidad de los agentes para explorar documentos deliberadamente, reconciliar inconsistencias y razonar entre dominios, revelando que incluso los mejores modelos alcanzan solo un 59.4% de precisión.

arxiv arXiv cs.CL · hace 1 h En vivo

NatureBench evalúa las capacidades de descubrimiento científico de los agentes de codificación de IA

NatureBench presenta una batería de 90 tareas basadas en artículos de la familia Nature para evaluar la capacidad de los agentes de codificación de IA para lograr descubrimientos científicos. Bajo un protocolo con búsqueda web deshabilitada, el mejor modelo supera el estado del arte anterior solo en el 17.8% de las tareas. Los agentes tienen éxito principalmente al traducir problemas científicos en tareas de aprendizaje supervisado, no mediante invención científica original.

arxiv arXiv cs.CL · hace 1 h En vivo

Exploración multilingüe para el conocimiento paramétrico

Las estrategias de prompting multilingüe mejoran la recuperación de conocimientos factuales en 17 idiomas diversos. El enfoque supera al escalado en idioma nativo en eficiencia computacional y mejora la consistencia cruzada más allá de las ganancias en precisión.

arxiv arXiv cs.CL · hace 1 h En vivo

AdversaBench: Red-Teaming automatizado de LLM con confirmación multi-juez

AdversaBench presenta una pipeline de red-teaming end-to-end que genera prompts adversarios mediante cinco operadores estructurados, evalúa los modelos objetivo y confirma fallos a través de un panel de tres jueces con desempate por meta-juez. Los experimentos en 45 prompts semilla en razonamiento, seguimiento de instrucciones y uso de herramientas muestran que cada semilla produce un fallo confirmado, revelando patrones clave en la vulnerabilidad de LLM mediante la efectividad del operador, los conteos de iteración de fallos, el acuerdo entre jueces y la transferibilidad cross-model.

arxiv arXiv cs.CL · hace 1 h En vivo

MEMPROBE: Benchmark para la recuperación de memoria a largo plazo en agentes

MEMPROBE es un benchmark que evalúa la memoria a largo plazo en agentes de IA mediante la reconstrucción del estado oculto de un usuario a partir de la memoria del agente después de la interacción. Prueba 5 sistemas de memoria en 50 usuarios simulados con 31 dimensiones cada uno, encontrando que la finalización de tareas es alta incluso para agentes sin memoria, mientras que la recuperación de memoria permanece moderada y disminuye bajo la recuperación top-k. MEMPROBE permite una evaluación directa y auditable de la retención de memoria y propone la recuperación como un objetivo clave para el desarrollo futuro de agentes.

arxiv arXiv cs.CL · hace 1 h En vivo

Marco metodológico para evaluar el sesgo social en LLM

Un marco unificado estandariza las evaluaciones de benchmark para comparar configuraciones aisladas frente a comparativas en la detección de sesgos sociales. Los resultados muestran que las configuraciones comparativas amplifican la discriminación latente, especialmente con razonamiento Chain-of-Thought, y este sesgo persiste incluso con respuestas neutrales de respaldo. El efecto escala con el tamaño del modelo, lo que sugiere que los despliegues comparativos son inseguros en escenarios del mundo real ambiguos.

arxiv arXiv cs.CL · hace 1 h En vivo

Qwen-AgentWorld: Modelos de mundo lingüístico para agentes generales

Qwen-AgentWorld-35B-A3B y Qwen-AgentWorld-397B-A17B son los primeros modelos de mundo lingüístico que simulan entornos agénticos en siete dominios utilizando razonamiento de cadena de pensamiento largo. Entrenados mediante una canalización de tres etapas—CPT, SFT y RL—estos modelos superan a los modelos fronterizos existentes en AgentWorldBench, un benchmark derivado de interacciones del mundo real de cinco modelos en nueve tareas establecidas.

arxiv arXiv cs.CL · hace 1 h En vivo

Estudios de proverbios multilingües revelan la preservación del significado cultural en los LLM

Un estudio evalúa cómo los modelos de lenguaje grandes preservan el significado cultural al generar narrativas a partir de proverbios equivalentes en 15 idiomas. Los resultados muestran consistencia semántica en las lecciones morales, con cambios sistemáticos en la agencia narrativa y la estructura, y una fuerte convergencia entre familias de modelos. La investigación destaca que las evaluaciones actuales pueden sobreestimar la preservación cultural al centrarse únicamente en la similitud semántica.

arxiv arXiv cs.CL · hace 1 h En vivo

RAG que preserva la privacidad mediante reescritura semántica multi-agente

Un marco multi-agente sanitiza el contenido recuperado eliminando identificadores sensibles mediante reescritura semántica, reduciendo la filtración de privacidad en ataques dirigidos. Mantiene una fuerte fidelidad contextual con una puntuación BLEU-1 de 0.122, superando a SAGE con 0.117, y opera como un paso de preprocesamiento asíncrono sin latencia añadida para la inferencia en línea.

arxiv arXiv cs.CL · hace 1 h En vivo

SIFT y WSP mejoran la precisión en la verificación de hechos

SIFT introduce una reevaluación condicional a las afirmaciones de los fragmentos de evidencia para alinearse mejor con las afirmaciones completas, recuperando hasta 27.6 puntos de precisión en FEVER, SciFact, 5PILS y DP. WSP, una verificación automática de NLI, alcanza un AUC de 0.92 y una precisión de 0.98 al calibrar contra la evidencia humana de referencia.

media r/LocalLLaMA · hace 1 h En vivo

Mimo 2.5 es rápido en contextos largos con dos RTX Pro 6000

Mimo 2.5 mantiene un rendimiento rápido en longitudes de contexto largas en dos tarjetas RTX Pro 6000 utilizando un mecanismo de atención de ventana deslizante local/global 5:1, similar al de Gemma 3. Completa tareas en aproximadamente 4 minutos, significativamente más rápido que MiniMax M3, que tarda alrededor de 40 minutos, a pesar de que ambos modelos tienen una calidad similar bajo los límites de VRAM.

blog Simon Willison · hace 1 h En vivo

datasette 1.0a35 lanza nuevas funciones de creación y alteración de tablas

Datasette 1.0a35 introduce una nueva interfaz "Create table" con soporte para definir columnas, restricciones y claves foráneas a través de su API JSON. También añade una acción "Alter table" que permite modificar tablas existentes, incluidos cambios en las columnas, ajustes de tipo y eliminación de columnas o tablas, con una API de contexto de plantillas estable para plantillas personalizadas hasta Datasette 2.0.

media r/LocalLLaMA · hace 1 h En vivo

Más de 650 modelos de NER/de-ID biomédicos con licencia Apache-2.0 se ejecutan 30-40 veces más rápido en Apple Silicon

Un nuevo proyecto de código abierto ofrece más de 650 modelos biomédicos de NER y desidentificación con licencia Apache-2.0 que se ejecutan en el dispositivo a través de MLX. En un MacBook Pro de hace 3 años con M3 Max, los modelos clínicos de NER logran aceleraciones de 30-40 veces en comparación con PyTorch-CPU, con salidas fp32 e identidades idénticas, gracias a la eficiencia arquitectónica en Apple Silicon. Los modelos, que incluyen NER biomédico de 434M y desidentificación de PII, están disponibles públicamente en Hugging Face y GitHub, con total reproducibilidad proporcionada en el código y la metodología.

media r/LocalLLaMA · hace 1 h En vivo

Añadir una segunda 7900XTX mediante PCIe 2 en placa base B450

Un usuario quiere añadir una segunda 7900XTX para alcanzar 48GB de VRAM, pero está preocupado por usar una placa base B450 con PCIe 2 en la segunda ranura. Cuestiona si PCIe 2 afectará significativamente al rendimiento, especialmente considerando las 24 líneas PCIe del CPU y el soporte limitado para paralelismo tensorial en estas GPUs.

media r/LocalLLaMA · hace 1 h En vivo

¿Cuáles son las principales plataformas chinas de alquiler de GPUs?

Una publicación en Reddit pregunta sobre plataformas chinas de alquiler de GPUs, expresando interés en acceder al hardware de IA chino a pesar de las restricciones de internet. El usuario indaga sobre la disponibilidad de plataformas similares a 'vast.ai' en China.

media r/LocalLLaMA · hace 1 h En vivo

MiniMax 2.7 se ejecuta en 47TG con 1200PP y 96GB de VRAM

MiniMax 2.7, un modelo de 47 tera-parámetros, opera en un sistema con 96GB de VRAM y 192GB de RAM DDR5 utilizando una placa MSI B840 y un CPU 9900X. Se ejecuta como un modelo de clase agente con fuerte seguimiento de instrucciones y llamada de herramientas, respaldado por un bucle round-robin con tres agentes de secuenciación basados en CPU y un modelo denso de 12B que monitorea errores.

media r/LocalLLaMA · hace 1 h En vivo

Se lanza la aplicación de código abierto para descargar desde Hugging Face

El desarrollador ha lanzado una aplicación de escritorio de código abierto que descarga modelos, conjuntos de datos y espacios de Hugging Face localmente. La aplicación detecta automáticamente problemas de conexión y reanuda las descargas, se ejecuta sin servicios en la nube ni telemetría, y es compatible con macOS, Windows y Linux (tanto x64 como arm64).

media r/LocalLLaMA · hace 1 h En vivo

Lanzamiento de los benchmarks de OpenMythos con resultados de SWE-bench y ciberseguridad

Los benchmarks de OpenMythos ya están disponibles, evaluando el rendimiento en SWE-bench Pro, CyberGym y cybench. El modelo muestra capacidades sólidas para un modelo pequeño centrado en ciberseguridad, aunque se planea más entrenamiento para mejorar el rendimiento. Los resultados destacan discrepancias entre las puntuaciones de SWE-bench de Qwen 3.5 y 3.6 debido a diferentes métodos de evaluación y filtrado de problemas.