Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 130

Dentro de GeneBench-Pro: 10 estudios de caso de razonamiento genómico complejo

GeneBench-Pro es una prueba diseñada para evaluar modelos en tareas de razonamiento genómico complejo, con diez estudios de caso detallados que muestran preguntas representativas y materiales de apoyo. Cada estudio de caso proporciona la solicitud original, conjuntos de datos y el contexto necesario para evaluar el rendimiento del modelo en desafíos biológicos específicos.

lab OpenAI News · hace 1 d

Presentamos GeneBench-Pro

GeneBench-Pro es una evaluación a nivel de investigación diseñada para medir cómo los agentes de IA manejan la ambigüedad y toman decisiones trascendentales en biología computacional, ampliando el GeneBench original. Aborda la limitación de las evaluaciones actuales al probar capacidades de orden superior como manejar ruido en los datos, revisar supuestos y determinar cuándo los resultados están listos para la toma de decisiones.

lab OpenAI News · hace 1 d

Epidemiología de los volcados de núcleo: corrección de un error de 18 años

Los ingenieros de OpenAI resolvieron caídas inexplicables de C++ en su infraestructura de datos Rockset identificando dos causas distintas: corrupción silenciosa de hardware en un host de Azure y una condición de carrera de 18 años en GNU libunwind.

lab OpenAI News · hace 1 d

Cómo se ha expandido la adopción de ChatGPT

Los datos de OpenAI Signals revelan que la adopción de ChatGPT se está ampliando y profundizando a nivel global, con usuarios enviando un 50% más de mensajes diarios y duplicando el número de tareas distintas probadas seis meses después de registrarse.

media r/LocalLLaMA · hace 1 d

Notas sobre FastContext de Microsoft y un pequeño experimento de SWE-QA con pistas de recuperación

El autor analiza el artículo de Microsoft sobre FastContext y presenta un enfoque alternativo que utiliza búsqueda semántica fuera de línea para reducir el uso de tokens en agentes de codificación. Al indexar los repositorios por adelantado y proporcionar pistas de rango de archivos a Claude Code, el método logró una reducción del 43,8% en el total de tokens mientras mantenía una calidad de solución equivalente en SWE-QA.

media r/LocalLLaMA · hace 1 d

Microsoft elimina el modelo FastContext de Hugging Face y GitHub

El modelo FastContext de Microsoft ha sido eliminado de sus canales oficiales de distribución, con tanto el repositorio de Hugging Face como la página asociada de GitHub ahora vacías o eliminadas.

media r/LocalLLaMA · hace 1 d

InternScience lanza Agents-A1, un modelo MoE de 35B con benchmarks increíbles

InternScience ha lanzado el modelo Agents-A1 en Hugging Face, con una arquitectura de Mezcla de Expertos (MoE) de 35 mil millones de parámetros. El lanzamiento incluye un informe técnico disponible en arXiv y se destaca por su rendimiento excepcional en benchmarks.

media r/LocalLLaMA · hace 1 d

Usuario de Reddit busca LLM local para tareas de sysadmin en Linux sin conexión

Un usuario de Reddit está pidiendo recomendaciones sobre un modelo de lenguaje grande local capaz de realizar tareas de administración del sistema, como leer registros para identificar y corregir problemas, completamente sin conexión.

media r/LocalLLaMA · hace 1 d

Tesla V100 16GB LLMs locales, benchmarks de NVLink individual y doble

El artículo detalla el rendimiento de los módulos Tesla V100-SXM2-16GB para ejecutar modelos de lenguaje grandes locales, destacando su alto ancho de banda HBM2 como un activo clave para la inferencia a pesar de carecer de operaciones tensoriales bf16 o int8.

media r/LocalLLaMA · hace 1 d

Consulta de usuario sobre el uso de PrimeIntellect-3.1

Un usuario de Reddit pregunta si alguien está utilizando actualmente el modelo PrimeIntellect-3.1 y compartiendo sus experiencias. La publicación hace referencia a la disponibilidad del modelo en Hugging Face pero no proporciona detalles técnicos ni métricas de rendimiento.

media r/LocalLLaMA · hace 1 d

Por qué Dario está en llamas: lección de la burbuja dotcom

El artículo sostiene que el estallido de las dotcom fue causado por empresas que carecían de fosos estructurales, no por un fallo del internet en sí mismo, y aplica esta lección a la estrategia de Dario Amodei para construir un monopolio de IA.

media r/LocalLLaMA · hace 1 d

La venganza del RAMpocalypse

Un usuario de Reddit pide ayuda para apoyar a Bathaee Dunne LLP en una demanda antimonopolio que involucra a Samsung, SK Hynix y Micron.

github llama.cpp · hace 2 d

Lanzamiento de llama.cpp b9849: manejo de URLs con IPv6 y nuevos binarios

El lanzamiento de llama.cpp b9849 introduce soporte para literales IPv6 entre corchetes en las autoridades de URL, permitiendo que el servidor analice formas [host]:puerto según RFC 3986. Esta actualización asegura un formato adecuado de los registros de escucha, encabezados proxy y reconstrucciones de clientes, manteniendo bare remote_addr para el seguimiento por solicitud.

lab Google DeepMind Blog · hace 2 d

Comienza a construir con Nano Banana 2 Lite y Gemini Omni Flash

Google ha lanzado dos nuevos modelos de IA, Nano Banana 2 Lite y Gemini Omni Flash, diseñados para mejorar las capacidades de los desarrolladores al crear aplicaciones inteligentes.

lab Hugging Face Blog · hace 2 d

Por qué la especialización es inevitable

El artículo sostiene que la especialización en el aprendizaje automático es una tendencia ineludible impulsada por la creciente complejidad de los modelos y la necesidad de experiencia específica del dominio.

media r/LocalLLaMA · hace 2 d

Un usuario compara Gemma 4 31B y Qwen 3.6 27B/35B para scripting en Python

Un usuario de Reddit comparte su experiencia usando los modelos Gemma 4 31B y Qwen 3.6 en OpenCode para escribir scripts de Python para automatización de flujos de trabajo.

arxiv arXiv cs.CL · hace 2 d

REAR: Realineación de preferencias en tiempo de prueba mediante descomposición de recompensas

Los autores presentan REAR, un marco novel que extiende el escalado en tiempo de prueba (TTS) a la alineación de preferencias modelando la tarea como un problema de realineación. Este enfoque aborda la limitación de los métodos TTS existentes, que típicamente se restringen a dominios verificables como matemáticas y programación.

arxiv arXiv cs.CL · hace 2 d

OLIVE: Predicción de latentes aumentados por vista con reconstrucción de forma de onda para SSL de habla

Los autores proponen OLIVE, un marco de aprendizaje de representaciones de habla auto-supervisado que optimiza conjuntamente objetivos de análisis y síntesis mediante predicción de latentes enmascarados aumentados por vista y reconstrucción de forma de onda. Este enfoque unificado restringe las características tempranas del codificador para retener información a nivel de señal, mientras moldea las representaciones contextuales posteriores hacia la invarianza para un rendimiento robusto en tareas posteriores.

arxiv arXiv cs.CL · hace 2 d

MaDI-Bench: Un Benchmark de Integración de Datos de Extremo a Extremo

El Benchmark de Integración de Datos de Mannheim (MaDI-Bench) se presenta como el primer benchmark público para la integración de extremo a extremo de tablas relacionales, abordando la falta de herramientas de evaluación integrales en el campo. Cubre todos los pasos del proceso de integración, incluido el emparejamiento de esquemas, la normalización de valores, el bloqueo de entidades, el emparejamiento de entidades y la fusión de datos.

arxiv arXiv cs.CL · hace 2 d

Descubriendo la dinámica impulsada por la saliencia en la confianza del consumidor con simulación social generativa

Este artículo presenta ConsumerSim, un marco generativo que reconstruye la dinámica del Índice de Confianza del Consumidor (CCI) utilizando una población sintética calibrada con microdatos y diversas señales económicas. El modelo se ubica en el primer lugar entre las líneas base para la precisión de la reconstrucción en las series CCI de EE. UU., la UE27 y Japón, particularmente durante choques de alta saliencia.