Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 60

Desarrollador solicita pruebas para soporte de MTP en GLM-4.7-Flash mediante llama.cpp

Un desarrollador busca asistencia de la comunidad para probar el soporte de Predicción Multi-Tokens (MTP) para el modelo GLM-4.7-Flash dentro del marco de trabajo llama.cpp. El autor reconoce que modelos anteriores como GLM Air y GLM Flash están desactualizados, pero expresa un interés personal en habilitar MTP para ellos. La solicitud se dirige específicamente a usuarios que poseen el hardware necesario para ejecutar GLM-4.7-Flash y tienen la capacidad técnica de compilar llama.cpp desde el código fuente. Se pide a los participantes que evalúen la funcionalidad del modelo GGUF proporcionado e informen cualquier problema encontrado. Además, se solicita a los probadores medir y compartir las ganancias de velocidad de rendimiento logradas mediante la implementación de MTP. El desarrollador ha cargado el modelo de prueba en un repositorio de Hugging Face para acceso inmediato. Los usuarios que requieran opciones de cuantización más pequeñas están invitados a contactar al autor directamente para obtener versiones alternativas.

media r/LocalLLaMA · hace 5 h

Pregunta sobre por qué las pilas de ROCm e Intel van detrás de CUDA en la madurez del ecosistema de software

El autor cuestiona por qué los ecosistemas de software para ROCm de AMD e Intel han fallado al mejorar rápidamente para igualar a CUDA de NVIDIA. Se argumenta que hasta que el software de los proveedores competidores se ponga al día, NVIDIA continuará cobrando una prima masiva por sus productos convenientes. El autor se identifica como usuario tanto de hardware NVIDIA como de Apple Silicon para desarrollo de IA. Expresa un deseo de precios más asequibles dentro del mercado. El argumento sugiere que las reducciones de precio solo ocurrirán cuando exista competencia genuina. Esta perspectiva destaca la dominancia actual de CUDA en el panorama del hardware de IA.

media r/LocalLLaMA · hace 5 h

Debate comunitario sobre ejecutar DeepSeek V4 Flash con descarga de MoE

Un usuario de Reddit preguntó sobre la viabilidad de ejecutar el modelo DeepSeek V4 Flash utilizando técnicas de descarga de Mezcla de Expertos. El autor señaló que los intentos anteriores para ajustar el modelo deseado y su caché KV en VRAM requerían un margen adicional de memoria de 5-10 GB. Destacó varios recursos comunitarios, incluida una versión GGUF del modelo disponible en Hugging Face del equipo huihui-ai. Además, el usuario señaló una bifurcación del repositorio de antirez que introduce paralelismo de tensor y mejoras de socket para un mejor rendimiento. El debate también hizo referencia a la implementación específica de Fringe diseñada para el soporte CUDA de DeepSeek V4 Flash. En consecuencia, el usuario consideró compilar el modelo y descargar el archivo de casi 100 GB para probar estas capacidades de descarga.

media r/LocalLLaMA · hace 5 h

Anthropic acusa a Alibaba de una campaña ilícita de extracción de capacidades de IA

Anthropic ha acusado formalmente a Alibaba de llevar a cabo una campaña para extraer de manera descarada e ilícita capacidades de sus modelos de inteligencia artificial. La compañía alega que esta actividad involucró métodos de acceso no autorizados diseñados para eludir los protocolos de seguridad estándar. Estas acusaciones destacan las crecientes preocupaciones sobre la protección de tecnologías propietarias de aprendizaje automático en el competitivo sector de la IA. Los informes indican que los esfuerzos de extracción alegados fueron sistemáticos en lugar de incidentales. Este conflicto subraya la rivalidad intensificada entre las principales empresas tecnológicas por el desarrollo de modelos avanzados. Los detalles técnicos específicos de los métodos de extracción siguen bajo investigación por ambas partes.

media r/LocalLLaMA · hace 5 h

SupraWeather-Nano-Preview: Un pequeño FT-Transformer para clasificación meteorológica

SupraLabs ha lanzado SupraWeather-Nano, un modelo de vista previa diseñado para clasificar fenómenos meteorológicos a partir de datos meteorológicos tabulares en bruto. La arquitectura utiliza un Tokenizador de Características dedicado y un Codificador Transformer, donde cada característica de entrada recibe su propio token aprendido que es agregado por un token CLS antes de procesarse a través de una pila transformer pequeña. Este enfoque elimina la necesidad de entradas de texto o prompts del sistema, permitiendo a los usuarios ingresar directamente valores numéricos para recibir un resultado de clasificación. El modelo acepta nueve entradas específicas: temperatura, humedad, presión, tendencia de presión, velocidad del viento, dirección del viento, altitud, mes y masa de aire. Fue entrenado completamente en un conjunto de datos sintético generado por métodos basados en reglas que contenía 120.000 muestras. SupraLabs señala que esto es un experimento de arquitectura más que una herramienta para pronósticos del mundo real, con cinco de seis pruebas de estrés internas aprobadas exitosamente.

arxiv arXiv cs.CL · hace 5 h

HIPE-2026: Extracción de relaciones persona-lugar a partir de textos históricos multilingües

La campaña HIPE-2026 aborda el desafío de extraer relaciones persona-lugar a partir de documentos históricos multilingües y ruidosos. Superando las ediciones anteriores centradas en el reconocimiento de entidades nombradas, esta tercera iteración se enfoca en relaciones temporalmente fundamentadas etiquetadas como 'at' e 'isAt'. La evaluación involucró a 17 equipos participantes procesando datos en francés, alemán e inglés a través de tres conjuntos de datos distintos. Estos conjuntos comprendían texto de periódicos de los siglos XIX y XX junto con un conjunto de dominio sorpresa de obras literarias francesas del período moderno temprano. Una característica clave de la campaña fue su marco tripartito que evaluaba la precisión predictiva, la eficiencia computacional y la generalización entre dominios. Los resultados de más de 40 ejecuciones enviadas demostraron una amplia variedad de estrategias, desde modelos de lenguaje grandes hasta clasificadores ligeros. Los hallazgos destacan las compensaciones inherentes entre precisión, eficiencia y robustez en la extracción de relaciones históricas a gran escala.

arxiv arXiv cs.CL · hace 5 h

Evolución basada en datos de los métodos de investigación en Ciencias de la Biblioteca y la Información (1990-2022)

Este estudio analiza la influencia de la investigación centrada en datos en las Ciencias de la Biblioteca y la Información mediante el examen de la evolución metodológica desde 1990 hasta 2022. Los investigadores extrajeron automáticamente cuatro categorías clave de entidades impulsadas por datos de artículos académicos: algoritmos y modelos, recursos de datos, software y herramientas, y métricas. El análisis evalúa tendencias en tres dimensiones, incluidas las características temporales, la evolución específica del tema y las características transversales de los métodos. Los hallazgos identifican los recursos de datos como el principal impulsor de los cambios metodológicos dentro de la disciplina. La investigación revela un patrón cíclico caracterizado por la emergencia seguida de estabilidad o aplicación práctica en los métodos de LIS. Esta perspectiva destaca cómo los avances en big data han remodelado el panorama técnico del campo durante tres décadas.

github llama.cpp · hace 5 h

la versión b9823 de llama.cpp añade OpenVINO para Windows y actualiza los binarios

El proyecto llama.cpp ha publicado la versión b9823, proporcionando binarios precompilados para las plataformas macOS, iOS, Linux, Android, Windows y openEuler. Un cambio clave en esta versión es la adición de una compilación de OpenVINO para Windows al pipeline de check-release.

github llama.cpp · hace 5 h

llama.cpp b9824 release: renombrado de binarios y nuevas compilaciones

El proyecto llama.cpp ha lanzado la versión b9824, que incluye mejoras en los binarios rpc-server y export-graph-ops. La herramienta `export-graph-ops` se renombra para seguir las convenciones de nomenclatura de pruebas, mientras que `rpc-server` se renombra a `ggml-rpc-server` para evitar conflictos en directorios del sistema.

arxiv arXiv cs.CL · hace 6 h

Tejido del Pensamiento Formal: Unir la Validación Sintáctica Rigurosa con Representaciones Estructurales Aprendidas

Los autores presentan Weave of Formal Thought (WoFT), un paradigma que combina validación sintáctica rigurosa con representaciones estructurales aprendidas para la generación de código. El enfoque utiliza un motor formal y un decodificador restringido que es correcto y completo respecto a la especificación completa de Tree-sitter. Al augmentar el análisis LR generalizado con lexificación especulativa, el sistema mantiene hipótesis concurrentes del estado del lexer para admitir prefijos válidos de programas mientras rechaza los inválidos. Además, WoFT emplea ajuste fino de variables latentes para entrenar modelos a intercalar símbolos de gramática no terminal directamente en el proceso de generación. Este método utiliza el algoritmo wake-sleep reponderado para optimizar el límite inferior de evidencia ponderado por importancia del texto superficial. El modelo aprende a retener selectivamente derivaciones formales como una pizarra estructural adaptativa durante la inferencia. Los experimentos en Python muestran que el ajuste fino de StarCoder2-3B con este objetivo reduce la entropía cruzada por token en un 14.3% en comparación con una línea base solo de texto.

arxiv arXiv cs.CL · hace 6 h

SpeechEQ: Evaluación de la inteligencia emocional en modelos conversacionales de voz conscientes del contexto social

Los autores presentan SpeechEQ, un marco integral diseñado para evaluar el razonamiento sociolingüístico de los Modelos de Lenguaje de Voz. Las evaluaciones existentes a menudo pasan por alto el complejo razonamiento multimodal requerido para el diálogo activo, al depender de texto aislado o percepción acústica pasiva. El marco incluye un conjunto de datos validado con 2,265 diálogos en 15 subescalas del Cociente Emocional basadas en la teoría EQ-i 2.0. También cuenta con un protocolo de evaluación multi-turno medido por la puntuación Spoken EQ propuesta, inspirada en las evaluaciones humanas de EQ. Los experimentos revelan limitaciones en cómo tanto el Reconocimiento de Emoción en Voz como los modelos de extremo a extremo comprenden las señales paralingüísticas a través del habla. Mientras que las arquitecturas de extremo a extremo superan a los sistemas en cascada, los modelos multimodales actuales siguen teniendo cuellos de botella debido a varios problemas específicos. Estas barreras incluyen un atajo de modalidad dependiente del texto, una trampa de seguridad inducida por la alineación y amnesia contextual.

arxiv arXiv cs.CL · hace 6 h

Autodata: Un científico de datos agente para crear datos sintéticos de alta calidad

Los autores presentan Autodata, un método general que permite a los agentes de IA funcionar como científicos de datos para construir conjuntos de datos de entrenamiento y evaluación de alta calidad. El enfoque implica meta-optimizar estos agentes para que aprendan a generar datos cada vez más robustos mediante un proceso llamado Agentic Self-Instruct. Se realizaron experimentos en tareas de investigación en ciencias de la computación, razonamiento legal y razonamiento de objetos matemáticos. Los resultados demuestran que este método de creación agente produce un rendimiento mejorado en comparación con las técnicas clásicas de creación de conjuntos de datos sintéticos. Además, la meta-optimización del propio agente científico de datos proporciona un aumento de rendimiento aún mayor. Este trabajo ilustra cómo el cómputo de inferencia incrementado puede convertirse en datos de entrenamiento de modelos de mayor calidad. Los autores sugieren que esta dirección tiene el potencial de cambiar fundamentalmente la forma en que se construyen los datos de IA.

arxiv arXiv cs.CL · hace 6 h

Dziri Voicebot: Sistema de voz a voz de extremo a extremo para el dialecto argelino

El artículo presenta Dziri Voicebot, un sistema conversacional de voz a voz de extremo a extremo diseñado para el bajo recurso del dialecto argelino. Este trabajo extiende los esfuerzos previos de modelado de diálogos basados en texto de Bechiri y Lanasri hacia una interacción completa basada en voz. La canalización modular propuesta integra reconocimiento automático de voz, comprensión del lenguaje natural, generación aumentada por recuperación y síntesis de texto a voz. Se construyeron conjuntos de datos dedicados para el dominio de telecomunicaciones con el fin de ajustar modelos preentrenados para cada componente. El sistema ASR utiliza una adaptación basada en Whisper, mientras que el módulo NLU combina incrustaciones de transformadores con un marco de diálogo orientado a tareas. Se entrenó un sistema TTS neural sobre un corpus dialectal recién recopilado para habilitar la generación de respuestas habladas. Los resultados experimentales demuestran un rendimiento sólido en todos los componentes, incluyendo bajas tasas de error de palabras y altas puntuaciones de clasificación de intención.

arxiv arXiv cs.CL · hace 6 h

Tatoxa: Un sistema novel de desintoxicación de texto para el tártaro de bajos recursos

El artículo presenta Tatoxa, un sistema de última generación diseñado para la desintoxicación automatizada de texto en el idioma tártaro de bajos recursos. Este trabajo aborda la falta de atención a la investigación sobre la mitigación del contenido abusivo en idiomas con recursos digitales limitados. Los autores presentan un nuevo conjunto de datos creado específicamente para ajustar y evaluar modelos de desintoxicación en estos entornos restringidos. Los experimentos comparativos demuestran que Tatoxa supera tanto a los grandes modelos de lenguaje de código abierto existentes como a los comerciales propietarios en métricas clave de calidad. Además, el estudio investiga las capacidades de transferencia interlingüística para evaluar la viabilidad de utilizar datos de otros idiomas. Los resultados indican que entrenar con datos nativos de tártaro es significativamente más efectivo que transferir conocimiento desde idiomas culturalmente cercanos como el ruso. Incluso cuando se dispone de un gran corpus en ruso, los enfoques interlingüísticos tienen un rendimiento inferior al de los modelos entrenados exclusivamente con texto nativo de tártaro.

arxiv arXiv cs.CL · hace 6 h

Colapso del RL de Uso de Herramientas en Múltiples Pasos y Correcciones Supervisadas

Los recientes métodos de aprendizaje por refuerzo agéntico para modelos de lenguaje grandes a menudo sufren de inestabilidad o ganancias limitadas en tareas de uso de herramientas. Los experimentos revelan que algunos modelos experimentan un colapso catastrófico, donde el rendimiento cae abruptamente y las estructuras de invocación de herramientas fallan. El análisis muestra que estos fallos provienen de picos de probabilidad inesperados en tokens de control específicos que interrumpen la ejecución estructurada. A pesar de esta interrupción, la capacidad subyacente de uso de herramientas permanece intacta pero está oscurecida por problemas específicos de formato. Para abordar esto, el estudio investiga diversas señales supervisadas, incluyendo supervisión fuera de política y guía basada en pistas bajo varios esquemas de entrenamiento. Los autores encuentran que intercalar el ajuste fino supervisado con el aprendizaje por refuerzo mejora sustancialmente la estabilidad durante el entrenamiento. Sin embargo, este enfoque exhibe un rendimiento degradado cuando se evalúa en datos fuera de distribución para formato y contenido. Los resultados destacan la importancia de comprender los fallos del RL para permitir un entrenamiento robusto para tareas complejas de uso de herramientas en múltiples pasos.

arxiv arXiv cs.CL · hace 6 h

Detectar, Desaprender, Restaurar: Defender Modelos de Resumen de Texto Contra el Envenenamiento de Datos

El estudio aborda la amenaza del envenenamiento de datos durante el entrenamiento en el ajuste fino de modelos de resumen de texto abstractivo. Los adversarios manipulan pequeños conjuntos de datos específicos de la tarea para inducir fallos persistentes en el resumen mientras mantienen las métricas de evaluación estándar. Se propone un marco de defensa post-hoc unificado para detectar y remediar el envenenamiento a lo largo de la cadena de suministro de aprendizaje automático. En configuraciones de caja blanca, la detección se basa en el análisis de funciones de influencia que identifica una influencia de entrenamiento anormalmente alta en pares envenenados. Las defensas de caja negra utilizan auditorías conductuales basadas en una mayor sensibilidad a perturbaciones que preservan la semántica. Los autores introducen ataques novedosos dirigidos a la distorsión factual y al sesgo representacional que evaden las alarmas convencionales. Los experimentos en nueve arquitecturas y seis conjuntos de datos muestran una precisión de detección del 85-92% para las defensas propuestas. El desaprendizaje por ascenso de gradiente restaura hasta el 96% del comportamiento original con menos de una degradación del 0.6% en ROUGE.

arxiv arXiv cs.CL · hace 6 h

Un estudio revela que los lectores prefieren las traducciones literarias humanas sobre las de IA, a pesar de la calidad adecuada de la máquina

Un reciente estudio investiga las preferencias de los lectores respecto a las traducciones de obras literarias realizadas por IA frente a las humanas, señalando que aunque las métricas automáticas suelen favorecer la salida de la máquina, estas no logran capturar los efectos inmersivos y literarios. Los investigadores pidieron a 15 lectores ávidos que compararan traducciones humanas con aquellas generadas por una pipeline de LLM agencial para 15 novelas en francés, polaco y japonés. La evaluación involucró extractos de aproximadamente 8K palabras mediante tanto la lectura inmersiva de textos completos como la lectura detallada de pares de fragmentos alineados. Los resultados mostraron que, aunque los lectores consideraron adecuadas las traducciones automáticas, prefirieron significativamente las versiones humanas por su claridad y facilidad para sumergirse en la lectura. Cabe destacar que los participantes no pudieron distinguir de manera fiable entre ambos tipos de traducción y tendieron a favorecer aquella versión que creían hecha por humanos. Para apoyar futuras investigaciones, los autores publicaron LAIT, un conjunto de datos centrado en el lector que contiene 1K comentarios, 2K juicios y 7.2K anotaciones a nivel de fragmento.

arxiv arXiv cs.CL · hace 6 h

Evaluación de la Robustez del Razonamiento OCR en Modelos Visión-Lenguaje Bajo Perturbaciones Visuales

Los autores presentan OCR-Robust, un benchmark diseñado para evaluar la robustez de los modelos visión-lenguaje durante tareas de razonamiento OCR bajo perturbaciones visuales. El conjunto de datos comprende 812 muestras divididas en dos subconjuntos: OCR1.0, que cubre documentos y escritura a mano, y OCR2.0, centrado en gráficos y tablas. Un estudio piloto identificó cinco tipos de perturbación representativos en tres niveles de severidad para garantizar una evaluación eficiente. El estudio compara 18 modelos, incluyendo sistemas propietarios y VLMs de código abierto, utilizando métricas como Retención de Corrupción Relativa y Retención del Peor Caso. Los resultados indican que una mayor precisión en condiciones limpias no necesariamente se correlaciona con una mayor robustez frente a la degradación visual. Además, el análisis revela que los gráficos y las tablas son sustancialmente más frágiles que las entradas similares a documentos cuando se someten a estas perturbaciones.

arxiv arXiv cs.CL · hace 6 h

Des-aprendizaje natural: Control asimétrico de qué reglas sobreviven al preentrenamiento

Un estudio identifica el 'des-aprendizaje natural', un fenómeno en el que los modelos de lenguaje pequeños pierden reglas gramaticales aprendidas a mitad del preentrenamiento a pesar de que la evidencia permanece en los datos. Los investigadores observaron que un modelo que aprendía concordancia de pronombre-género con Sue colapsó de una precisión de 0.94 a cerca de cero en el paso 3,500 sin ningún pico correspondiente en la curva de pérdida. La supervivencia de estas reglas está determinada por la frecuencia de soporte dentro del flujo de entrenamiento, mientras que la relación datos-parámetro solo modula la profundidad del colapso. Esta dinámica de emergencia-entonces-colapso se replicó en múltiples corpus, presupuestos y semillas, y se confirmó en puntos de control Pythia públicos donde la profundidad del colapso se correlacionó con la escala del modelo. El proceso de olvido actúa como un mecanismo de desplazamiento donde un patrón superficial competidor supera a la regla, haciendo que el margen de log-probabilidad cruce cero dentro de los 100 pasos del fallo conductual. El control sobre este destino es asimétrico; mientras que inyectar contra-evidencia puede destruir reglas mediante una respuesta dosis-monótona, restaurar el soporte incluso a 450 veces el nivel sostenible no logra recuperarlas.

arxiv arXiv cs.CL · hace 6 h

La ceguera del léxico de palabras clave distorsiona la medición de la postura retórica

Un estudio que analiza 85 entrevistas con cuatro intelectuales públicos revela que la puntuación basada en palabras clave puede producir artefactos estadísticos respecto a la postura retórica. El análisis inicial mostró un patrón robusto de co-ocurrencia entre afecto negativo y certeza enfática, con coeficientes de correlación altos que oscilan entre r = 0.72 y 0.93. Sin embargo, reemplazar este método con una clasificación semántica zero-shot basada en LLM sobre el corpus diarizado completo de 32,625 oraciones redujo significativamente estas correlaciones. Por ejemplo, la correlación de Dalio bajó de 0.851 a 0.206, mientras que otros hablantes exhibieron relaciones negativas o nulas entre negatividad y certeza. En contraste, el análisis con LLM reveló un fuerte acoplamiento entre sentimiento negativo y lenguaje hedging (de cautela), alineándose con las expectativas convencionales del discurso pesimista. La discrepancia se debe a tres fallas estructurales en los léxicos de palabras clave: ceguera sintáctica, ceguera a la polisemia y ausencia categórica. Estos defectos pueden invertir el significado semántico, como puntuar 'nunca absolutamente totalmente seguro' como alta certeza. Los autores argumentan que los conteos de palabras clave miden tendencias de co-ocurrencia léxica en lugar de certeza epistémica, constituyendo un error de categoría.