Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 61

La IA de voz en tiempo real oye pero no escucha

Un estudio evalúa cuatro sistemas principales de voz en tiempo real para producción: GPT Realtime 2 de OpenAI, Gemini 3.1 Flash Live de Google, y Qwen3.5 Omni Plus y Omni Flash de Alibaba. La investigación se centra en tareas donde tanto las palabras como la entonación vocal transmiten información significativa en tres escenarios consecuentes. Los cuatro sistemas actúan sobre las palabras literales en lugar de la voz, lo que lleva a errores como colgar llamadas con usuarios que lloran e insisten en que no hay problema o aprobar transferencias bancarias realizadas con voces asustadas. Sorprendentemente, esta desconexión a menudo no es un fallo de percepción, ya que tres de los cuatro sistemas pueden identificar confiablemente angustia, miedo o sarcasmo cuando se les pregunta directamente. A pesar de esta conciencia, los modelos ignoran estas señales emocionales durante la toma de decisiones, exhibiendo lo que los autores denominan la 'brecha de inteligencia emocional'. El estudio también señala que los sistemas estiman el acento y la edad basándose en sesgos léxicos en lugar de propiedades acústicas. Inducir a los sistemas a prestar atención explícita a la entrega vocal mejora el rendimiento solo parcialmente e inconsistentemente. Estos hallazgos sugieren que la IA de voz en tiempo real actual se comporta como si el habla se redujera a una transcripción, lo que exige precaución en entornos donde el tono es crítico.

media r/LocalLLaMA · hace 7 h

Pipeline local de NL a SQL usando Qwen3 4B y planificación determinista

Un desarrollador ha implementado un sistema completamente local de generación de filtros a partir de lenguaje natural en hardware sin GPU. La solución utiliza el modelo Qwen3 4B Instruct ejecutándose mediante llama.cpp con inferencia solo en CPU. En lugar de generar SQL directamente, el modelo se centra en la intención semántica y la selección estructurada de filtros. Un planificador de consultas determinista gestiona posteriormente los procesos de generación y optimización de SQL. El pipeline emplea un método de recuperación híbrido BM25 y embeddings usando FAISS para el almacenamiento vectorial. Recupera los cuatro ejemplos coincidentes principales de aproximadamente 800 instancias semánticas incrustadas para inyectarlas en el prompt. Este enfoque permite que el sistema funcione eficazmente dentro de las estrictas limitaciones de RAM reducida y sin acceso a internet.

media r/LocalLLaMA · hace 7 h

Cotización bloqueada de Dell para 6x RTX PRO 6000 Max-Q a $8,960

Un usuario en Reddit compartió una cotización bloqueada de Dell para seis GPUs RTX PRO 6000 Blackwell Max-Q con un precio de $8,959.99 por unidad. Esta oferta es significativamente menor que el precio de lista de $15,999 publicado solo un día antes. La cotización inicial para las seis unidades expira en aproximadamente tres horas desde el momento de la publicación. El autor también tiene una cotización válida separada para dos unidades al mismo precio descontado hasta el 3 de julio. Está buscando ideas de la comunidad sobre cómo proceder con la compra del hardware para un cluster de inferencia GLM 5.2 local. Aunque tiene los fondos para comprar las seis unidades inmediatamente, quiere soluciones creativas para aprovechar el descuento por volumen que expira. El autor aclaró que no está buscando asesoramiento financiero ni solicitudes para comprar las GPUs él mismo.

media r/LocalLLaMA · hace 7 h

Consulta en Reddit sobre ejecutar modelos grandes con 4x-8x RTX 6000 PRO

Un usuario de Reddit busca opiniones de la comunidad sobre el rendimiento de modelos de lenguaje grandes en sistemas equipados con cuatro a ocho GPUs NVIDIA RTX 6000 PRO. La consulta se dirige específicamente a usuarios que tienen entre 384GB y 768GB de VRAM disponibles para ejecutar modelos como GLM 5.2, Kimi 2.7 y DeepSeek V4 Pro. El autor señala que, aunque estos modelos pueden ejecutarse técnicamente con cuantización de 4 bits, es posible que no quepan dentro de las limitaciones de memoria al usar precisión de 8 bits. Hace referencia a un repositorio de benchmarks pero destaca que carece de datos para los lanzamientos más recientes de modelos. Una preocupación clave planteada es si la degradación del rendimiento al usar cuantización de 4 bits frente a 8 bits es lo suficientemente significativa como para afectar tareas agénticas o de programación. El usuario también pregunta qué backends de inferencia, como vLLM o SGLang, están siendo utilizados actualmente por otros en esta configuración de hardware.

La IA de voz en tiempo real oye pero no escucha

Pipeline local de NL a SQL usando Qwen3 4B y planificación determinista

Cotización bloqueada de Dell para 6x RTX PRO 6000 Max-Q a $8,960

Consulta en Reddit sobre ejecutar modelos grandes con 4x-8x RTX 6000 PRO

Estructuración de un diccionario legible por máquina árabe-inglés usando gramáticas de expresión de análisis

WBCMor VQA: Un punto de referencia bilingüe inglés-urdu para la respuesta a preguntas visuales en hematología

Generación automática de resúmenes para artículos académicos mediante aprendizaje basado en prompts

Medir la dificultad de la investigación en PLN: Una relación con forma de U invertida con el impacto académico

iLLaDA: Un modelo de lenguaje de difusión enmascarado de 8B con atención totalmente bidireccional

Hybrid-IR: Recuperación híbrida de doble vía con razonamiento iterativo para la respuesta a preguntas médicas complejas

Enrutamiento de Rama Local: Escalado Eficiente y Entrenable en Tiempo de Prueba para Modelos de Lenguaje

La memoria marca la diferencia: evaluando cómo distintos roles de memoria moldean agentes conversacionales

Traducción automática neuronal para Tangkhul-Inglés de recursos limitados

Sarashina2.2-TTS: Abordando la polifonía de kanji en la generación de voz japonesa mediante escalado de datos y síntesis dirigida

Estilometría computacional de traducciones al inglés del Canon Pali a través de los Pitakas

Operadores de historia: Descomponer la transformación de original a secuela en el espacio de incrustaciones

SFL-MTSC: Aprovechando la autoconsistencia multi-tarea a nivel de fotogramas semánticos para una comprensión robusta del lenguaje hablado con múltiples intenciones

Encuesta de estrategias de detección y mitigación de toxicidad para modelos de lenguaje multilingües

Presentación de los corpus Hlava Cor y Hlava AD: Variación humana en la coreferencia y las relaciones discursivas

La modelización del mundo autorizada por agentes alinea el entrenamiento con las necesidades de decisión