Los Clusters Semánticos Pre-entrenan la Máquina Tsetlin para Interpretabilidad

Un nuevo marco pre-entrena la Máquina Tsetlin utilizando clusters semánticos de modelos de lenguaje, evitando embeddings. El método agrupa muestras de texto en clusters coherentes mediante K-means o Top2Vec, luego utiliza pares cluster-muestra para entrenar una TM sin negación con retroalimentación de Tipo I. Los resultados muestran un rendimiento superior en cinco conjuntos de datos, igualando la precisión a nivel de BERT mientras mantiene la interpretabilidad completa.