Se lanza el conjunto de datos de presentaciones EDGAR de Stanford

Stanford presenta SEFD, una reconstrucción fiel a la disposición de las presentaciones ante la SEC en MultiMarkdown. El conjunto de datos SEFD-v1 con 152B tokens permite el modelado del lenguaje financiero e incluye benchmarks para pronósticos y transcripción de tablas, con menos del 0.1% de superposición con Common Crawl.