Представляете — есть архив на 439 гигабайт, состоящий из 27_796 PDF-файлов по чувашской тематике....

Общее количество страниц переваливает за миллион — 1_057_892 страницы. Такое ощущение, что в этих файлах собрана целая вселенная знаний чувашского народа, но всё равно этого мало
Интересно, как бы эти PDF обработались через DeepSeek OCR — он ведь работает с токенами достаточно эффективно и недорого. Можно было бы сделать всё это массивное наследие полностью текстовым и поисковым.
Ранее ко мне уже обращалась команда Gigachat с запросом на поиск уникальных датасетов. Надеюсь, работа с этим материалом уже проводится и он позволит им углубить свои знания о чувашской культуре
Daniilak — Канал


