Telegram

На hf обнаружил чувашские датасеты загруженные пользователем [Alexander...

Изображение из Telegram
На hf обнаружил чувашские датасеты загруженные пользователем Alexander Antonov, который
давно публикует корпуса на этом сайте https://ru.corpus.chv.su/content/about.html

— 30 тысяч аудиофрагментов фраз, записанных на чувашском языке
huggingface.co/datasets/alexantonov/chuvash_voice
— Чувашско-русский корпус из 1.4 млн предложений
https://huggingface.co/datasets/alexantonov/chuvash_russian_parallel
— Чувашско-английский корпус из 200 тыс. предложений
huggingface.co/datasets/alexantonov/chuvash_english_parallel
— 3 миллиона предложений на чувашском языке
huggingface.co/datasets/alexantonov/chuvash_mono

А также файнтюн-модель распознавания чувашского текста из аудио
huggingface.co/alexantonov/whisper-small-chv-pre
huggingface.co/alexantonov/whisper-medium-chv-pre

#датасеты@daniilak