Очень давно нашёл на сайте Национальной библиотеки Чувашской Республики (http://www.nbchr.ru/)...
Очень давно нашёл на сайте Национальной библиотеки Чувашской Республики (http://www.nbchr.ru/) электронный каталог, сделанный на Joomla-модуле ИРБИС (от irbis-service.com). Пока удалось выгрузить 250 тысяч (пока только 10 тысяч) метаданных электронных публикаций.
Теперь задача — вытащить нужные параметры. Проблема в том, что там почти нет HTML-разметки, так что парсить приходится вручную. Пишу скрипт, который потихоньку разбирает этот массив данных.
Заодно обнаружил, что у части публикаций есть прямые ссылки на PDF — всего около 60 тысяч файлов, из которых 20 тысяч уже скачано.
А вообще, в каталоге около 2 млн метаданных публикаций, но их пока оставил на потом.
Надеюсь, хватит времени сделать полноценный датасет и удобную поисковую систему, а потом ещё и распознать PDF в текст.
Предварительно данные можно посмотреть здесь
https://mapcheb.ru/library
Теперь задача — вытащить нужные параметры. Проблема в том, что там почти нет HTML-разметки, так что парсить приходится вручную. Пишу скрипт, который потихоньку разбирает этот массив данных.
Заодно обнаружил, что у части публикаций есть прямые ссылки на PDF — всего около 60 тысяч файлов, из которых 20 тысяч уже скачано.
А вообще, в каталоге около 2 млн метаданных публикаций, но их пока оставил на потом.
Надеюсь, хватит времени сделать полноценный датасет и удобную поисковую систему, а потом ещё и распознать PDF в текст.
Предварительно данные можно посмотреть здесь
https://mapcheb.ru/library


