Очень давно нашёл на сайте Национальной библиотеки Чувашской Республики (http://www.nbchr.ru/)...

15.05.2025

Очень давно нашёл на сайте Национальной библиотеки Чувашской Республики (http://www.nbchr.ru/) электронный каталог, сделанный на Joomla-модуле ИРБИС (от irbis-service.com). Пока удалось выгрузить 250 тысяч (пока только 10 тысяч) метаданных электронных публикаций.

Теперь задача — вытащить нужные параметры. Проблема в том, что там почти нет HTML-разметки, так что парсить приходится вручную. Пишу скрипт, который потихоньку разбирает этот массив данных.

Заодно обнаружил, что у части публикаций есть прямые ссылки на PDF — всего около 60 тысяч файлов, из которых 20 тысяч уже скачано.

А вообще, в каталоге около 2 млн метаданных публикаций, но их пока оставил на потом.

Надеюсь, хватит времени сделать полноценный датасет и удобную поисковую систему, а потом ещё и распознать PDF в текст.

Предварительно данные можно посмотреть здесь
https://mapcheb.ru/library

Очень давно нашёл на сайте Национальной библиотеки Чувашской Республики (http://www.nbchr.ru/)...

Вам также может понравиться

rill

shaper

genai-api