В целом 6 шагов из них сложных ну пара
По каждому объекту (их около тысячи, но есть некоторая оптимизация) скачивается с наш.дом.рф архив типа такого (50мб, zip)
Архив распаковывается, в нем история всех версий декларации (тут небольшая декларация, 50 версий)
Каждая версия — файл типа такого: /data/example/obj38362_pd77-002143_01.pdf (1.3МБ) на 200-800 страниц
Затем каждый этот файл парсится, чтобы получить большую табличку близкую к оригиналу , затем конвертируется в пригодную для машинной обработки, а затем в удобный json-файл который затем станет одной (или N=4 для пообъектной выгрузки) строчками в датасорсе.
Так выковыривается одна из примерно 15 тысяч строчек в наборе.
затем всё описанное выше повторится для 50+ файлов из архива, для каждого из примерно 500 архивов, после чего будет автоматически собрано в удобные наборы данных которые вы и можете скачать и изучить.
Ну и сводную табличку в экселе я делаю руками, благо занимает секунд 40. Смысла с т.з. дата-сатанизма в ней никакого, зато красиво и наглядно.
В начале марта домрф немного поменял формат файлов с декларациями. Чтож, немного допилил парсер
Leave a Reply
You must be logged in to post a comment.