Как создаётся датасет

В целом 6 шагов из них сложных ну пара

По каждому объекту (их около тысячи, но есть некоторая оптимизация) скачивается с наш.дом.рф архив типа такого (50мб, zip)

Архив распаковывается, в нем история всех версий декларации (тут небольшая декларация, 50 версий)

Каждая версия — файл типа такого: /data/example/obj38362_pd77-002143_01.pdf (1.3МБ) на 200-800 страниц

Затем каждый этот файл парсится, чтобы получить большую табличку близкую к оригиналу , затем конвертируется в пригодную для машинной обработки, а затем в удобный json-файл который затем станет одной (или N=4 для пообъектной выгрузки) строчками в датасорсе.

Так выковыривается одна из примерно 15 тысяч строчек в наборе.

затем всё описанное выше повторится для 50+ файлов из архива, для каждого из примерно 500 архивов, после чего будет автоматически собрано в удобные наборы данных которые вы и можете скачать и изучить.

Ну и сводную табличку в экселе я делаю руками, благо занимает секунд 40. Смысла с т.з. дата-сатанизма в ней никакого, зато красиво и наглядно.

В начале марта домрф немного поменял формат файлов с декларациями. Чтож, немного допилил парсер


Posted

in

by

Tags:

Comments

Leave a Reply