Pull to refresh

Comments 46

Расскажите с какими трудностями пришлось столкнуться при работе на данным проектом? Во сколько вылилась разработка в человеко-часах и почему?

Расскажу о своем опыте. Одна из засад — данные на сайте могут измениться задним числом, поэтому этот момент нужно мониторить. На сайте много JS, местами работающего криво, данные на сайте порой выгружаются не все. Есть мнение, что это связанно с переходом на новый вариант сайта (на старом информация была более полной).

Делал парсер с нуля на PHP который собирал все тендеры с сайта, разбирал на отдельные характеристики данные и пихал их в базу. Веб морда Yii создана на стандартном интерфейсе генерируемым gii, соответственно сортировка/поиск по характеристикам есть. Трудозатраты: 10 часов.
В человекочасах — это команда из 4-х человек и около 4-х месяцев.

Там огромная открытая база на FTP сервере и несколько сотен гигабайт переработано и база в десятки гигабайт получилась в итоге.

Плюс у нас ключевое условие — это готовность к высоким нагрузкам. Мы предполагаем довольно интенсивное использование открытого API и сразу делали систему под это.
А БД какую используете? MongoDB?
MySQL, MongoDB с некоторыми особенностями и заточкой под high-load
MongoDB в роли кэша? Или тендеры как раз в ней хранятся, а MySQL выполняет вспомогательные функции?
Я или коллеги чуть позже напишем технические подробности — не хотим пока сразу всё выдавать:)
Буду ждать с нетерпением. Очень интересная узнать об архитектуре и о том, как вы справляетесь с объемом данных.
А это ftp публичное? Если да, то на сколько расходятся данные в нем и тем, что показывается на сайте госзакупок?
Да, на форуме zakupki.gov.ru есть описание.
Симпатичный сайт.

Предложу еще номинацию для конкурса — «Анализ данных» — сделайте выгрузку БД в csv на какую-нить дату и кто накопает там самую оригинальную информацию :)
В этот конкурс мы так уже не успеем, у нас почти всё заточено именно под разработчиков и API отдаёт данные в JSON.
Но если кто-то сделает на базе API человекочитаемый экспорт — то хорошая будет заявка на победу.
Ок, поковыряю на досуге
Может быть, выгрузку в Google Spreadsheet через их же js сделать?
А насколько актуальной в дальнейшем может быть ваша база данных?
При грамотной организации API и актуальности это может быть интересно еще и как сервис для подрядчиков.

Для подрядчиков есть коммерческие сервисы — типа ist-budget.ru или zakupki360.ru
У нас скорее для общественности.

Актуализировать будем ежедневно и еженедельно — смотря какую нагрузку это будет создавать. Сейчас мы всё адаптируем под 44-ФЗ и тогда будет понятно окончательно.
Вопрос оставлю тут, пожалуй.
Что бы отправить android-приложение (приветствуются OpenSource) — что нужно высылать? Выложенную версию на Google Play? APK-файл? Исходники на GitHub (соберёте уже сами)? Файл то к форме не приложить.

Ну просто любопытства ради. А почему именно 2 места призовых, а не 3 (в каждой номинации)?
2 места — это такая у нас традиция, можно сказать особенность наших конкурсов.

А представлять можно и исходники, но лучше то что смогут опробовать члены жюри которые не программисты. Так что если выкладывать APK то с инструкцией как его поставить.
Т.е. ничего против более простой и понятной схемы «выложить в Google Play и дать ссылку» вы не имеете?)
В Google Play или Яндекс шоп для Андроида — ничего против не имею. Чем удобнее тем лучше)
А на сайте только 94-ФЗ, без 223тьего?
Пока да, сейчас загружаем 223-ФЗ, 44-ФЗ и гранты.
Как забавно, буквально пару месяцев назад поднимал кластер MongoDB и выгружал скриптами эти данные с целью посмотреть, что там и как. Но одному конечно с этим справиться было бы очень тяжело.

Если интересно, вот код:
github.com/roveo/zakupki
Отличный проект. Похоже по духу на open gov, а есть ли какая-либо поддержка от федералов?
Они нам не мешают что уже хорошо:)
Тогда просто желаю вам успеха!
Можно ли у вас смотреть статистику в по всяким разрезам, например, по отраслям?
Мы сделали акцент на API так чтобы такую статистику мог бы подсчитать кто угодно. Функциональные возможности собственно сайта мы тоже развиваем, но так чтобы не в ущерб другим возможностям. По отраслям мы думаем над тем что можно было бы добавить — у нас пока есть коды бюджетной классификации, бюджеты и коды ОКДП, но отраслевую нарезку они дают лишь отчасти.
А в чём для вас выгода такого сайта?
Кстати, не боитесь что вас гос-во за публикацию таких данных завалит (ddos)? Ну или просто заблокирует
С какой кстати? Вы также просто можете запросить те же данные на сайте zakupki.gov.ru.
А там есть аналитика, по которой можно сделать выводы об откатах или слишком больших затратах на определённую отрасль?
Всё что мы делаем это «переупаковываем» и так открытую информацию и даём к ней удобный доступ. Не вижу причин нас блокировать кому бы то ни было.
А как часто обновляетесь? Данные из реестра по контрактам например от 09.01.2014 г. отсутствует, когда можно будет их запросить?
Данные мы выгружаем ежедневно, но за 2014 год они пока недоступны потому как сейчас мы занимаемся утряски новых данных по 44-ФЗ в общую структуру.
проблема автоматического анализа в том, что название контрактов не всегда отображает реальные работы: так, например, обычные стеклопакеты обзывают системой вентиляции и климатического контроля (реальный пример) :)
или в названии контракта указана стройка (потому что деньги выделялись на стройку), а внутри — яхта :)
реальные вещи пишут в ТЗ, а единого формата для документации, увы, нет.
планируется ли в дальнейшем API сделать платным?
Нет, clearspending.ru — это общественный и некоммерческий проект и таким он и останется.
Скажите, а вы загружаете саму конкурсную документацию (например, технические задания)?
Можно ли теоретически осуществить полнотекстовый поиск не только по описаниям контрактов, но и по их содержанию?
Какой приблизительно общий объем документации?
Объём документации очень большой, думаю что там до террабайта и более. Коммерческие проекты её анализируют, у нас пока ресурсов просто нехватает. Планируем в будущем, не очень близком.
Ребят, а в целом, какой размер занимают все данные с фтп zakupki.gov?
Смотря как их раскрывать, распаковывать и тд. Если хранить всю историю то под террабайт и более.
Я так понял что там только уже заключенные контракты? А есть информация по открытым аукционам и если нет то планируется ли?
Информация по открытым процедурам закупок есть у многих коммерческих операторов. Таких как zakupki360.ru или ist-budget.ru или trade.su — мы не сможем и не планируем конкурировать с ними. У нас общественный проект — если мы и начнем добавлять открытые процедуры то только для общественного контроля и насколько осилим. Сейчас даже по контрактам у нас много что недоделано.

Но в планах есть.
А в чем разница мониторить с zakupki.gov.ru закрытые уже сделки и открытые? у zakupki360.ru или ist-budget.ru или trade.su нет АПИ, Цены бы не было этому АПИ еслиб там были ВСЕ торги и открытые и закрытые.
Sign up to leave a comment.