Очень интересно, спасибо! Судя по списку авторов, тексты в основном конца 19го-начала 20го века. Интересно, сохранилось ли это различие в современной литературе :)
В конце статьи указано, что вывод на экран работает быстрее. Я сталкивалась с тем, что вывод на экран значительно замедляет работу программы — по сравнению с отсутствием вывода (не знаю, как это объяснить). Если так, то получается, предложенные решения будут работать еще медленнее?
Интересно почитать, спасибо. Если интересует тема доходов, то US Census Bureau в своем ACS дает данные по доходам населения, но правда на основе опросов, то есть люди могут занижать.
Из ваших комментариев я понимаю, что вероятность использования подобных материалов ненулевая ("суд вправе"), в то время как в первоначальном комментарии sim-dev я вижу нулевую вероятность ("использование… будет нарушением").
Если я вас правильно поняла, вы говорите, что вероятность низкая, но она есть — так я с этим абсолютно согласна. И считаю действия активистов, которые к этому приводят, никак не бесполезными.
iCpu описывает условия, при которых материалы могут быть не использованы, вы же в своем комментарии говорите "использовать собранные ВНЕ следствия данные будет нарушением законной процедуры" — без каких-либо условий.
Не знаю, какие законы действуют в РФ, т.к. я там не проживаю, но в Украине, например, есть прецеденты включения данных журналистских расследований в материалы следствия. Опять же, есть ЦПК, который регулярно обжалует разные околокоррупционные решения в суде.
Поэтому мне странно слышать, что "энтузиазм добровольцев бесполезен". Не говоря уже о том, что распространение такой информации ценно само по себе, даже вне следствий и судов.
Рассмотрим такой пример. В магазине произошла кража. У меня есть видеозапись этой кражи, где видны лица воров и сама кража. Через месяц магазин решает подать заявление о краже и просит меня предоставить эту видеозапись. Вы хотите сказать, что следствие не сможет ее использовать?
Особенно прекрасно это скопление точек за ЕР возле 100% ))
Было бы интересно наложить результаты на результаты прошлых выборов и партийную принадлежность главы/ зам.главы комиссий, чтобы выделить влияние руководства ТИК.
То что преступника нельзя наказать прямо сейчас, не означает, что не нужно собрать доказательства его вины.
Они полезны для информирования прямо сейчас, а для доказательства вины могут быть полезны когда-нибудь потом.
Переход на личности без аргументации и с попутным перекладыванием задачи доказательства своей правоты на оппонента — это простой, но неэффективный способ ведения дискуссии. До свидания.
Какой смысл привязываться к всем остальным факторам, если вы в ручном подходе тоже привязываетесь не ко всем? Например, делая вывод о влиянии кол-ва подписчиков, вы берете две компании, у которых зафиксированы только два других фактора (публикации и сотрудники). Вот интересно проверить: если взять график хабраиндекса от кол-ва подписчиков (без оглядки на другие факторы), будет видна логарифмическая зависимость?
Статья оставила смешанные впечатления. Называется "знакомьтесь, линейные модели" — ок, но если человек не знаком даже с линейной моделью, не слишком ли много информации дальше на него вываливается?
И далее текст очень неоднородный, то для начинающих, то какие-то специфические вещи.
Удивила регуляризация для борьбы с оверфиттингом — разве линейные модели подвержены оверфиттингу?
В целом такое впечатление, что автор прослушал какой-то курс по машинному обучению, сделал конспект — а потом из конспекта решил сделать статью для хабра )
Какие именно числа нужно взять и откуда их взять?
Числа из таблички выучат мусор, потому в ней нет ключевых фич
Вы используете показатели из профиля компании, почему бы не взять их?
И еще: почему вы искали единичные примеры, а не построили график зависимости хабраиндекса от каждой переменной?
Модель должна быть time-aware, здесь ключевой компонент зависит от времени, как это учесть в алгоритме обучения?
Собрать данные за несколько периодов времени?
XGBoost — алгоритм из семейства ансамблей, у них не слишком хорошо с interpretability, а здесь это с самого начало предполагалось важным условием
У нейронных сетей тоже с этим "не слишком хорошо", по идее, от этого метода можно отказаться на этапе "Нам нужно, чтобы ты определил ключевые факторы, которые на него влияют"
Я когда-то читала интервью с одним из своих преподавателей в университетской газете (он вел случайные процессы), и он там сказал, что его даже немного обижает, когда математическим концепциям пытаются найти практическое применение. Ведь математика красивая и изящная, а всякие приземленные вещи ее опошляют. У меня мнение прямо противоположное, но это интервью многое прояснило в системе преподавания ))) Правда, жаль что я его прочитала уже после выпуска…
Отличная, так сказать, визуализация, спасибо!
Когда читаю такие материалы, становится грустно за бесцельно прожитые годы в универе, где все было строго по букве доказательства, но очень далеко от реального мира.
Если я вас правильно поняла, вы говорите, что вероятность низкая, но она есть — так я с этим абсолютно согласна. И считаю действия активистов, которые к этому приводят, никак не бесполезными.
Не знаю, какие законы действуют в РФ, т.к. я там не проживаю, но в Украине, например, есть прецеденты включения данных журналистских расследований в материалы следствия. Опять же, есть ЦПК, который регулярно обжалует разные околокоррупционные решения в суде.
Поэтому мне странно слышать, что "энтузиазм добровольцев бесполезен". Не говоря уже о том, что распространение такой информации ценно само по себе, даже вне следствий и судов.
Было бы интересно наложить результаты на результаты прошлых выборов и партийную принадлежность главы/ зам.главы комиссий, чтобы выделить влияние руководства ТИК.
Они полезны для информирования прямо сейчас, а для доказательства вины могут быть полезны когда-нибудь потом.
И далее текст очень неоднородный, то для начинающих, то какие-то специфические вещи.
Удивила регуляризация для борьбы с оверфиттингом — разве линейные модели подвержены оверфиттингу?
В целом такое впечатление, что автор прослушал какой-то курс по машинному обучению, сделал конспект — а потом из конспекта решил сделать статью для хабра )
Вы используете показатели из профиля компании, почему бы не взять их?
И еще: почему вы искали единичные примеры, а не построили график зависимости хабраиндекса от каждой переменной?
Собрать данные за несколько периодов времени?
У нейронных сетей тоже с этим "не слишком хорошо", по идее, от этого метода можно отказаться на этапе "Нам нужно, чтобы ты определил ключевые факторы, которые на него влияют"
Когда читаю такие материалы, становится грустно за бесцельно прожитые годы в универе, где все было строго по букве доказательства, но очень далеко от реального мира.