Pull to refresh
17
0
Александр Еськов @Sistemaalex

Специалист

Send message

Использование ChatGPT в судебном процессе

Level of difficulty Medium
Reading time 16 min
Views 3.3K

По практиковал использование ChatGPT при решении юридических задач в процессе подготовки к судебному процессу. Пример реальный — взрыв бытового газа в многоэтажном доме.

Готовил и опубликовал материал на специализированном юридическом ресурсе, поэтому стиль работы достаточно сложен для восприятия, но надеюсь на конструктивную критику.

Читать далее
Total votes 8: ↑4 and ↓4 0
Comments 18

Прогноз IT-рынка (с иронией)

Reading time 3 min
Views 5.6K

По служебной необходимости пришлось окунуться в океан прогнозов. Окунулся, да и ладно, но попутно пришел к выводу, что прогнозов огромное количество, но простому разработчику они в принципе ничего подсказать и не могут. Так как это, либо прогнозы настроений служащих крупных IT-компаний типа индекса настроений либо результаты личных интервью (такого типа или такого), что отражает, по существу, как крупные компании внутренне воспринимают текущую ситуацию на рынке, то есть глубоко изнутри крупных компаний. А, как известно, летящая дробинка приносит разный результат слону и синице.

Второй тип прогнозов принципиально созданы на исследовании отображения IT-отрасли в остальной массе экономических отношений. Типа прогнозов Deloitte или Gartner, Dramexchange конечно они более детализированы, но сделаны под потребности крупных IT-компаний, которые свои позиции на рынке отстаивают, в том числе, и интегрированностью с другими отраслями экономики. И эти связи позволяют достаточно хорошо проходить мелкие зигзаги экономической ситуации в среднесрочной перспективе.

На основе этих размышлений попробовал сделать какой-то синтез для простого разраба. Для этого взял открытые данные компании Reports and Data отраслевых IT-прогнозов. Составил датасет (он в приложенном файле) и в процессе причесывания обнаружил, что данные в нем не проходит мои тесты на валидность. Немного был удивлен этим фактом, но так как жалко было проделанной работы и поэтому пришлось сделать материал с долей иронии. Далее в посте представляю одну метрику (темп роста) и список направлений, в которых развивается IT-отрасль, а также пару-тройку собственных наблюдений.

Читать далее
Total votes 4: ↑4 and ↓0 +4
Comments 16

Бизнес-аналитика в управлении рисками: Некоторые последние достижения (2014 год)

Reading time 23 min
Views 4.8K

На одном из интенсивов по BI-аналитике от коуча услышал высказывание: «BI-аналитика создает ценность для предприятия, но определить величину денежного эквивалента этой ценности невозможно».

Я не согласился с этим высказыванием так как, на мой взгляд, менеджмент создает систему метрик бизнес-аналитики с целью видеть векторы развития предприятия и скрытые проблемы, приводящие к снижению итоговых результатов. И если с помощью метрик вектора развития сложно конкретизировать, то кризисные явления идентифицируются достаточно надежно, при качественном исследовании исторических данных. То есть проявляется явная функция пространства метрик, показывающая зоны, в которые предприятию предпочтительно не попадать и система бизнес-метрик является инструментом риск-менеджмента. В настоящий момент технологии монетизации мероприятий риск-менеджмента хорошо отлажены. Так же ресурс «Reports and Data» прогнозирует объем рынка анализа рисков к 2026 в объеме 65 млрд. долл.

Посерфил обнаружил в сети, что существует всего лишь один университет, у которого есть программа обучения по данному курсу в The Hong Kong University of Science and Technology и нижепредставленную статью. После таких результатов мне стало ясно, что тема исследована слабо и причина в том, что риск-менеджмент отдельное направление с достаточно широким диапазоном и риски в операционной деятельности предприятия  - подраздел этих мероприятий.

Чтобы читатель мог представить широту задач даю ссылку на статью об инструментах в этой области «The 19 Best Risk Management Software of 2021».

После переведенной статьи изложил свои размышления о том, как сделать набор бизнес-метрик инструментом риск-менеджмента.

Читать далее
Total votes 7: ↑5 and ↓2 +3
Comments 0

Трансформация резюме. Опыт и Яндекс.Кью в помощь

Reading time 22 min
Views 3.3K

Как писать резюме инструкций и советом много, но как конкретно это вопросик из вопросов. Сложилась ситуация когда девушка, которая у меня работала у меня лет пять назад обратилась за помощью с этим вопросом. Как все происходило и что сложилось на разных этапах оффера и через несколько недель ее работы (за пару-тройку недель до окончания испытательного срока), а также критика и размышления конкретно этого случая представляю вашему вниманию.

Самый сложный вопрос при подготовке публикации заключался в следующем: «Стоит ли публиковать переписку с размышлениями и эмоциями. Но пришел к выводу, что публикация будет интересна и девушкам, а для женщин информация без эмоциональной подложки имеет существенность на уровне знания об определенном гвозде, в банке с гвоздями, в чьем-то чулане. И поэтому оставлено все в той форме как это происходило.

Читать далее
Total votes 18: ↑4 and ↓14 -10
Comments 8

Обзор инструментов качества данных

Reading time 24 min
Views 9.9K

A survey of data quality tools (2005)

 Достаточно часто каждый аналитик сталкивается с ситуацией, когда загрузил данные в блок анализа, а в ответ – тишина, хотя в тестовом режиме все работает. Причина обычно в том, что данные недостаточно очищены, где в этой ситуации искать аналитику засаду и с чего начинать обычно задачка не из легких. Можно конечно использовать механизмы сглаживания, но каждый знает, что если из черного ящика с красными и зелеными шарами отсыпать килограмм шаров и вместо них вбросить килограмм белых, то в понимании распределения красных и зеленых это мало приблизит.

Когда находишься в ситуации «а с чего начать» помогает таксономия «грязных данных». Хотя в учебниках и дают список проблем, но он обычно неполный, вот постоянно искал исследования, которые рассматривают эту тему подробней. Попалась работа T.Gschwandtner, J.Gartner, W.Aigner, S.Miksch хотя они ее делали для рассмотрения способов очистки данных связанных с датами и временем но, на мой взгляд, это оказалось исключение, которое потребовало разобраться с правилами поглубже чем в учебниках. По собственному опыту знаю, что сопряжение дат и времени «вынос мозга» практически в прямом смысле и поэтому и зацепился за исследование этих авторов.

В своей работе они проанализировали несколько работ других авторов и составили мощный список «загрязнений данных» логика их анализа заслуживает уважения и, с другой стороны, дает возможность более «со стороны» посмотреть на любую задачу очистки данных. Все это видно когда сопоставляешь всю совокупность работ, по которым они делают сравнительный анализ. Поэтому и сделал перевод самых используемых ими 5 статей, список с ссылками на эти переводы ниже.

Это шестая статья из цикла

 1. Таксономия форматов времени и дат в неочищенных данных, 2012 г.

2. Очистка данных: проблемы и современные подходы 2000 г.

3. Таксономия «грязных данных» 2003 г.

4. Проблемы, методы и вызовы комплексной очистки данных 2003 г.

5. Формульное определение проблем качества данных 2005 г.

6. Обзор инструментов качества данных 2005 г.

Читать далее
Total votes 3: ↑3 and ↓0 +3
Comments 4

Формульное определение проблем качества данных

Reading time 24 min
Views 3.1K

A Formal Definition of Data Quality Problems (2005)

 Достаточно часто каждый аналитик сталкивается с ситуацией, когда загрузил данные в блок анализа, а в ответ – тишина, хотя в тестовом режиме все работает. Причина обычно в том, что данные недостаточно очищены, где в этой ситуации искать аналитику засаду и с чего начинать обычно задачка не из легких. Можно конечно использовать механизмы сглаживания, но каждый знает, что если из черного ящика с красными и зелеными шарами отсыпать килограмм шаров и вместо них вбросить килограмм белых, то в понимании распределения красных и зеленых это мало приблизит.

Когда находишься в ситуации «а с чего начать» помогает таксономия «грязных данных». Хотя в учебниках и дают список проблем, но он обычно неполный, вот постоянно искал исследования, которые рассматривают эту тему подробней. Попалась работа T.Gschwandtner, J.Gartner, W.Aigner, S.Miksch хотя они ее делали для рассмотрения способов очистки данных связанных с датами и временем но, на мой взгляд, это оказалось исключение, которое потребовало разобраться с правилами поглубже чем в учебниках. По собственному опыту знаю, что сопряжение дат и времени «вынос мозга» практически в прямом смысле и поэтому и зацепился за исследование этих авторов.

В своей работе они проанализировали несколько работ других авторов и составили мощный список «загрязнений данных» логика их анализа заслуживает уважения и, с другой стороны, дает возможность более «со стороны» посмотреть на любую задачу очистки данных. Все это видно когда сопоставляешь всю совокупность работ, по которым они делают сравнительный анализ. Поэтому и сделал перевод самых используемых ими 5 статей, список с ссылками на эти переводы ниже.

Это пятая статья из цикла

 1. Таксономия форматов времени и дат в неочищенных данных, 2012 г.

2. Очистка данных: проблемы и современные подходы 2000 г.

3. Таксономия «грязных данных» 2003 г.

4. Проблемы, методы и вызовы комплексной очистки данных 2003 г.

5. Формульное определение проблем качества данных 2005 г.

6. Обзор инструментов качества данных 2005 г.

Читать далее
Rating 0
Comments 2

Проблемы, методы и вызовы комплексной очистки данных

Reading time 42 min
Views 2K

Достаточно часто каждый аналитик сталкивается с ситуацией, когда загрузил данные в блок анализа, а в ответ – тишина, хотя в тестовом режиме все работает. Причина обычно в том, что данные недостаточно очищены, где в этой ситуации искать аналитику засаду и с чего начинать обычно задачка не из легких. Можно конечно использовать механизмы сглаживания, но каждый знает, что если из черного ящика с красными и зелеными шарами отсыпать килограмм шаров и вместо них вбросить килограмм белых, то в понимании распределения красных и зеленых это мало приблизит.

Когда находишься в ситуации «а с чего начать» помогает таксономия «грязных данных». Хотя в учебниках и дают список проблем, но он обычно неполный, вот постоянно искал исследования, которые рассматривают эту тему подробней. Попалась работа T.Gschwandtner, J.Gartner, W.Aigner, S.Miksch хотя они ее делали для рассмотрения способов очистки данных связанных с датами и временем но, на мой взгляд, это оказалось исключение, которое потребовало разобраться с правилами поглубже чем в учебниках. По собственному опыту знаю, что сопряжение дат и времени «вынос мозга» практически в прямом смысле и поэтому и зацепился за исследование этих авторов.

В своей работе они проанализировали несколько работ других авторов и составили мощный список «загрязнений данных» логика их анализа заслуживает уважения и, с другой стороны, дает возможность более «со стороны» посмотреть на любую задачу очистки данных. Все это видно когда сопоставляешь всю совокупность работ, по которым они делают сравнительный анализ. Поэтому и сделал перевод самых используемых ими 5 статей, список с ссылками на эти переводы ниже.

Это четвертая статья из цикла

1. Таксономия форматов времени и дат в неочищенных данных, 2012 г.

2. Очистка данных: проблемы и современные подходы 2000 г.

3. Таксономия «грязных данных» 2003 г.

4. Проблемы, методы и вызовы комплексной очистки данных 2003 г.

5. Формульное определение проблем качества данных 2005 г.

6. Обзор инструментов качества данных 2005 г.

Читать далее
Rating 0
Comments 0

Таксономия «грязных данных»

Reading time 35 min
Views 4K

Достаточно часто каждый аналитик сталкивается с ситуацией, когда загрузил данные в блок анализа, а в ответ – тишина, хотя в тестовом режиме все работает. Причина обычно в том, что данные недостаточно очищены, где в этой ситуации искать аналитику засаду и с чего начинать обычно задачка не из легких. Можно конечно использовать механизмы сглаживания, но каждый знает, что если из черного ящика с красными и зелеными шарами отсыпать килограмм шаров и вместо них вбросить килограмм белых, то в понимании распределения красных и зеленых это мало приблизит.

Когда находишься в ситуации «а с чего начать» помогает таксономия «грязных данных». Хотя в учебниках и дают список проблем, но он обычно неполный, вот постоянно искал исследования, которые рассматривают эту тему подробней. Попалась работа T.Gschwandtner, J.Gartner, W.Aigner, S.Miksch хотя они ее делали для рассмотрения способов очистки данных связанных с датами и временем но, на мой взгляд, это оказалось исключение, которое потребовало разобраться с правилами поглубже чем в учебниках. По собственному опыту знаю, что сопряжение дат и времени «вынос мозга» практически в прямом смысле и поэтому и зацепился за исследование этих авторов.

В своей работе они проанализировали несколько работ других авторов и составили мощный список «загрязнений данных» логика их анализа заслуживает уважения и, с другой стороны, дает возможность более «со стороны» посмотреть на любую задачу очистки данных. Все это видно когда сопоставляешь всю совокупность работ, по которым они делают сравнительный анализ. Поэтому и сделал перевод самых используемых ими 5 статей, список с ссылками на эти переводы ниже.

Это третья статья из цикла

 1. Таксономия форматов времени и дат в неочищенных данных, 2012 г.

2. Очистка данных: проблемы и современные подходы 2000 г.

3. Таксономия «грязных данных» 2003 г.

4. Проблемы, методы и вызовы комплексной очистки данных 2003 г.

5. Формульное определение проблем качества данных 2005 г.

6. Обзор инструментов качества данных 2005 г.

Читать далее
Rating 0
Comments 0

Очистка данных: проблемы и современные подходы

Reading time 28 min
Views 11K

Data Cleaning: Problems and Current Approaches, 2000 г.

Достаточно часто каждый аналитик сталкивается с ситуацией, когда загрузил данные в блок анализа, а в ответ – тишина, хотя в тестовом режиме все работает. Причина обычно в том, что данные недостаточно очищены, где в этой ситуации искать аналитику засаду и с чего начинать обычно задачка не из легких. Можно конечно использовать механизмы сглаживания, но каждый знает, что если из черного ящика с красными и зелеными шарами отсыпать килограмм шаров и вместо них вбросить килограмм белых, то в понимании распределения красных и зеленых это мало приблизит.

Когда находишься в ситуации «а с чего начать» помогает таксономия «грязных данных». Хотя в учебниках и дают список проблем, но он обычно неполный, вот постоянно искал исследования, которые рассматривают эту тему подробней. Попалась работа T.Gschwandtner, J.Gartner, W.Aigner, S.Miksch хотя они ее делали для рассмотрения способов очистки данных связанных с датами и временем но, на мой взгляд, это оказалось исключение, которое потребовало разобраться с правилами поглубже чем в учебниках. По собственному опыту знаю, что сопряжение дат и времени «вынос мозга» практически в прямом смысле и поэтому и зацепился за исследование этих авторов.

В своей работе они проанализировали несколько работ других авторов и составили мощный список «загрязнений данных» логика их анализа заслуживает уважения и, с другой стороны, дает возможность более «со стороны» посмотреть на любую задачу очистки данных. Все это видно когда сопоставляешь всю совокупность работ, по которым они делают сравнительный анализ. Поэтому и сделал перевод самых используемых ими 5 статей, список с ссылками на эти переводы ниже.

Это вторая статья из цикла

 1. Таксономия форматов времени и дат в неочищенных данных, 2012 г.

2. Очистка данных: проблемы и современные подходы 2000 г.

3. Таксономия «грязных данных» 2003 г.

4. Проблемы, методы и вызовы комплексной очистки данных 2003 г.

5. Формульное определение проблем качества данных 2005 г.

6. Обзор инструментов качества данных 2005 г.

Читать далее
Total votes 2: ↑1 and ↓1 0
Comments 2

Таксономия очистки данных форматов времени и дат

Reading time 18 min
Views 3.2K

Достаточно часто каждый аналитик сталкивается с ситуацией, когда загрузил данные в блок анализа, а в ответ – тишина, хотя в тестовом режиме все работает. Причина обычно в том, что данные недостаточно очищены, где в этой ситуации искать аналитику засаду и с чего начинать обычно задачка не из легких. Можно конечно использовать механизмы сглаживания, но каждый знает, что если из черного ящика с красными и зелеными шарами отсыпать килограмм шаров и вместо них вбросить килограмм белых, то в понимании распределения красных и зеленых это мало приблизит.

Когда находишься в ситуации «а с чего начать» помогает таксономия «грязных данных». Хотя в учебниках и дают список проблем, но он обычно неполный, вот постоянно искал исследования, которые рассматривают эту тему подробней. Попалась работа T.Gschwandtner, J.Gartner, W.Aigner, S.Miksch хотя они ее делали для рассмотрения способов очистки данных связанных с датами и временем но, на мой взгляд, это оказалось исключение, которое потребовало разобраться с правилами поглубже чем в учебниках. По собственному опыту знаю, что сопряжение дат и времени «вынос мозга» практически в прямом смысле и поэтому и зацепился за исследование этих авторов.

В своей работе они проанализировали несколько работ других авторов и составили мощный список «загрязнений данных» логика их анализа заслуживает уважения и, с другой стороны, дает возможность более «со стороны» посмотреть на любую задачу очистки данных. Все это видно когда сопоставляешь всю совокупность работ, по которым они делают сравнительный анализ. Поэтому и сделал перевод самых используемых ими 5 статей, список с ссылками на эти переводы ниже. 

Это первая статья из цикла.

 1. Таксономия форматов времени и дат в неочищенных данных, 2012 г.

2. Очистка данных: проблемы и современные подходы 2000 г.

3. Таксономия «грязных данных» 2003 г.

4. Проблемы, методы и вызовы комплексной очистки данных 2003 г.

5. Формульное определение проблем качества данных 2005 г.

6. Обзор инструментов качества данных 2005 г.

Читать далее
Total votes 2: ↑1 and ↓1 0
Comments 0

Использование алгоритма k-means при районировании зон ценообразования недвижимости

Reading time 8 min
Views 3.4K

Данная публикация не относится к материалам серии «вот он event horizon», а наоборот, как советчик по применению признанных методов анализа БигДата (BigDate) в практической деятельности простых людей, далеких от зоопарка с Пайтонами (Python), Эскьюэлями (SQL), Сиплюсплюсами (C++) и др. – оценщиков, при определении рыночной стоимости недвижимости. Необходимость определять влияние местоположения на стоимость недвижимости не вызывает сомнения. Этот факт закреплен практически, в требованиях ФСО-7 (Федеральный стандарт оценки «Оценка недвижимости (ФСО N 7)» п.11б и 22е.

 В настоящий момент в сети существуют такие «тепловые карты недвижимости», но они узкие по назначению, так как отражают стоимость квартир, а необходимо оценивать и другие виды недвижимости. А с другой стороны эти информационные источники не наделены необходимой полнотой, что ограничивает их применение в судебной экспертизе.

 Конечно, каждый оценщик знает свою территорию и у него существует собственная «тепловая карта». Могу представить, как сам проводил районирование без использования матметодов (рис.1).

 

Читать далее
Total votes 2: ↑2 and ↓0 +2
Comments 2

Исследование данных о распространении COVID-19 с помощью разностей первого порядка. И что из этого получилось

Reading time 5 min
Views 2.1K
Привет Хабр. Пришла в голову идея о проведении анализа данных с помощью разностей. Метод не нов, но суть идеи состоит в том, чтобы исследовать не абсолютные значения данных о распространении, а именно долю агента (страны) в общем ансамбле агентов (всех стран). И поведение этой доли в процессе развития эпидемии.

На рисунке 1, представил все исследуемые точки (почти 24 000, данные от European Centre for Disease Prevention and Control), поэтому он немного мутный, и выделил линии аппроксимации для тех стран, которые явно проявляют свой характер с уравнениями регрессии и коэффициентом R^2.


Рис. 1.
Читать дальше →
Total votes 14: ↑6 and ↓8 -2
Comments 13

Структурирование рисков и решений при использовании BigData для получения официальной статистики

Reading time 35 min
Views 2.8K
Предисловие переводчика

Материал заинтересовал меня, в первую очередь из-за таблицы ниже:



С учетом того, что статистики (а российские, на генетическом уровне), мягко говоря, не любят все, что отличается от линейной зависимости, эти парни умудрились протащить использование функции активации в параболическом виде для определения степени риска использования BigData в официальной статистике. Молодцы. Естественно, статистики добавили свое примечание к этой работе – «1 Любые ошибки и упущения являются исключительной ответственностью авторов. Мнения, выраженные в этом документе, являются личными и не обязательно отражают официальную позицию Европейской комиссии». Но работу опубликовали. Думаю, на сегодня, этого достаточно, и они (авторы) никому не запрещали находить свои шкалы в этих аспектах.

В работе достаточно структурировано можно разделить, где и каким образом статистические методы отличаются от методов исследования для BigData. На мой взгляд, самая большая польза от этой работы будет при разговоре с заказчиком и для опровержения его высказываний типа:

— А мы собираем сами статистику, что Вы тут еще хотите исследовать?
— А вы нам свои результаты представьте так, чтобы мы их со своей статистикой согласовали. В этом вопросе авторы говорят, что неплохо бы почитать эту работу (3 How big is Big Data? Exploring the role of Big Data in Official Statistics)

В данной работе авторы проставили свое виденье уровня риска. Этот параметр стоит в скобках, не путать со ссылкой на источники.

Второе наблюдение. Авторы используют термин BDS – это аналог понятия BigData. (видимо реверанс официальной статистике).
Читать дальше →
Total votes 5: ↑3 and ↓2 +1
Comments 0

Будут ли большие данные выполнять свои обещания?

Reading time 28 min
Views 2K

От переводчика


Это перевод доклада ведущего экономиста Банка Англии о возможностях использования больших данных в деятельности указанной организации. Оригинальное название «Will Big Data Keep Its Promise?» от 30 апреля 2018 года.

Много говорят о Big Data, но, лично у меня, очень часто возникает впечатление, что нам как аборигенам в набедренных повязках, навязывают ничего не стоящие побрякушки. Этот доклад, на мой взгляд, подтверждает, что на самом деле, работа с Big Data достаточно сложный процесс, но продуктивный.

Конечно, этот доклад очень сильно отличается от того, что нам рассказывают, так как, сами понимаете, что этот доклад рассчитан на другую аудиторию. Качество, на мой взгляд, образцовое. В совокупности статуса организации «Bank of England» и специалиста, который представил эти результаты, становится понятно как, в немалых случаях, можно использовать анализ Big Data. Его некоторые выводы, в небольших формулировках, можно сформулировать следующим образом:

  • очень тщательно необходимо определять направление и уровень декомпозиции данных на примере действий Швейцарского Банка;
  • в существенном количестве случаев ценность может оказаться в новых результатах, на примере формирования формулировок управляющих документов Банка Англии.

О некоторых результатах, когда игровая индустрия может заменить метод «Монте-Карло» он только намекает.

Перевод машинный, с небольшими правками, чтобы не резало слух после ката.
Читать дальше →
Total votes 3: ↑3 and ↓0 +3
Comments 0

Очистка данных, как игра «Камень, Ножницы, Бумага». Это игра с финишем или без? Часть 2. Практическая

Reading time 5 min
Views 2K
В части первой описывалось, что данная публикация сделана на основе датасета результатов кадастровой оценки объектов недвижимости в Ханты-Мансийском АО.

Практическая часть представлена в виде шагов. Проводилась вся очистка в Excel, так как самый распространенный инструмент и описанные операции может повторить большинство специалистов знающих Excel. И достаточно неплохо подходит для работы в «рукопашную».

Нулевым этапом поставлю работы по запуску, сохранению файла, так как он размером 100 мб, то при количестве этих операций десятки и сотни на них уходит существенное время.
Открытие, в среднем, — 30 сек.
Сохранение – 22 сек.

Первый этап начинается с определения статистических показателей датасета.

Таблица 1. Статпоказатели датасета

Читать дальше →
Total votes 6: ↑5 and ↓1 +4
Comments 3

Очистка данных, как игра «Камень, Ножницы, Бумага». Это игра с финишем или без? Часть 1. Теоретическая

Reading time 14 min
Views 2K

1. Исходные данные


Очистка данных – это одна из проблем стоящих перед задачами анализа данных. В этом материале отразил наработки, решения, которые возникли в результате решения практической задачи по анализу БД при формировании кадастровой стоимости. Исходники здесь «ОТЧЕТ № 01/ОКС-2019 об итогах государственной кадастровой оценки всех видов объектов недвижимости (за исключением земельных участков) на территории Ханты-Мансийского автономного округа — Югры».

Рассматривался файл «Сравнительный модель итог.ods» в «Приложение Б. Результаты определения КС 5. Сведения о способе определения кадастровой стоимости 5.1 Сравнительный подход».

Таблица 1. Статпоказатели датасета в файле «Сравнительный модель итог.ods»
Общее количество полей, шт. — 44
Общее количество записей, шт. — 365 490
Общее количество символов, шт. — 101 714 693
Среднее количество символов в записи, шт. — 278,297
Стандартное отклонение символов в записи, шт. — 15,510
Минимальное количество символов в записи, шт. — 198
Максимальное количество символов в записи, шт. — 363

2. Вводная часть. Базовые нормы


Занимаясь анализом указанной БД сформировалась задача по конкретизации требований к степени очистки, так как, это понятно всем, указанная БД формирует правовые и экономические последствия для пользователей. В процессе работы оказалось, что особо никаких требований к степени очистки больших данных не сформировано. Анализируя правовые нормы в этом вопросе пришел к выводу, что все они сформированы от возможностей. То есть появилась определенная задача, под задачу комплектуются источники информации, далее формируется датасет и, на основе создаваемого датасета, инструменты для решения задачи. Полученные решения являются реперными точками в выборе из альтернатив. Представил это на рисунке 1.
Читать дальше →
Total votes 5: ↑4 and ↓1 +3
Comments 0

Высшее образование vs компетенция. Особое мнение судьи Конституционного Суда РФ о состоянии высшего образования

Reading time 19 min
Views 9.1K
Илон Маск (Elon Reeve Musk) по видеоконференции (youtube трекер 11:25) в процессе участия в бизнес-форуме «Дело за малым!», Краснодар 18-19.10.2019 сказал (перевод отсюда):
«Мне кажется, что образование в России — очень хорошее. И мне кажется, что в России много талантов и много чего интересного, с точки зрения технологий».
С другой стороны судья Конституционного суда Арановский К.В. в особом мнении в Постановление Конституционного Суда Российской Федерации делу о проверке конституционности положений пунктов 1 и 2 статьи 3 Закона Российской Федерации «О занятости населения в Российской Федерации» в связи с жалобой гражданина М.В.Чайковского, 8 октября 2019 года высказался очень критично:
«Тогда можно будет, наверное, заново обсудить, насколько профессиональное образование сертифицирует доступ к профессиям и следует ли связывать с дипломами осуществление тех или иных прав».
При этом Арановский К.В. мотивирует связанность этих конституционных прав с условиями:
«Если бы профессиональное образование уверенно гарантировало квалификацию обладателей дипломов, то в конституционно-правовом балансе интересов и ценностей это имело бы иной, вероятно, вес, который дал бы больше оснований поддержать авторитет диплома, чтобы обладание им было условием осуществления свободы труда и связанных с нею прав».
Как видно из высказывания Арановского К.В. существует прямая связь с профессиональной сертификацией и объемом прав человека. А такая связь, подтвержденная позицией судьи Конституционного суда, может быть аргументом для усиления позиции в случае инициации судебных процессов при защите прав автора. Этот аспект попробую раскрыть в данном материале.

Актуальность позиции судьи можно подтвердить словами успешного человека с другого конца света Джека Ма (Ма Юнь, Jack Ma):
«Через 20-30 лет наши дети просто не смогут выжить с образованием, которое мы им даем» (англ.).
Читать дальше →
Total votes 20: ↑15 and ↓5 +10
Comments 17

Первые три дня жизни поста на Хабре

Reading time 3 min
Views 4.9K
Каждый автор переживает за жизнь своей публикации, после опубликования смотрит статистику, ждет и беспокоится за комментарии, желает, чтобы публикация набрала хотя бы среднее число просмотров. У Хабра эти инструменты кумулятивные и поэтому достаточно сложно представить, как публикация автора начинает свою жизнь на фоне других публикаций.

Как известно, основная масса публикаций набирает просмотры в первые три дня. Чтобы представить, как живет публикация, я отследил статистику и представил механизм мониторинга и сравнения. Данный механизм будет применен к этой публикации и все смогут посмотреть, как это работает.

Первым этапом была собрана статистика о динамике публикаций за три первых дня жизни поста. Для этого анализировал потоки читателей, по публикациям за 28 сентября в период их жизни с 28 сентября по 1 октября 2019 г. путем фиксирования количества просмотров через различные промежутки времени в этот период. Первая диаграмма представлена на рисунке ниже, она получена в результате согласования динамики просмотров по времени.

Как можно посчитать из диаграммы, среднее число просмотров публикации через 72 часа при степенной функции аппроксимации составит ориентировочно 8380 просмотров.


Рис. 1. Распределение просмотров по времени, для всех публикаций.
Читать дальше →
Total votes 44: ↑40 and ↓4 +36
Comments 37

Треугольник Паскаля vs цепочек типа «000…/111…» в бинарных рядах и нейронных сетях

Reading time 6 min
Views 5.1K

Серия «Белый шум рисует черный квадрат»



История цикла этих публикаций начинается с того, что в книге Г.Секей «Парадоксы в теории вероятностей и математической статистике» (стр.43), было обнаружено следующее утверждение:


Рис. 1.

По анализу комментарий к первым публикациям (часть 1, часть 2) и последующими рассуждениями созрела идея представить эту теорему в более наглядном виде.

Большинству из участников сообщества знаком треугольник Паскаля, как следствие биноминального распределения вероятностей и многие сопутствующие законы. Для понимания механизма образования треугольника Паскаля развернем его детальнее, с развертыванием потоков его образования. В треугольнике Паскаля узлы формируются по соотношению 0 и 1, рисунок ниже.


Рис. 2.

Для понимания теоремы Эрдёша-Реньи составим аналогичную модель, но узлы будут формироваться из значений, в которых присутствуют наибольшие цепочки, состоящие последовательно из одинаковых значений. Кластеризации будет проводиться по следующему правилу: цепочки 01/10, к кластеру «1»; цепочки 00/11, к кластеру «2»; цепочки 000/111, к кластеру «3» и т.д. При этом разобьём пирамиду на две симметричные составляющие рисунок 3.


Рис. 3.

Первое что бросается в глаза это то, что все перемещения происходят из более низкого кластера в более высокий и наоборот быть не может. Это естественно, так как если цепочка размера j сложилась, то она уже не может исчезнуть.
Читать дальше →
Total votes 17: ↑17 and ↓0 +17
Comments 5

Белый шум рисует черный квадрат. Часть 2. Решение

Reading time 7 min
Views 5.7K
В первой публикации рассказывалось о том, что есть подзабытая теорема Эрдёша-Реньи, из которой следует, что в случайном ряде, длины N, с вероятностью близкой к 1 существует подряд из одинаковых значений длиной $\log_2{N}$. Указанное свойство случайной величины можно использовать для ответа на вопрос: «После обработки больших данных, подчиняется ли остаточный ряд закону случайных чисел или нет?»

Ответ на такой вопрос определялся не на основании тестов соответствия нормальности распределения, а на основании свойств самого остаточного ряда.
Читать дальше →
Total votes 19: ↑19 and ↓0 +19
Comments 40
1

Information

Rating
Does not participate
Location
Россия
Date of birth
Registered
Activity