Как стать автором
Обновить
95
-1

Профессиональное сообщество

Отправить сообщение

Привет!

Спасибо за дельный совет. Изучение разных типов ошибок и их генерация для обучения моделей - это важная часть дальнейшей работы. Изначально, наша работа велась без учета опыта команды Сбера (летом 2023 года), когда результаты SAGE еще не были опубликованы - по крайней мере, мне не было о них известно. Следует признать, что разработчики SAGE продвинулись значительно дальше и их опыт должен стать хорошим подспорьем в будущем. В том числе, отсылка к FRED-T5 вызвана желанием опробовать и перенять положительный опыт коллег.

Добрый день!

Целью разработки было предоставить возможность бизнес аналитикам самостоятельно анализировать большой объем исходного кода. Данный пост необходимо рассматривать не как IT, а как бизнес решение.

Большинство аналитиков никогда не работали с vs code и помимо необходимости его установки, потребуется время для его освоения.

Excel же является основным инструментом и всё, что требуется аналитику перед началом работы – понять структуру документа.

Добрый день! В теории это возможно, однако в данный момент нет достаточной законодательной базы для полноценного применения смарт-контрактов. Их можно использовать внутри компаний,  но не получится использовать для, допустим, проведения сделок между двумя лицами.

Добрый день!

Стоимость одной транзакции зависит от многих факторов, таких как оптимизация смарт-контракта или цена на газ. В среднем на одну транзакцию цена колеблется от $0.0015 до $0.0025. Но может и больше если смарт-контракт представляет собой слишком сложную структуру.

Добрый день!

Спасибо за развернутый комментарий)

Итак, давайте по порядку.

Во-первых, легенда с расшифровкой звезд представлена чуть выше рисунка. В самом коде график печатается вместе с легендой, человек несведущий точно её не пропустит. Там же выводятся и p-значения.

Во-вторых, обращая внимание на боксплоты, видим, что данные крайне рассредоточены, как раз-таки для их удобного визуального представления использовалась логарифмическая шкала. Из-за рассредоточенности и несбалансированности значений внутри групп присутствует асимметрия. И это достаточно распространенное явление при получении экспериментальных данных при изучении живых объектов. В любом случае описание данных и «ящиков» - это не тема поста, но вопрос Вы задали хороший.

И наконец, что касается показателей: подобного рода
графики необходимы не столько для статистиков, сколько для исследователей,
поэтому чаще всего важна быстрая оценка методов и результата эксперимента. Чем
проще и быстрее его интерпретировать на рисунке, тем лучше, поэтому излишняя
информация здесь ни к чему. Естественно, если у Вас другие цели при
представлении данных, Вы можете выбрать другие параметры в рамках пакета Statannotations.

Спасибо большое! Передадим автору, попросим рассказать о результатах теста инструмента.

Добрый день!

Вам спасибо за интерес с посту и интересное наблюдение)

Добрый день!

Думаю, что нет такой возможности. Если у нас нет примеров связок текст-автор, то ни один алгоритм не сможет определить авторство того или иного текста.

Добрый день!

Кластеризация в идеальном для нас варианте поможет разложить тексты на две кучки, а вот какая из этих кучек принадлежит Петрову, а какая Ильфу, мы так и не узнаем.

Добрый день!

Спасибо за интерес к посту. Проект, описанный в данном посте, был создан в рамках ознакомления с базовым функционалом Apache Airflow. Код приведен в неполном объеме.
Было описано чтение данных непосредственно из csv файлов, расположенных в папке проекта. Однако, как правильно было замечено, смысла в такой реализации нет. В реальности данные обновляются постоянно и необходимо считывать их через определенные промежутки времени. В проекте была реализована функция чтения из облачного хранилища, где происходит постоянное обновление данных.

Добрый день!

Да, Dashboard был создан в DataLens.

Наиболее популярными способами получения согласия на рекламные рассылки являются: заполнение онлайн-формы, телефонные звонки от операторов связи, а также смс-сообщения.

Добрый день!

Как правило, операторы связи не хранят данные о номерах банковских карт своих клиентов в базе данных. Проект, описанный в данной статье, был разработан лишь для рассмотрения базового функционала инструмента. Данные были сгенерированы самостоятельно и представлены не в полном объеме.

Добрый день!

Про исследования гипотезы о том, что за Ильфа и Петрова писал Булгаков не подскажу, не эксперт в этой области. А про то, можно ли отличить Ильфа от Петрова скажу так: если есть достаточно произведений, которые эти авторы написали порознь и авторские словари у них существенно различаются, то метод позволит с большей или меньшей долей уверенности определить авторство произведений.

Доброго времени суток! Спасибо за вопрос.

Расхождение Кульбака‑Лейблера не используется для работы с векторным представлением слов.

А что касается сочетаний из нескольких слов, то метод Кульбака‑Лейблера можно использовать в качестве первого шага. С его помощью можно найти ключевые слова (в англоязычной литературе используют термины keywords, headwords, node words).

Скорее всего, нужны не просто би‑/мульти‑граммы, а устойчивые словосочетания. Иногда их приравнивают к термину коллокации. Так вот, коллокации можно определить с использованием ассоциативных мер, коих очень много: Mutual Information, Log‑likelihood, T‑score, logDice и т. д. Тут есть свои нюансы. Например, нужно определиться с коллокационным окном — сколько слов до ключевого слова и после ключевого слова рассматривать в качестве потенциальных коллокатов.

На основе выделенных коллокаций можно строить классификатор или кластеризовать данные, но это уже тема отдельной статьи. Интересно было бы почитать такую статью?

Добрый день!

Убрала имена собственные из датасетов. Запустила скрипт.

One‑class SVM Classification отработал лучше.

Было: 12 — количество текстов Лескова, определённых как тексты Бажова, 18 — количество правильно определённых текстов Лескова.

Стало: 8 — количество текстов Лескова, определённых как тексты Бажова, 22 — количество правильно определённых текстов Лескова.

Что касается метода Кульбака‑Лейблера, то он отработал так же, как и ранее. Это связано с тем, что среди специфичных слов, определенных с помощью этого метода, практически нет имен собственных.

Добрый день! Спасибо большое за комментарий и интерес к теме! 

Добрый день!

В этой, прикладной, задаче нас интересовала обработка накопленного массива данных и проверка подхода, мы пока даже не особенно думали о реальном времени. Но благодарим за интересную идею, постараемся проверить на практике.

Можно и так, но у нас была задача работать с видео.

Добрый день!

Если RecSys выдает подобные "рекомендации", то у неё некорректно работает многокритериальность, возможно не правильно оптимизированы метрики, отвечающие за разнообразие/ догадливость (разобраны в посте), возможно какая-то значимая метрика не учтена, например, логика рекомендаций.

1
23 ...

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Работает в
Зарегистрирован
Активность