Комментарии / Профиль NewTechAudit / Хабр

Как стать автором

NTA @NewTechAudit

Профессиональное сообщество

Профиль Публикации 282Комментарии 307Закладки 96

NLP для поиска грамматических ошибок

NewTechAudit 5 мар в 07:00

Привет!

Спасибо за дельный совет. Изучение разных типов ошибок и их генерация для обучения моделей - это важная часть дальнейшей работы. Изначально, наша работа велась без учета опыта команды Сбера (летом 2023 года), когда результаты SAGE еще не были опубликованы - по крайней мере, мне не было о них известно. Следует признать, что разработчики SAGE продвинулись значительно дальше и их опыт должен стать хорошим подспорьем в будущем. В том числе, отсылка к FRED-T5 вызвана желанием опробовать и перенять положительный опыт коллег.

0

Посмотреть

Code Mining. Могут ли аналитики читать код?

NewTechAudit 27 фев в 10:34

Добрый день!

Целью разработки было предоставить возможность бизнес аналитикам самостоятельно анализировать большой объем исходного кода. Данный пост необходимо рассматривать не как IT, а как бизнес решение.

Большинство аналитиков никогда не работали с vs code и помимо необходимости его установки, потребуется время для его освоения.

Excel же является основным инструментом и всё, что требуется аналитику перед началом работы – понять структуру документа.

0

Посмотреть

Смарт-контракты и возможность их применения

NewTechAudit 13 фев в 07:27

Добрый день! В теории это возможно, однако в данный момент нет достаточной законодательной базы для полноценного применения смарт-контрактов. Их можно использовать внутри компаний, но не получится использовать для, допустим, проведения сделок между двумя лицами.

0

Посмотреть

Смарт-контракты и возможность их применения

NewTechAudit 29 янв в 06:31

Добрый день!

Стоимость одной транзакции зависит от многих факторов, таких как оптимизация смарт-контракта или цена на газ. В среднем на одну транзакцию цена колеблется от $0.0015 до $0.0025. Но может и больше если смарт-контракт представляет собой слишком сложную структуру.

0

Посмотреть

Простое внедрение аннотаций статистической значимости

NewTechAudit 22 янв в 06:25

Добрый день!

Спасибо за развернутый комментарий)

Итак, давайте по порядку.

Во-первых, легенда с расшифровкой звезд представлена чуть выше рисунка. В самом коде график печатается вместе с легендой, человек несведущий точно её не пропустит. Там же выводятся и p-значения.

Во-вторых, обращая внимание на боксплоты, видим, что данные крайне рассредоточены, как раз-таки для их удобного визуального представления использовалась логарифмическая шкала. Из-за рассредоточенности и несбалансированности значений внутри групп присутствует асимметрия. И это достаточно распространенное явление при получении экспериментальных данных при изучении живых объектов. В любом случае описание данных и «ящиков» - это не тема поста, но вопрос Вы задали хороший.

И наконец, что касается показателей: подобного рода
графики необходимы не столько для статистиков, сколько для исследователей,
поэтому чаще всего важна быстрая оценка методов и результата эксперимента. Чем
проще и быстрее его интерпретировать на рисунке, тем лучше, поэтому излишняя
информация здесь ни к чему. Естественно, если у Вас другие цели при
представлении данных, Вы можете выбрать другие параметры в рамках пакета Statannotations.

0

Посмотреть

Codeium и StarCoder: нейросети с автодополнением кода

NewTechAudit 18 янв в 12:27

Спасибо большое! Передадим автору, попросим рассказать о результатах теста инструмента.

0

Посмотреть

Простое внедрение аннотаций статистической значимости

NewTechAudit 18 янв в 11:56

Добрый день!

Вам спасибо за интерес с посту и интересное наблюдение)

0

Посмотреть

В поисках аномалии: одноклассовая классификация текстов с помощью расхождения Кульбака—Лейблера

NewTechAudit 10 янв в 08:20

Добрый день!

Думаю, что нет такой возможности. Если у нас нет примеров связок текст-автор, то ни один алгоритм не сможет определить авторство того или иного текста.

0

Посмотреть

В поисках аномалии: одноклассовая классификация текстов с помощью расхождения Кульбака—Лейблера

NewTechAudit 10 янв в 08:20

Добрый день!

Кластеризация в идеальном для нас варианте поможет разложить тексты на две кучки, а вот какая из этих кучек принадлежит Петрову, а какая Ильфу, мы так и не узнаем.

0

Посмотреть

Создание витрины данных для телеком-оператора средствами Apache Airflow

NewTechAudit 9 янв в 12:32

Добрый день!

Спасибо за интерес к посту. Проект, описанный в данном посте, был создан в рамках ознакомления с базовым функционалом Apache Airflow. Код приведен в неполном объеме.
Было описано чтение данных непосредственно из csv файлов, расположенных в папке проекта. Однако, как правильно было замечено, смысла в такой реализации нет. В реальности данные обновляются постоянно и необходимо считывать их через определенные промежутки времени. В проекте была реализована функция чтения из облачного хранилища, где происходит постоянное обновление данных.

0

Посмотреть

Создание витрины данных для телеком-оператора средствами Apache Airflow

NewTechAudit 9 янв в 12:30

Добрый день!

Да, Dashboard был создан в DataLens.

0

Посмотреть

Создание витрины данных для телеком-оператора средствами Apache Airflow

NewTechAudit 9 янв в 12:30

Наиболее популярными способами получения согласия на рекламные рассылки являются: заполнение онлайн-формы, телефонные звонки от операторов связи, а также смс-сообщения.

0

Посмотреть

Создание витрины данных для телеком-оператора средствами Apache Airflow

NewTechAudit 9 янв в 12:30

Добрый день!

Как правило, операторы связи не хранят данные о номерах банковских карт своих клиентов в базе данных. Проект, описанный в данной статье, был разработан лишь для рассмотрения базового функционала инструмента. Данные были сгенерированы самостоятельно и представлены не в полном объеме.

+1

Посмотреть

В поисках аномалии: одноклассовая классификация текстов с помощью расхождения Кульбака—Лейблера

NewTechAudit 29 дек 2023 в 08:49

Добрый день!

Про исследования гипотезы о том, что за Ильфа и Петрова писал Булгаков не подскажу, не эксперт в этой области. А про то, можно ли отличить Ильфа от Петрова скажу так: если есть достаточно произведений, которые эти авторы написали порознь и авторские словари у них существенно различаются, то метод позволит с большей или меньшей долей уверенности определить авторство произведений.

0

Посмотреть

В поисках аномалии: одноклассовая классификация текстов с помощью расхождения Кульбака—Лейблера

NewTechAudit 29 дек 2023 в 07:41

Доброго времени суток! Спасибо за вопрос.

Расхождение Кульбака‑Лейблера не используется для работы с векторным представлением слов.

А что касается сочетаний из нескольких слов, то метод Кульбака‑Лейблера можно использовать в качестве первого шага. С его помощью можно найти ключевые слова (в англоязычной литературе используют термины keywords, headwords, node words).

Скорее всего, нужны не просто би‑/мульти‑граммы, а устойчивые словосочетания. Иногда их приравнивают к термину коллокации. Так вот, коллокации можно определить с использованием ассоциативных мер, коих очень много: Mutual Information, Log‑likelihood, T‑score, logDice и т. д. Тут есть свои нюансы. Например, нужно определиться с коллокационным окном — сколько слов до ключевого слова и после ключевого слова рассматривать в качестве потенциальных коллокатов.

На основе выделенных коллокаций можно строить классификатор или кластеризовать данные, но это уже тема отдельной статьи. Интересно было бы почитать такую статью?

0

Посмотреть

В поисках аномалии: одноклассовая классификация текстов с помощью расхождения Кульбака—Лейблера

NewTechAudit 28 дек 2023 в 12:03

Добрый день!

Убрала имена собственные из датасетов. Запустила скрипт.

One‑class SVM Classification отработал лучше.

Было: 12 — количество текстов Лескова, определённых как тексты Бажова, 18 — количество правильно определённых текстов Лескова.

Стало: 8 — количество текстов Лескова, определённых как тексты Бажова, 22 — количество правильно определённых текстов Лескова.

Что касается метода Кульбака‑Лейблера, то он отработал так же, как и ранее. Это связано с тем, что среди специфичных слов, определенных с помощью этого метода, практически нет имен собственных.

0

Посмотреть

Covenantus detectus или ещё одна DS-задача

NewTechAudit 28 дек 2023 в 09:10

Добрый день! Спасибо большое за комментарий и интерес к теме!

0

Посмотреть

Я знаю, что ты делал этой ночью

NewTechAudit 15 дек 2023 в 08:14

Добрый день!

В этой, прикладной, задаче нас интересовала обработка накопленного массива данных и проверка подхода, мы пока даже не особенно думали о реальном времени. Но благодарим за интересную идею, постараемся проверить на практике.

0

Посмотреть

Я знаю, что ты делал этой ночью

NewTechAudit 14 дек 2023 в 09:39

Можно и так, но у нас была задача работать с видео.

-3

Посмотреть

Зачем мне пылесос с ананасом или как оценить корректность рекомендательной системы

NewTechAudit 12 дек 2023 в 11:55

Добрый день!

Если RecSys выдает подобные "рекомендации", то у неё некорректно работает многокритериальность, возможно не правильно оптимизированы метрики, отвечающие за разнообразие/ догадливость (разобраны в посте), возможно какая-то значимая метрика не учтена, например, логика рекомендаций.

0

Посмотреть

1

2 3 ...