Mail.ru Group corporate blog
Python
Data Mining
Big Data
Artificial Intelligence
August 15

Применение машинного обучения и Data Science в промышленности

Original author: FirmAI.org
Translation
Хабр, привет. Перевел пост, который идёт строго (!) в закладки и передаётся коллегам. Он со списком блокнотов и библиотек ML и Data Science для разных отраслей промышленности. Все коды на Python, и размещены на GitHub. Они будут полезны как для расширения кругозора, так и для запуска своего интересного стартапа.

image

Отмечу, что если среди читателей есть желающие помочь, и добавить в любую из подотраслей подходящий проект, пожалуйста, свяжитесь со мной. Я их добавлю в список. Итак, давайте начнём изучение списка.

1. Недвижимость и питание


1.1. Питание


  • RobotChef — совершенствование рецептов еды на основе отзывов пользователей;
  • Food Amenities — прогнозирование спроса на пищевые продукты с использованием нейронных сетей;
  • Recipe Cuisine and Rating — предсказание названия кухни любого блюда на основе списка его ингредиентов;
  • Food Classification — пищевая классификация еды с использованием библиотеки Keras;
  • Image to Recipe — перевод изображения еды в рецепт его приготовления;
  • Calorie Estimation — оценка калорийности по фотографиям еды;
  • Fine Food Reviews — сегментационный анализ еды на основе отзывов с Amazon Fine Food.

1.2. Рестораны


  • Restaurant Violation — прогнозирование нарушения правил проверки продуктов питания;
  • Restaurant Success — предсказание, будет ли ресторан успешным;
  • Predict Michelin — предсказание того, что ресторану дадут звезду Мишлен;
  • Restaurant Inspection — анализ уровня лояльности к ресторану и популярностью на основе оценок по Yelp;
  • Sales — прогнозирование продаж у ресторанов с LTSM;
  • Visitor Forecasting — бронирование и прогнозирование количества посещений;
  • Restaurant Profit — ресторанный регрессионный анализ;
  • Competition — анализ конкурентоспособности ресторана;
  • Business Analysis — проект по анализу ресторанного бизнеса;
  • Location Recommendation — рекомендация о будущем местонахождении ресторана;
  • Closure, Rating and Recommendation — три задачи прогнозирования с использованием данных Yelp;
  • Anti-recommender — рекомендация ресторанов, которые вы (на основе ваших предпочтений) не захотите посещать;
  • Menu Analysis — анализ ресторана на основе его меню;
  • Menu Recommendation — рекомендация новых ресторанов на основе вашего любимого меню;
  • Food Price — прогнозирование стоимости продуктов питания;
  • Automated Restaurant Report — автоматический, ресторанный отчет на основе машинного обучения.

1.3. Недвижимость


  • Peer-to-Peer Housing — влияние одноразовой аренды жилья на её состояние;
  • Roommate Recommendation — рекомендация соседа по комнате;
  • Room Allocation — распределение помещений;
  • Dynamic Pricing — расчеты динамического ценообразования в отеле;
  • Hotel Similarity — сравнение конкурирующих отелей друг с другом;
  • Hotel Reviews — отзывы об отелях;
  • Predict Prices — предсказание цен на номера в отелях;
  • Hotels vs Airbnb — сравнение отелей с Airbnb;
  • Hotel Improvement — анализ отзывов для отеля;
  • Orders — прогноз отмены заказов для отелей;
  • Fake Reviews — распознавание, являются ли отзывы поддельными или спамом;
  • Reverse Image Lodging — нахождение нужного вам жилья по изображению.

2. Бухгалтерский учёт


2.1. Machine Learning


  • Chart of Account Prediction — использование промеченных данных для имени учетной записи каждой транзакции;
  • Accounting Anomalies — выявление аномалий в бухгалтерском учёте;
  • Financial Statement Anomalies — обнаружение аномалий (используя R) перед подачей документов в налоговую;
  • Useful Life Prediction (FirmAI) — прогнозирование срока полезного использования активов с помощью сенсорных наблюдений и разработки функций;
  • AI Applied to XBRL — стандартизированное представление XBRL в AI и ML.

2.2. Аналитика


  • Forensic Accounting — сборник тематических исследований по криминалистическому учету с использованием анализа данных;
  • General Ledger (FirmAI) — обработка данных в FirmAI;
  • Bullet Graph (FirmAI) — визуализация Bullet Graph помогает отслеживать продажи, комиссионные и другие показатели;
  • Aged Debtors (FirmAI) — пример анализа для выявления должников;
  • Automated FS XBRL — набор файлов PDF, содержащих более 700 страниц информации о XBRL.

2.3. Текстовый анализ


  • Financial Sentiment Analysis — анализ рычагов оптимизации в торговле;
  • Extensive NLP — комплексные НЛП методы для бухгалтерского учета.

2.4. Данные, парсинг и API


  • EDGAR — пошаговое руководство по получению данных EDGAR;
  • PyEDGAR — библиотека для загрузки, кэширования и доступа к файлам EDGAR;
  • IRS — доступ и анализ файлов IRS;
  • Financial Corporate — наборы корпоративных финансовых данных Rutgers;
  • Non-financial Corporate — нефинансовый корпоративный набор данных Rutgers;
  • PDF Parsing — извлечение полезных данных из документов PDF;
  • PDF Tabel to Excel — создание файла Excel из данных в PDF.

2.5. Исследования и статьи


  • Understanding Accounting Analytics — статья, посвященная важности бухгалтерской аналитики.
  • VLFeat — открытая и портативная библиотека алгоритмов компьютерного зрения, имеющая набор инструментов Matlab.

2.6. Веб-сайты


  • Rutgers Raw — исследования в области цифрового бухгалтерского учета от Rutgers.

2.7. Курсы


  • Computer Augmented Accounting — видеоролик из Университета Rutgers, посвященный использованию вычислений для улучшения бухгалтерского учета;
  • Accounting in a Digital Era — еще одна серия статей Университета Rutgers, посвященная влиянию цифрового века на бухгалтерский учет.

3. Сельское хозяйство


3.1. Экономика


  • Prices — прогноз цен на сельскохозяйственную продукцию 1;
  • Prices 2 — прогноз цен на сельскохозяйственную продукцию 2;
  • Yield — сельскохозяйственный анализ урожайности в Украине;
  • Recovery — стратегическое использование земель в сельском хозяйстве с учетом восстановления экосистем;
  • MPR — данные отчетности по ценам на сельхоз. продукцию от Министерства сельского хозяйства США.

3.2. Разработка


  • Segmentation — сегментация сельскохозяйственных полей с использованием спутниковых снимков;
  • Water Table — прогнозирование глубины грунтовых вод в сельскохозяйственных районах;
  • Assistant — ноутбуки от виртуального Ассистента по сельскому хозяйству;
  • Eco-evolutionary — эко-эволюционная динамика;
  • Diseases — идентификация болезней сельскохозяйственных культур и вредителей с использованием фреймворка Deep Learning по изображениям;
  • Irrigation and Pest Prediction — анализ орошения и прогноз вероятности появления вредителей.

4. Банковское дело и страхование


4.1. Потребительское финансирование


  • Loan Acceptance — принятия решений о ссуде на основе классификации и анализа временных рядов;
  • Predict Loan Repayment — прогнозирование погашения кредита с помощью функции автоматизированного проектирования;
  • Loan Eligibility Ranking — система, которая помогает банкам проверять, может ли клиент получить данный (определенный) кредит;
  • Home Credit Default (FirmAI) — прогнозирование дефолта по кредиту;
  • Mortgage Analytics — обширная аналитика ипотечных кредитов;
  • Credit Approval — система для одобрения кредитной карты;
  • Loan Risk — прогнозная модель, помогающая уменьшить списания и потери %-ов с кредитов;
  • Amortisation Schedule (FirmAI) — простой график амортизации в Python.

4.2. Управление и операции


  • Credit Card — оценка CLV клиентов кредитной карты;
  • Survival Analysis — анализ LTV клиентов;
  • Next Transaction — модель глубокого обучения для прогнозирования суммы транзакции и дней до следующей транзакции;
  • Credit Card Churn — предсказание оттока клиентов с кредитными картами;
  • Bank of England Minutes — основные идеи предварительной обработки текста с использованием протоколов заседаний Комитета по денежно-кредитной политике Банка Англии;
  • CEO — анализ корреляции между вознаграждениями генерального директора мужчины и генерального директора женщины.

4.3. Оценка


  • Zillow Prediction — прогноз оценки Zillow, выполненный на Kaggle;
  • Real Estate — прогнозирование цен на городскую недвижимость;
  • Used Car — прогноз цен на подержанный автомобиль.

4.4. Мошеничество


  • XGBoost — обнаружение мошенничества путем настройки гиперпараметров XGBoost;
  • Fraud Detection Loan in R — обнаружение мошенничества в банковских кредитах;
  • AML Finance Due Diligence — поиск новостных статей для финансирования AML DD;
  • Credit Card Fraud — обнаружение мошенничества с кредитными картами.

4.5. Страхование и риски


  • Car Damage Detective — оценка повреждений автомобиля с помощью свёрточных нейронных сетей;
  • Medical Insurance Claims — прогнозирование претензий по медицинскому страхованию;
  • Claim Denial — прогнозирование отказа от страхового возмещения;
  • Claim Fraud — прогнозные модели, позволяющие определить, какие претензии в отношении автомобилей являются мошенническими;
  • Claims Anomalies — система обнаружения аномалий для данных страховых претензий;
  • Actuarial Sciences — ряд актуарных инструментов в R;
  • Bank Failure — предсказание банкротства;
  • Risk Management — финансирование курсов по управлению рисками;
  • VaR GaN — оценка стоимости управления рыночным риском с использованием Keras и TensorFlow;
  • Compliance — управление соответствиями с требованиями банка;
  • Stress Testing — ECB стресс-тестирование;
  • Stress Testing Techniques — notebook с различными упражнениями на стресс-тестирование;
  • BoE stress test — результаты стресс-теста и составление графика;
  • Recovery — возмещение причитающихся денег;
  • Quality Control — контроль качества банков с использованием LDA.

4.6. Полезное


  • Bank Note Fraud Detection — аутентификация с использованием DNN Tensorflow Classifier и RandomForest;
  • ATM Surveillance — наблюдение за банкоматами в банках.

image

5. Биотехнологии и наука


5.1. Общие


  • Programming — программирование для биологов на Python;
  • Introduction DL — учебник по углубленному изучению геномики;
  • Pose — оценка позы животных с использованием DL;
  • Privacy — обмен клиническими данными, с сохранением конфиденциальности;
  • Population Genetics — популяционный генетический вывод;
  • Bioinformatics Course — материалы курса по вычислительной биологии и биоинформатике;
  • Applied Stats — прикладная статистика для высокопроизводительной биологии;
  • Scripts — скрипты Python для биологов;
  • Molecular NN — мини-фреймворк для построения и обучения нейронных сетей для молекулярной биологии;
  • Systems Biology Simulations — практическая системная биология при написании симуляторов с F # и Z3;
  • Cell Movement — LSTM для прогнозирования биологического движения клеток;
  • Deepchem — глубокое обучение для открытия новых лекарств, квантовой химии, материаловедения и биологии.

5.2. Последовательность


  • DNA, RNA and Protein Sequencing — новое представление для биологических последовательностей;
  • CNN Sequencing — набор инструментов для изучения последовательности ДНК/РНК с использованием сверточных нейронных сетей;
  • NLP Sequencing — модель обучения языковой передаче для геномики.

5.3. Хемоинформатика и открытие лекарств


  • Novel Molecules — сверточная сеть, которая может изучать функции;
  • Automating Chemical Design — создание новых молекул для эффективного исследования;
  • GAN drug Discovery — метод, который сочетает в себе генеративные модели с обучением и подкреплением;
  • RL — генерирующие соединения, предсказанные как активные;
  • One-shot learning — использование машинного обучения в области поиска лекарств простым и удобным способами.

5.4. Геномные


  • Jupyter Genomics — сборник ноутбуков по вычислительной биологии и биоинформатике;
  • Variant calling — определение отклонений от эталонного генома в ДНК человека;
  • Gene Expression Graphs — использование сверток на изображениях;
  • Autoencoding Expression — извлечение соответствующих шаблонов из больших наборов данных экспрессии генов;
  • Gene Expression Inference — прогнозирование экспрессии указанных генов-мишеней из панели из примерно 1000 предварительно выбранных «ориентировочных генов»;
  • Plant Genomics — материал для презентаций и примеров для геномики растений и патогенов.

5.5. Наука


  • Plants Disease — приложение, которое выявляет болезни у растений с помощью модели глубокого обучения;
  • Leaf Identification — идентификация растений через листья на основе их формы, цвета и текстуры;
  • Crop Analysis — библиотека изображений для обнаружения и отслеживания будущего положения колосьев на растениях кукурузы;
  • Seedlings — растительная рассада, классификация от Kaggle;
  • Plant Stress — онтология, содержащая растительные стрессы;
  • Animal Hierarchy — пакет для расчета иерархий доминирования животных;
  • Animal Identification — глубокое обучение идентификации животных;
  • Species — анализ больших данных различных видов животных;
  • Animal Vocalisations — генеративная сеть для вокализации животных;
  • Evolutionary — инструмент стратегий эволюции;
  • Glaciers — учебный материал о ледниках.

6. Строительная техника


6.1. Строительство


  • DL Architecture — генератор изображений для построения архитектуры;
  • Construction Materials — курс по строительным материалам;
  • Bad Actor Risk Model — модель риска для повышения безопасности строительства;
  • Inspectors — определение назначенных инспекций;
  • Corrupt Social Interactions — выявение потенциальных коррумпированных взаимодействий между сотрудниками отрасли и сотрудниками DOB;
  • Risk Construction — определение высокорискованного строительства;
  • Facade Risk — модель риска для прогнозирования небезопасных фасадов;
  • Staff Levels — прогнозирование уровня персонала для передовых работников;
  • Injuries — моделирование количества травм, связанных со строительством;
  • Productivity — анализ и проверка производительности.

6.2. Инженерия


  • Structural Analysis — 2D Структурный анализ в Python;
  • Structural Engineering — структурные инженерные модули;
  • Nusa — структурный анализ с использованием метода конечных элементов;
  • StructPy — библиотека структурного анализа для Python на основе метода прямой жесткости;
  • Aileron — структурный анализ элеронов Боинга 737;
  • Vibration — образовательные вибрационные программы;
  • Civil — сборник инструментов гражданского строительства в FreeCAD;
  • GEstimator — подготовки сметы расходов на строительные и электромонтажные работы с подробным анализом тарифов;
  • Fatpack — функции и классы для анализа усталости ряда данных;
  • Pysteel — автоматизированное проектирование стальной конструкции;
  • Structural Uncertainty — количественная оценка структурной неопределенности на основе глубокого обучения;
  • Pymech — модуль Python для инженеров-механиков;
  • Aerospace Engineering — астродинамика и статистика;
  • Interactive Quantum Chemistry — объединение Psi4 и Numpy для образования и развития;
  • Chemical and Process Engineering — различные ресурсы химической и технологической инженирии;
  • PyTherm — прикладная термодинамика;
  • Aerogami — аэродинамика с использованием самолетов;
  • Electro geophysics — интерактивные приложения для электромагнетизма в геофизике;
  • Graph Signal — учебник по обработке сигналов на графике;
  • Mechanical Vibrations — механические вибрации в Университете Луизианы;
  • Process Dynamics — динамика процесса и управления;
  • Battery Life Cycle — прогнозирование срока службы батареи на основе данных;
  • Wind Energy — Python для энергии ветра;
  • Energy Use — стандартные методы расчета нормированного потребления энергии;
  • Nuclear Radiation — как люди подвержены воздействию радиации, излучаемой атомными электростанциями.

6.3. Материаловедение


  • Python Materials Genomics — код анализа материалов, используемый в устоявшемся проекте;
  • Materials Mining — скрипты для моделирования и анализа материалов;
  • Emmet — создание баз данных свойств материалов;
  • Megnet — графовые сети как каркас ML для молекул и кристаллов;
  • Atomate — рабочие процессы для вычислительного материаловедения;
  • Bylaws Compliance — предсказание штрафов на собственность;
  • Asphalt Binder — строительные материалы, свободная энергия и химический состав вяжущего асфальтового покрытия;
  • Awesome Materials Informatics — кураторский список известных работ в области материаловедения.

7. Экономика


7.1. Общее


  • Trading Economics API — Торговая экономика API, информация для 196 стран;
  • Development Economics — микроэкономика развития;
  • Applied Econ & Fin — прикладная вычислительная экономика и финансы;
  • Macroeconomics — темы по макроэкономике с примерами из notebook.

7.2. Машинное обучение


  • EconML — автоматизированное обучение и анализ причинно-следственных связей;
  • Auctions — оптимальные аукционы с использованием глубокого обучения.

7.3. Вычисления


  • Quant Econ — курс количественной экономики от NYU;
  • Computational — вычислительные методы в экономике;
  • Computational 2 — малый курс по вычислительной экономике;
  • Econometric Theory — notebook'и по эконометрической теории для начинающих.

8. Образование и исследования


8.1. Студенты


  • Student Performance — успеваемость студентов расчитанная на основе машинного обучения;
  • Student Performance 2 — студенческий экзамен;
  • Student Performance 3 — успеваемость учащихся в учреждениях среднего образования;
  • Student Performance 4 — оценка успеваемости учеников с использованием Feature Engineering;
  • Student Enrolment — регистрация студентов и анализ результатов;
  • Academic Performance — изучение демографических и семейных особенностей, которые влияют на успеваемость учащегося;
  • Grade Analysis — анализ достижений учащихся.

8.2. Школа


  • School Choice — анализ данных для выбора школы;
  • School Performance — практика анализа данных с использованием данных из data.utah.gov о школьной успеваемости;
  • School Performance 2 -использование Pandas для анализа школьной и ученической успеваемости в округе;
  • School Performance 3 — Филадельфия Школа Performance;
  • School Performance 4 — NJ Школа Performance;
  • School Closure — определение школ, подверженных риску закрытия, по показателям успеваемости и другим характеристикам;
  • School Budgets — инструменты и методы для школьного бюджетирования;
  • School Budgets — инструменты и методы для школьного бюджетирования part 2;
  • PyCity — анализ школ;
  • PyCity 2 — сопоставление школьного бюджета и школьных результатов;
  • Budget NLP — классификация НЛП для бюджетных ресурсов;
  • Budget NLP 2 — дальнейшая классификация упражнений;
  • Budget NLP 3 — Бюджетная классификация;
  • Survey Analysis — анализ опроса в сфере образования.

9. Чрезвычайные ситуации


9.1. Профилактика


  • Emergency Mapping — обнаружение разрушенных домов в Калифорнии;
  • Emergency Room — поддержка принятия срочных решений;
  • Emergency Readmission — скорректированный риск аварийной реадмиссии;
  • Forest Fire — обнаружение лесного пожара с помощью изображений БПЛА с использованием CNN;
  • Emergency Response — анализ аварийного реагирования;
  • Emergency Transportation — транспортная подсказка на аварийные службы;
  • Emergency Dispatch — сокращение времени отклика благодаря интеллектуальному моделированию, оптимизации и автоматизации;
  • Emergency Calls — проект анализа экстренных вызовов;
  • Calls Data Analysis — анализ данных звонков 911;
  • Emergency Response — химический завод РЛ.

9.2. Преступления


  • Crime Classification — анализ времени серьезных нападений, неправильно классифицированных LAPD;
  • Article Tagging — обработка естественного языка в новостной статье в Чикаго;
  • Crime Analysis — нахождения правил ассоциации из пространственных данных для анализа преступности;
  • Chicago Crimes — Изучение публичных данных о преступлениях в Чикаго в Python;
  • Graph Analytics — Гаагские преступления;
  • Crime Prediction — классификация, анализ и предсказание Преступности в городе Индор;
  • Crime Prediction — разработаные прогностические модели уровня преступности;
  • Crime Review — анализ данных обзора преступности.
  • Crime Trends — анализ тенденций преступности и проблемных условий, побуждающих к этому;
  • Crime Analytics — анализ данных о преступности в Сиэтле и Сан-Франциско.

9.3. Скорая помощь


  • Ambulance Analysis — исследование изменения времени приезда скорой помощи в штате Виктория;
  • Site Location — места расположения скорой помощи;
  • Dispatching — применение теории игр и симуляции дискретных событий, для нахождения оптимального решения диспетчеризации скорой помощи;
  • Ambulance Allocation — анализ временных рядов отправлений скорой помощи в городе Сан-Диего;
  • Response Time — анализ улучшения времени отклика машины скорой помощи;
  • Optimal Routing — проект по поиску оптимальной маршрутизации машин скорой помощи;
  • Crash Analysis — прогнозирование вероятности аварий на данном сегменте в данный момент времени.

9.4. Управление стихийными бедствиями


  • Conflict Prediction — Notebooks по прогнозированию конфликтов;
  • Burglary Prediction — пространственно-временное моделирование для предсказания взломов;
  • Predicting Disease Outbreak — прогнозирование вспышек заболевания;
  • Road accident prediction — прогноз по типу жертв федеральных ДТП в Бразилии;
  • Text Mining — управление стихийными бедствиями с использованием Text mining;
  • Twitter and disasters — предсказание, твитов о бедствиях;
  • Flood Risk — влияние катастрофических наводнений;
  • Fire Prediction — 4 алгоритма расчета вероятности будущих пожаров.

image

10. Финансы


10.1. Торговля и инвестиции


  • Deep Portfolio — предсказание объёма облигаций на основе глубокого обучения;
  • AI Trading — современные методы торговли AI;
  • Corporate Bonds — прогнозирование объема покупки и продажи корпоративных облигаций;
  • Simulation — исследование симуляции, как части вычислительного финансирования;
  • Industry Clustering — проект кластеризации отраслей по финансовым признакам;
  • Financial Modeling — HFT-трейдинг и моделирование волатильности;
  • Trend Following — фьючерсная тенденция после стратегии портфельных инвестиций;
  • Financial Statement Sentiment — извлечение прогнозов из финансовой отчетности с использованием нейронных сетей;
  • Applied Corporate Finance — изучения эмпирического поведения на фондовом рынке;
  • Market Crash Prediction — прогнозирование рынка с использованием модели LPPL;
  • NLP Finance Papers — составление количественных финансовых документов с использованием машинного обучения;
  • ARIMA-LTSM Hybrid — гибридная модель для прогнозирования будущих коэффициентов ценовой корреляции двух активов;
  • Basic Investments — основные инвестиционные инструменты в Python;
  • Basic Derivatives — основные форвардные контракты и хеджирование;
  • Basic Finance — исходные коды ноутбуков базовых финансовых приложений;
  • Advanced Pricing ML — дополнительная реализация достижений в области финансового машинного обучения;
  • Options and Regression — проект финансового инжиниринга для методов оценки опционов;
  • Quant Notebooks — Обучающие ноутбуки по квантовым финансам, алгоритмической торговле и инвестиционной стратегии;
  • Forecasting Challenge — задача финансового прогнозирования от G-Research;
  • XGboost — торговый алгоритм, использующий XgBoost;
  • Research Paper Trading — реализация стратегии на основе бумаги с использованием Alpaca Markets;
  • Various — опции, распределение, моделирование;
  • ML & RL NYU — машинное обучение и обучение в сфере финансов.

10.2. Данные


  • Datastream — Datastrem от Thomson Reuters, доступный через Python;
  • AlphaVantage — API-обертка для упрощения процесса получения бесплатных финансовых данных;
  • FSA — Проект по переводу финансовых данных SEC Edgar Filings в пользовательские модели анализа финансовой отчетности;
  • TradeConnector — связи с поставщиками рыночных данных;
  • Employee Count SEC Filings — точные значения количества сотрудников для компаний из заявок SEC;
  • SEC Parsing — НЛП для поиска и извлечения конкретной информации из длинных неструктурированных документов;
  • Open Edgar — OpenEDGAR;
  • Rating Industries — истории от нескольких агентств, конвертированные в формат CSV.

11. Здравоохранение


11.1. Общее


  • zEpid — пакет эпидемиологического анализа;
  • Python For Epidemiologists — учебное пособие по введению эпидемиологического анализа в Python;
  • Prescription Compliance — анализ предписания и медицинского соответствия;
  • Respiratory Disease — отслеживание респираторных заболеваний у спортсменов-олимпийцев;
  • Bubonic Plague — Бубонная чума и модель SIR.

12. Юстиция, закон и регламент


12.1. Инструменты


  • LexPredict — контроль над своими контрактами;
  • AI Para-legal — первый в мире помощник адвоката AI;
  • Legal Entity Detection — обнаружение юридического лица;
  • Legal Case Summarisation — внедрение различных алгоритмов суммирования применительно к судебным решениям;
  • Legal Documents Google Scholar — использование Google scholar для программного извлечения дел;
  • Chat Bot — чат-бот и уведомления по электронной почте;
  • Data Generator GDPR — генератор фиктивных данных для соответствия GDPR.

12.2. Политика и регулирование


  • GDPR scores — прогнозирование показателей GDPR для юридических документов;
  • Driving Factors FINRA — определение факторов, влияющие на решения арбитража FINRA;
  • Securities Bias Correction — оценка влияния цены на судебные процессы по ценным бумагам;
  • Public Firm to Legal Decision — публичная фирма для юридических решений;
  • Night Life Regulation — ночная жизнь Австралии, ее регулирование и полицейская деятельность;
  • Comments — общественные комментарии по государственному регулированию;
  • Clustering — кластеризация канадских правил;
  • Environment — регулирование энергетики и окружающей среды;
  • Risk — риск различных финансовых положений;
  • FINRA Compliance — лучшее моделирование на соответствие.

12.3. Судебная практика


  • Supreme Court Prediction — предсказание идеологического направления решений Верховного Суда;
  • Supreme Court Topic Modeling — тематическое моделирование в Верховном суде;
  • Judge Opinion — использование анализа текста и машинного обучения для анализа мнений судей по конкретным вопросам;
  • ML Law Matching — производитель матчей по машинному обучению;
  • Bert Multi-label Classification — мультибликовая классификация Берта.

13. Производство


13.1. Общее



13.2. Техническое обслуживание


  • Predictive Maintenance 1 — прогнозирование оставшегося срока использования авиационных двигателей;
  • Predictive Maintenance 2 — время до отказа (TTF) или оставшийся срок полезного использования двигателя (RUL);
  • Manufacturing Maintenance — моделирование обслуживания в производственных систем.

13.3. Ошибки


  • Predictive Analytics — метод прогнозирования сбоев в оборудовании;
  • Detecting Defects — обнаружение аномалий для дефектных полупроводников;
  • Defect Detection — интеллектуальное обнаружение дефектов для производства таблеток;
  • Manufacturing Failures — сокращение производственных сбоев;
  • Manufacturing Anomalies — интеллектуальное обнаружение аномалий для производственной линии.

13.4. Качество


  • Quality Control — обнаружение провалов в контроле качества;
  • Manufacturing Quality — интеллектуальный прогноз качества производства;
  • Auto Manufacturing — данные о продаже автомобилей на аукционе.

14. СМИ и издательство


14.1. Маркетинг


  • Video Popularity — HIP модель для прогнозирования популярности видео;
  • YouTube transcriber — автоматически транскрибирует видео в YouTube;
  • Marketing Analytics — маркетинговая аналитика, тематические исследования;
  • Algorithmic Marketing — модели от введения до книги «Алгоритмический маркетинг»;
  • Marketing Scripts — приложения для маркетинга данных;
  • Social Mining — майнинг социальных сетей.

15. Физика


15.1. Общее


  • Gamma-hadron Reconstruction — инструменты, используемые в наземной астрономии гамма-излучений;
  • Curriculum — ньютоновские notebook'и;
  • Interaction Networks — сети взаимодействия для изучения объектов, отношений и физики;
  • Particle Physics — генерационный и аналитический код для изучения физики частиц;
  • Computational Physics — хранилище вычислительной физики;
  • Medical Physics — полезный Python для медицинской физики;
  • Medical Physics 2 — общий, основной пакет Python для медицинской физики;
  • Flow Physics — физика и аэроакустика с Python.

15.2. Машинное обучение


  • Physics ML and Stats — машинное обучение и статистика для физиков;
  • High Energy — машинное обучение для физики высоких энергий;
  • High Energy GAN — генеративные состязательные сети для физики высоких энергий;
  • Neural Networks — физика встречает нейронные сети.

16. Правительство


16.1. Социальная политика


  • Triage — универсальный инструментарий по моделированию рисков и прогнозированию политических решений и социальных проблем;
  • World Bank Poverty I — сравнительная оценка алгоритмов классификации машинного обучения, применяемых для прогнозирования бедности;
  • World Bank Poverty II — сравнительная оценка алгоритмов классификации машинного обучения, применяемых для прогнозирования бедности II;
  • Overseas Company Land Ownership — определение иностранной собственности в Великобритании;
  • CFPB — анализ жалоб Бюро по защите прав потребителей;
  • Cannabis Legalisation Effect — Влияние легализации каннабиса на преступность;
  • Public Credit Card — идентификация потенциального мошенничества с кредитными картами;
  • Recidivism Prediction — прозрачность и учёт оценки риска рецидивизма;
  • Household Poverty — предсказание бедности домохозяйств в Коста-Рике;
  • NLP Public Policy — пример варианта использования НЛП в публичной политике;
  • World Food Production — сравнение ведущих производителей продуктов питания и кормов по всему миру;
  • Tax Inequality — проект данных о налогообложении и неравенстве в Базеле;
  • Sheriff Compliance — соответствие требованиям ICE;
  • Apps Detection — обнаружение подозрительных приложений для детей;
  • Social Assistance — актуальная информация о социальной помощи;
  • Computational Social Science — курс летних школьных наук по социальным данным;
  • Liquor and Crime — влияние спиртных напитков на уровень преступности;
  • Animal Placement Kennels — оптимизация размещения животных в приютах;
  • Staffing Wall — независимый исследовательский проект на мексиканской границе США;
  • Worker Fatalities — карта несчастных случаев на производстве по данным OSHA.

16.2. Благотворительность


  • Census Data API — извлечение переменных из 5-летнего опроса американского сообщества;
  • Donor Identification — проект машинного обучения, в котором нужно найти доноров для благотворительности;
  • Charity Effectiveness — сбор онлайн-данных о благотворительных организациях, чтобы понять их эффективность.

16.3. Анализ выборов


  • Election Analysis — анализ выборов и модели прогнозирования;
  • American Election Causal — использование данных ANES с моделями причинно-следственных связей;
  • Campaign Finance and Election Results — изучение связи между финансированием кампании и результатами последующих выборов;
  • Voting System — методы голосования пропорционального представительства;
  • President Vote — голосование по анализу уровня доходов.

16.4. Политика


  • Congressional politics — палата представителей конгресса США;
  • Politico — платформа для профилирования общественных деятелей в бразильской политике;
  • Bots — инструменты и алгоритмы для анализа парагвайских твитов во время выборов;
  • Gerrymander tests — множество метрик для количественной оценки Gerrymandering;
  • Sentiment — анализ газет на предмет их политической убежденности с использованием субъективных настроений представителей партии;
  • DL Politics — сравнение социалистической партия против народной в Бразилии;
  • PAC Money — влияние денег PAC на политику США;
  • Power Networks — создание сторожевого пса для индийских корпоративных и политических сетей;
  • Elite — политическая элита в США;
  • Debate Analysis — программа для анализа политических дебатов;
  • Political Affiliation — прогноз политической принадлежности с использованием метаданных Twitter;
  • Political Ads — расследование в Facebook политических объявлений и таргетинга;
  • Political Identity — многоосная политическая модель политической идентичности;
  • YT Politics — отображение политики на YouTube;
  • Political Ideology — неконтролируемое изучение политической идеологии с помощью словесных векторных проекций.

17. Недвижимость, аренда и лизинг


17.1. Недвижимость


  • Finding Donuts — прогнозировании окрестностей;
  • Neighbourhood — прогнозирование цен на недвижимость в городе;
  • Real Estate Classification — классификация типа имущества с учетом недвижимости, спутниковой связи и просмотра улиц;
  • Recommender — рекомендательная система топ-5 объектов недвижимости, которые соответствуют поиску пользователя;
  • House Price — предсказание цены дома с использованием линейной регрессии и GBR;
  • House Price Portland — предсказание цены на жилье в Портленде;
  • Zillow Prediction — прогноз оценки Zillow, выполненный на Kaggle.

17.2. Аренда и лизинг


  • Analyzing Rentals — анализ и визуализация данных списков аренды;
  • Interest Prediction — предсказание интереса людей к аренде конкретных квартир в Нью-Йорке;
  • Predict Household Poverty — прогнозирование бедности домохозяйств в Коста-Рике;
  • Airbnb public analytics competition — конкурс публичной аналитики Airbnb.

18. Коммунальные услуги


18.1. Электроэнергия


  • Electricity Price — сравнение цен на электроэнергию в Сингапуре;
  • Electricity-Coal Correlation — определение корреляции между государственными тарифами на электроэнергию и выработкой угля за последнее десятилетие;
  • Electricity Capacity — анализ Los Angeles Times анализа дорогостоющей электроэнергии в Калифорнии;
  • Electricity Systems — оптимальная система электроэнергии для европейских стран;
  • Load Disaggregation — интеллектуальная разметка нагрузки по скрытым марковским моделям;
  • Price Forecasting — прогнозирование цен на электроэнергию на сутки вперед в немецкой зоне торгов с глубокими нейронными сетями;
  • Carbon Index — расчет интенсивности CO₂ и электричества в регионах страны, НКРЭ с 2001 года;
  • Demand Forecasting — прогнозирование спроса на электроэнергию в Остине;
  • Electricity Consumption — оценка потребления электроэнергии из обследований домашних хозяйств;
  • Electricity French Distribution — анализ данных по электроэнергии, предоставленных французской распределительной сетью (RTE);
  • Renewable Power Plants — временные ряды совокупной установленной мощности;
  • Wind Farm Flow — хранилище моделей потоков ветровой электростанции, подключенных к FUSED-Wind;
  • Power Plant — набор данных содержит 9568 точек данных, собранных электростанцией с комбинированным циклом за 6 лет (2006-2011 гг.).

18.2. Уголь, нефть и газ


  • Coal Prediction — прогнозирование добычи угля;
  • Oil & Gas — прогноз цены на нефть и природный газ с использованием ARIMA и нейронных сетей;
  • Gas Formula — расчет потенциального экономического эффекта формулы индексации цен;
  • Demand Prediction — прогноз спроса на природный газ;
  • Consumption Forecasting — прогнозирование потребления природного газа;
  • Gas Trade — мировая модель торговли природным газом.

18.3. Загрязнение воды


  • Safe Water — предсказание нарушения качества питьевой воды, основанные на здоровье людей в США;
  • Hydrology Data — набор удобных функций для изучения данных о воде в Python;
  • Water Observatory — мониторинг уровня воды в озерах и водохранилищах с использованием спутниковых изображений;
  • Water Pipelines — использование машинного обучения для поиска водопроводов на аэрофотоснимках;
  • Water Modelling — австралийская система моделирования сообществ по оценке водных ресурсов;
  • Drought Restrictions — анализ использования воды в Los Angeles;
  • Flood Prediction — применение LSTM к данным об уровне воды в реке;
  • Sewage Overflow — анализ санитарных переливов (SSO);
  • Air Quality Prediction — прогноз качества воздуха (aq) в Пекине и Лондоне в течение следующих 48 часов.

18.4. Логистика


  • Transdim — создание точных и эффективных решений для задач расчета и прогнозирования пространственно-временных данных потоков трафика машин;
  • Transport Recommendation — контекстно-зависимая рекомендация по мультимодальной транспортировке;
  • Transport Data — данные и ноутбуки для транспорта Торонто;
  • Transport Demand — прогнозирование спроса на общественный транспорт в Найроби;
  • Demand Estimation — внедрение динамической оценки спроса отправителя-получателя;
  • Congestion Analysis — анализ транспортных систем;
  • TS Analysis — анализ временных рядов по транспортным данным;
  • Network Graph Subway — анализ уязвимости для транспортных сетей;
  • Transportation Inefficiencies — количественная оценка неэффективности транспортных сетей;
  • Train Optimisation — оптимизация расписания поездов;
  • Traffic Prediction — прогнозирование городского трафика;
  • Predict Crashes — прогнозирования сбоев, использующее несколько источников данных;
  • AI Supply chain — система оптимизации цепочки поставок;
  • Transfer Learning Flight Delay — использование вариационных кодеров в Keras для прогнозирования задержки полета;
  • Replenishment — код для управления цепочкой поставок.

19. Оптовая и розничная торговля


19.1. Оптовая торговля


  • Customer Analysis — анализ оптовых клиентов;
  • Distribution — JB оптовый анализ распределения;
  • Clustering — кластеризация данных о затратах на продукт, собираемым для клиентов;
  • Market Basket Analysis — публичный набор данных Instacart, с информацией о том, какие продукты часто покупаются вместе.

19.2. Розничная торговля


  • Retail Analysis — онлайн набор данных о розничной торговле;
  • Online Insights — анализ онлайн-транзакций в Великобритании;
  • Retail Cohort — когортный анализ.

На этом наш пост о применение ML и DS в промышленности подошел к концу. Надеюсь вы узнали для себя что-нибудь новое. Если у вас есть то, чем вы можете поделиться сами — пишите в комментариях.

Больше информации о машинном обучении и Data Science в моём аккаунте на Хабре и в телеграм-канале Нейрон, подписывайтесь, чтобы не пропустить будущих статей.

Всем знаний!

+65
17.9k 394
Support the author
Comments 11