Pull to refresh
19
-2
Send message

Про ChatGPT и Искусственный интеллект

Level of difficulty Easy
Reading time 11 min
Views 13K

В 2016 году в распоряжении компьютерной лингвистики были Doc2Vec, LSI, LDA, LSTM, TF-IDF, BM25, CNN, fasttext и подобные модели, в 2018 к ним присоединились "Трансформеры" (BERT, RoBERT, Sbert, GPT-2, GPT-3 и прочие). При всей мощи трансформеров и существенном приросте качества, эти модели одного уровня - инструменты для решения узких технических задач.

Появление в 2022 году ChatGPT ознаменовало переход количества (моделей, прилагаемых усилий, вложенных денег, выделенных вычислительных мощностей и т. п.) в новое качество.

В статье делается попытка осознать, с чем мы имеем дело и предположить, как будут развиваться большие лингвистические модели.

Читать далее
Total votes 12: ↑9 and ↓3 +6
Comments 31

Перевод книги Эндрю Ына «Страсть к машинному обучению» Глава 58. Заключительная

Reading time 1 min
Views 1.9K

предыдущие главы


Заключение


58. Создание супергероев — поделитесь с командой!


Поздравляю с окончанием чтения этой книги!


В главе 2 говорилось о том, что эта книга поможет вам стать Супергероем вашей команды.


image


Единственное, что может быть лучше, это входить в звездную команду, состоящую из супергероев.


Я надеюсь, что вы поделитесь этой книгой со своими друзьям, коллегами и товарищам по команде, помогая становлению других супергероев!

Rating 0
Comments 0

Перевод книги Эндрю Ына «Страсть к машинному обучению» Главы 55 — 57

Reading time 6 min
Views 1.9K

предыдущие главы


55. Общий случай отнесения ошибок к компоненту комплексной системы


Ниже будут приведена последовательность шагов для соотнесения ошибок комплексной системы с ее конкретным модулем. Рассмотрим конвейер, состоящий из трех элементов A, B и C, где результат работы компонента A передается на вход B, а результат B на вход C.

Читать дальше →
Rating 0
Comments 0

Перевод книги Эндрю Ына «Страсть к машинному обучению» Главы 53 и 54

Reading time 3 min
Views 1.7K

Предыдущие главы


Анализ ошибок по частям


53. Анализ ошибок по частям


Пусть система представляет из себя составной конвейер, состоящий из модулей с машинным обучением. Над улучшением какого компонента этой системы нужно работать в первую очередь? Соотнеся ошибки системы с конкретными элементами конвейера, можно принять решение о расстановке приоритетов в работе.

Читать дальше →
Total votes 3: ↑3 and ↓0 +3
Comments 0

Перевод книги Эндрю Ына «Страсть к машинному обучению». Главы 51 и 52

Reading time 4 min
Views 2.1K

предыдущие главы


51. Выбираем компоненты конвейера: простота решения задач


Вторым важным фактором, который нужно учитывать при построении «конвейера», кроме доступности обучающих данных, является простота использования компонента. Нужно попытаться выбрать такие компоненты конвейера, каждый из которых легок в разработке или в обучении. Но что значит: компонент легок в обучении?


image

Читать дальше →
Total votes 7: ↑7 and ↓0 +7
Comments 0

Перевод книги Эндрю Ына «Страсть к машинному обучению» Главы 49 и 50

Reading time 4 min
Views 2.9K

предыдущие главы


49. За и против сквозного обучения


Продолжим рассматривать систему распознавания речи:


image

Большинство элементов этого конвейера созданы без применения машинного обучения (разработаны людьми или hand-designed):


  • MFCC — это набор звуковых признаков, извлекаемых математическими манипуляциями с частотами, не требующими обучающихся алгоритмов. При этом обеспечивается удобная свертка входящего сигнала с потерей не значимой информации.
  • Фонемы — изобретение лингвистов. При помощи них создается упрощенная модель звуков живой речи. Как и всякая модель сложного явления, фонемы не совершенны, качество работы системы, частью которой они являются, ограничено их несовершенным отражением реальности.

С одной стороны не обучаемые алгоритмы (hand-engineered components) ограничивают потенциальную производительность речевой системы. С другой их использование имеет определенные преимущества:


  • Функции MFCC устойчивы к некоторым свойствам речи, не влияющим на смысл сказанного, например к тональности голоса. Их применение упрощает задачу для обучаемого алгоритма.
  • Фонемы, если они правильно отражают звуки реальной речи, помогают обучающемуся алгоритму уловить основные звуковые элементы, повышая качество его работы
Читать дальше →
Total votes 4: ↑4 and ↓0 +4
Comments 0

Перевод книги Эндрю Ына «Страсть к машинному обучению» Главы 47 и 48

Reading time 3 min
Views 3.9K

предыдущие главы


Сквозное глубокое обучение


47. Знакомство со сквозным обучением


Представим, что вы хотите создать систему, анализирующую отзывы о продуктах в Интернете и автоматически оценивающую, понравился продукт автору отзыва или нет. Например, отзыв «Это отличная швабра!» должен распознаваться такой системой, как очень позитивный. А отзыв «Эта швабра низкого качества — зря я купил ее», как крайне негативный.

Читать дальше →
Total votes 3: ↑3 and ↓0 +3
Comments 0

Перевод книги Эндрю Ына «Страсть к машинному обучению» Главы 44 — 46

Reading time 7 min
Views 2.4K

предыдущие главы


Заключительная отладка алгоритмов


44. Тест для проверки оптимизации (The Optimization Verification test)


Предположим, вы разрабатываете систему распознавания речи. Система получает на вход запись голоса A и вычисляет некоторую величину A(S), оценивающую правдоподобность того, что этот аудиоклип соответствует предложению S. Например, вы можете попытаться оценить величину A(S) = P(S|A), как вероятность того, что корректной выходной транскрипцией будет предложение S, при условии, что входным звуком был A.


Какой бы способ оценки величины A(S) вы не выбрали, задача состоит в том, чтобы найти английское предложение S, при котором эта величина будет максимальной:
image

Читать дальше →
Total votes 8: ↑8 and ↓0 +8
Comments 2

Перевод книги Эндрю Ына «Страсть к машинному обучению» Главы 42 и 43

Reading time 5 min
Views 3.2K

предыдущие главы


42. Еще про несоответствие данных


Предположим, вы разработали систему распознавания речи, которая очень хорошо работает на обучающей выборке и на «выборке для валидации обучающей». Однако у нее низкое качество на валидационной выборке: очевидно, вы имеете дело с проблемой несоответствия данных. Что можно сделать в этом случае?


Я бы порекомендовал следующее: (i) Постараться понять, чем именно различаются распределения данных обучающей и валидационной выборок. (ii) Найти как можно больше обучающих примеров, которые соответствуют примерам валидационной выборки и на которых алгоритм ошибается.

Читать дальше →
Total votes 5: ↑5 and ↓0 +5
Comments 0

Перевод книги Эндрю Ына «Страсть к машинному обучению» Главы 40 и 41

Reading time 4 min
Views 4.2K

предыдущие главы


40. Проблемы обобщения: от обучающей выборки к валидационной


Предположим, что вы применяете ML в условиях, когда распределение обучающей и валидационной выборок отличаются. Например, обучающая выборка содержит изображения из Интернета + изображения из мобильного приложения, а тестовая и валидационная выборки только из мобильного приложения. При этом алгоритм работает не очень хорошо: он имеет гораздо более высокую ошибку на валидационной и тестовой выборках, чем хотелось бы. Приведем некоторые возможные причины:

Читать дальше →
Total votes 5: ↑5 and ↓0 +5
Comments 0

Перевод книги Эндрю Ына «Страсть к машинному обучению» Главы 38 и 39

Reading time 3 min
Views 3.7K

предыдущие главы


38. Как определить, нужно ли добавлять данные с отличающимся распределением


Допустим мы хотим научиться прогнозировать цены на жилье в Нью-Йорке. Исходя из размера дома (входной признак x), необходимо предсказать его цену (целевое значение y).


Цены на жилье в Нью-Йорке очень высокие. Предположим, имеется второй набор данных о ценах на жилье в Детройте, штат Мичиган, где недвижимость намного дешевле. Нужно ли включать эти данные в обучающую выборку?


При одинаковом размере х цена дома у сильно отличается в зависимости от того, находится ли он в Нью-Йорке или в Детройте. Если необходимо прогнозировать цены на жилье в Нью-Йорке, объединение двух наборов данных ухудшит результаты. В этом случае лучше не добавлять в обучающую выборку данные о недвижимости Детройта

Читать дальше →
Total votes 3: ↑3 and ↓0 +3
Comments 0

Перевод книги Эндрю Ына «Страсть к машинному обучению» Главы 36 и 37

Reading time 6 min
Views 3K

предыдущие главы


Обучение и тестирование на выборках, имеющих разное распределение


36. Когда приходится обучать и тестировать алгоритмы на отличающихся распределениях


Пользователи вашего кошачьего приложения загрузили 10 000 картинок, которые были размечены вами, как изображения с кошками и изображение без кошек. У вас так же есть большая выборка из 200 000 изображений, собранных в Интернете. Как в этом случае выбрать тренировочную, валидационную и тестовую выборки?


Так как 10000 загруженных пользователями изображений точно отражают реальное вероятностное распределение данных, на котором ваш алгоритм должен хорошо работать, вы можете использовать эти картинки для валидационной и тестовой выборок. Если вы обучаете алгоритм глубокого обучения, требующий большого количества данных, вы можете использовать для его обучения 200 000 дополнительных примеров, полученных из Интернета. В этом случае ваша тренировочная и тестовая с валидационной выборки будут иметь разное вероятностное распределение. Как это повлияет на вашу работу?

Читать дальше →
Total votes 4: ↑4 and ↓0 +4
Comments 0

Перевод книги Эндрю Ына «Страсть к машинному обучению» Главы 34 и 35

Reading time 3 min
Views 3.7K

предыдущие главы


34. Как определить уровень качества, доступный человеку


Предположим, вы работаете над приложением обработки медицинских снимков, которое должно делать автоматическую диагностику рентгеновских снимков. Ошибка обычного человека без медицинского образования, за исключением некоторой базовой подготовки, составляет порядка 15%. Ошибка начинающего доктора около 10%. Опытный доктор ошибается в 5% случаев. Ошибка небольшой команды врачей, изучающих и обсуждающих каждый снимок не превышает 2%. Какую из этих цифр принять за «уровень качества человека»?


В этом случае, я бы принял за уровень качества, доступный человеку 2% и установил бы соответствующее оптимальное значение ошибки. Так же имеет смысл установить 2% в качестве желаемого уровня ошибки для нашей системы, поскольку это значение ошибки соответствует всем трем критериям, описанным в предыдущей главе для систем, которые позволяют сравнивать качество работы алгоритма с качеством выполнения задачи человеком:

Читать дальше →
Total votes 3: ↑3 and ↓0 +3
Comments 0

Перевод книги Эндрю Ына «Страсть к машинному обучению» Глава 33

Reading time 3 min
Views 4.9K

предыдущие главы


Сравнение с качеством, доступным человеку


33. Зачем сравнивать с уровнем качества, доступным человеку


Многие системы, использующие машинное обучение, преследуют цель автоматизировать задачи, с которыми люди хорошо справляются. В качестве примера можно привести распознавание изображений, распознавание речи, классификация спама в электронной почте. Обучающиеся алгоритмы настолько улучшились, что им удается превзойти человека на все большем и большем количестве таких задач.


Кроме того, есть несколько причин, исходя из которых построение систем машинного обучения упрощается, если вы пытаетесь выполнить с их помощью задачу, с которой хорошо справляются люди:

Читать дальше →
Total votes 3: ↑3 and ↓0 +3
Comments 1

Перевод книги Эндрю Ына «Страсть к машинному обучению» Главы 30 — 32

Reading time 6 min
Views 5.7K

предыдущие главы


30. Интерпретация кривой обучения: Большое смещение


Предположим, ваша кривая ошибок на валидационной выборке выглядит следующим образом:
image


Мы уже говорили, что если ошибка алгоритма на валидационной выборке вышла на плато, вы вряд ли сможете достигнуть желаемого уровня качества просто добавляя данные.


Но трудно предположить, как будет выглядеть экстраполяция кривой зависимости качества алгоритма на валидационной выборке (Dev error) при добавлении данных. А если валидационная выборка маленькая, то ответить на этот вопрос еще сложнее из-за того, что кривая может быть зашумлена (иметь большой разброс точек).


Предположим, мы добавили на наш график кривую зависимости величины ошибки от количества данных тестовой выборки и получили следующую картину:

Читать дальше →
Total votes 7: ↑7 and ↓0 +7
Comments 0

Перевод книги Эндрю Ына «Страсть к машинному обучению» Главы 28 — 29

Reading time 3 min
Views 7K

предыдущие главы


Кривые обучения


28 Диагностирование смещения и разброса: Кривые обучения


Мы рассматривали несколько подходов к разделению ошибок на избегаемое смещение и на разброс. Мы делали это оценивая оптимальную долю ошибок вычисляя ошибки на тренировочной выборке алгоритма и на валидационной выборке. Давайте обсудим более информативный подход: графики кривой обучения.
Графики кривых обучения представляют из себя зависимости доли ошибки от количества примеров тренировочной выборки.


image

Читать дальше →
Total votes 5: ↑5 and ↓0 +5
Comments 0

Перевод книги Эндрю Ына «Страсть к машинному обучению» Главы 20 — 27

Reading time 15 min
Views 14K

предыдущие главы


20 Смещение и разброс: Два основных источника ошибок


замечание переводчика До изменения, данная глава называлась "Систематические и случайные: Два основных источника ошибок", т. е. я использовал термины "случайной ошибки" и "систематической ошибки" для перевода bias и variance. Однако, форумчанин робот@Phaker в комментарии справедливо заметил, что в области машинного обучения в русскоязычной терминологии для данных терминов закрепляются понятия "смещение" и "разброс". Я посмотрел работы К.В. Воронцова, который заслужено является одним из авторитетов в области машинного обучения в России и ресурсы профессионального сообщества, и согласился с замечанием робот@Phaker. Несмотря на то, что с моей точки зрения, между "смещением" (bias) и "разбросом" (variance) при обучении алгоритмов и "систематической ошибкой" и "случайной ошибкой" физического эксперимента существует глубокая содержательная аналогия, кроме того они одинаково выражаются математически, все же правильно использовать устоявшиеся в данной области термины. Поэтому я переработал перевод данной и последующих глав, заменив "Систематическую и Случайные ошибки" на "Смещение и Разброс" и буду придерживаться этого подхода в дальнейшем.

Читать дальше →
Total votes 18: ↑17 and ↓1 +16
Comments 3

Перевод книги Эндрю Ына «Страсть к машинному обучению» Главы 15 — 19

Reading time 11 min
Views 11K

предыдущие главы


15. Одновременная оценка нескольких идей во время анализа ошибок


У вашей команды есть несколько идей, как улучшить определитель кошек в вашем приложении:


  • Решить проблему с тем, что ваш алгоритм относит собак к кошкам
  • Решить проблему с тем, что ваш алгоритм распознает больших диких кошек (львов, пантер, т. п.) как домашних
  • Улучшить работу системы на нечетких изображениях

Можно оценить все эти идеи одновременно. Обычно я создаю специальную таблицу и заполняю ее для примерно 100 случаев ошибочной классификации валидационной (dev) выборки. Так же я делаю краткие комментарии, которые могут помочь мне вспомнить конкретные примеры в последствие. Для иллюстрации этого процесса, давайте рассмотрим сводную таблицу, которую вы могли бы создать из небольшого набора примеров вашей валидационной (dev) выборки

Читать дальше →
Total votes 14: ↑14 and ↓0 +14
Comments 2

Перевод книги Эндрю Ына «Страсть к машинному обучению» Главы 1 — 14

Reading time 24 min
Views 58K

Некоторое время назад в моей ленте в фейсбуке всплыла ссылка на книгу Эндрю Ына (Andrew Ng) "Machine Learning Yearning", которую можно перевести, как "Страсть к машинному обучению" или "Жажда машинного обучения".


image<img src="<img src="https://habrastorage.org/webt/ds/rc/ct/dsrcctfottkedkf7o1hxbqsoamq.png" />" alt="image"/>


Людям, интересующимся машинным обучением или работающим в этой сфере представлять Эндрю не нужно. Для непосвященных достаточно сказать, что он является звездой мировой величины в области искусственного интеллекта. Ученый, инженер, предприниматель, один из основателей Coursera. Автор отличного курса по введению в машинное обучение и курсов, составляющих специализацию "Глубокое обучение" (Deep Learning).

Читать дальше →
Total votes 40: ↑40 and ↓0 +40
Comments 3

Information

Rating
Does not participate
Registered
Activity