Artgor Aug 25 2017 at 14:04

Как сделать проект по распознаванию рукописных цифр с дообучением онлайн. Гайд для не совсем начинающих

57 min

34K

Open Data Science corporate blogPython*Data Mining*Image processing*Machine learning*

Tutorial

+25

Comments 9

Legion21 Aug 26 2017 at 10:37

Спасибо за статью!

x0n Nov 21 2017 at 23:48

А как вы забирали с Amazon S3 все то множество файлов (около 800)? Их же надо было забрать себе на локальную машину для проведения обучения. Возможно решение довольно простое (и для вас очевидное), но на сайте Amazon S3 скачивается лишь по одному файлу.

Artgor Nov 22 2017 at 07:33

Хороший вопрос, наверное, стоило его осветить. Это делается в 2 этапа с помощью библиотеки boto3: вначале с помощью функции list_objects получаем список объектов, потом в цикле их скачиваем. Важно, что Амазон ограничивает «размеры» запросов, так что взять больше 1000 объектов за раз не получился. Есть 2 варианта для скачивания больше 1000 объектов: либо указывать параметры запроса и с помощью этого выбирать объекты (не пробовал), либо после каждого скачивания перемещать/удалять объекты в корзине.

Мой код для скачивания картинок выглядит так:

s3 = boto3.client('s3', aws_access_key_id=AWS_ACCESS_KEY_ID, aws_secret_access_key=AWS_SECRET_ACCESS_KEY)
for obj in s3.list_objects(Bucket=BUCKET)['Contents']:
    filename = obj['Key']
    if 'digit' in filename:
        # The local directory must exist.
        localfilename = os.path.join('my_images/', filename)
        s3.download_file(BUCKET, filename, localfilename)
    else:
        pass

x0n Nov 22 2017 at 21:59

Спасибо, статья более чем достойна.

x0n Dec 16 2017 at 01:17

Вечер добрый, в процессе реализации описанного вами проекта возник вопрос.
После разработки первой версии CNN требуется первый раз обучить сеть и для этого

… модель предполагает другие измерения у данных

и далее следует код, в котором проводится reshape X_train, X_val, y_train, y_val

trX = X_train.reshape(-1, 28, 28, 1) # 28x28x1

teX = X_val.reshape(-1, 28, 28, 1)

enc = OneHotEncoder()

enc.fit(y.reshape(-1, 1), 10).toarray() # 10x1

trY = enc.fit_transform(y_train.reshape(-1, 1)).toarray()

teY = enc.fit_transform(y_val.reshape(-1, 1)).toarray()

Непонятна одна переменная «y». Что она собой представляет? Какие в ней данные?

Artgor Dec 16 2017 at 08:20

Доброе утро.

Действительно, упустил этот момент. В данном случае y — все лейблы для исходных данных. Вообще говоря, это нужно только для того, чтобы OneHotEncoder превращал вектор с 10 классами в матрицу с 10 столбцами. Можно использовать любой вектор из имеющихся (y_train, y_val или какой-то другой), главное, чтобы в нём были все 10 классов.

x0n Dec 17 2017 at 20:26

Добрый вечер. У меня еще вопрос или предложение. В пункте дообучения есть обновленный код CNN, и в нем в методе 'train' я вижу как сохраняются файлы с новыми весами в папку tmp

 # Save updated weights

 all_saver = tf.train.Saver() 

 all_saver.save(sess, './tmp/data-all_2_updated.chkp')

Но не вижу где эти файлы заливаются на Amazon, при этом в след методе происходит скачивание этих обновленных весов с сервера Amazon. Но мы же туда их не заливали, чтобы скачивать.
Возможно я чего то не заметил. Спасибо.

Artgor Dec 17 2017 at 20:44

Добрый вечер.

Для этого надо смотреть в сам код (строки 182, 183, 187, 188, 189): github.com/Erlemar/digit-draw-recognize/blob/master/functions.py#L182

cnn = CNN()
cnn.train(X, y)
		
response = self.save_weights_amazon('data-all_2_updated.chkp.meta', './tmp/data-
                                    all_2_updated.chkp')
response = self.save_weights_amazon('data-all_2_updated.chkp.index', './tmp/data-
                                    all_2_updated.chkp')
response = self.save_weights_amazon('data-all_2_updated.chkp.data-00000-of-00001', 
                                    './tmp/data-all_2_updated.chkp')

Что здесь происходит:

Модель инициализируется и тренируется;
В результате тренировки обновлённые веса сохраняются локально в папке tmp (на Heroku), это 3 отдельных файла (так работает tensorflow);
А затем используется метод save_weights_amazon для заливки обновлённых файлов на Amazon;

Возможно есть более элегантные способы делать это, но у меня получилось вот так.

x0n Dec 17 2017 at 20:49

Понял, спасибо. Сожалею, что сразу не заметил.