Обработка русских текстовых данных в Azure Machine Learning / Comments / Habr

mac2000 Dec 13 2016 at 13:42

К сожалению ни в этой заметке, ни в заметке про хакатон не расскрыта тайна работы с русским языком, так как нет полного примера.

Попытался по аналоии воспроизвести следующую последовательность: Enter Data Manually -> Execute Python Script -> Feature Hashing

Сам скрипт:

# -*- coding: utf-8 -*-
from nltk.stem.snowball import RussianStemmer
import pandas as pd

stemmer = RussianStemmer(False)

def azureml_main(dataframe1 = None, dataframe2 = None):
    out_list = []
    for index, row in dataframe1.iterrows():
        stemmed = stemmer.stem(row['text'].decode('utf-8'))
        out_list.append(stemmed.encode('utf-8'))

    return pd.DataFrame(out_list)

на выходе из скрипта текст действительно прогнался через stemmer, а вот на выходе feature hashing сплошные нули

Comments 3

Stas911 Jun 9 2015 at 21:54

Было бы хорошо, если бы вы показали проблему и ее решение на конкретном тестовом примере. Пока выглядит как ответ для stackexchange.

frodnix Jun 9 2015 at 22:32

Да, эту заметку я написал именно в этом формате. Про хакатон я пишу более подробную статью, там будут конкретные примеры.