Comments 3
Было бы хорошо, если бы вы показали проблему и ее решение на конкретном тестовом примере. Пока выглядит как ответ для stackexchange.
+2
К сожалению ни в этой заметке, ни в заметке про хакатон не расскрыта тайна работы с русским языком, так как нет полного примера.
Попытался по аналоии воспроизвести следующую последовательность: Enter Data Manually -> Execute Python Script -> Feature Hashing
Сам скрипт:
на выходе из скрипта текст действительно прогнался через stemmer, а вот на выходе feature hashing сплошные нули
Попытался по аналоии воспроизвести следующую последовательность: Enter Data Manually -> Execute Python Script -> Feature Hashing
Сам скрипт:
# -*- coding: utf-8 -*-
from nltk.stem.snowball import RussianStemmer
import pandas as pd
stemmer = RussianStemmer(False)
def azureml_main(dataframe1 = None, dataframe2 = None):
out_list = []
for index, row in dataframe1.iterrows():
stemmed = stemmer.stem(row['text'].decode('utf-8'))
out_list.append(stemmed.encode('utf-8'))
return pd.DataFrame(out_list)
на выходе из скрипта текст действительно прогнался через stemmer, а вот на выходе feature hashing сплошные нули
0
Sign up to leave a comment.
Обработка русских текстовых данных в Azure Machine Learning