Комментарии 3
Но, как знает любой китайский школьник, в китайской письменности пробелы отсутствуют, а наша модель на вход принимает наборы токенов, которыми в ней являлись слова.

Можно ли для решения этой проблемы использовать пиньинь?

Пробелы в пиньине разделяют иероглифы. С этим проблем и так нет.
Аналогом слова в китайском может являться как один иероглиф, так и несколько.
А ещё, вот стишок о применимости пиньиня:
《施氏食獅史》

石室詩士施氏, 嗜獅, 誓食十獅。
氏時時適市視獅。
十時, 適十獅適市。
是時, 適施氏適市。
氏視是十獅, 恃矢勢, 使是十獅逝世。
氏拾是十獅屍, 適石室。
石室濕, 氏使侍拭石室。
石室拭, 氏始試食是十獅。
食時, 始識是十獅, 實十石獅屍。
試釋是事。

Пиньинь — это просто способ транскрипции иероглифов, сам по себе он никакой новой информации о словах к тексту не добавит.

Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.