Tisane использует унифицированное представление лексических фрагментов, выбирая логическое представление на основе морфем.
В языках, использующих сложные слова, например, в немецком, последние делятся на составляющие.
Идиоматические многословные выражения («кунг-фу», «электростанция», «глиняная мишень») рассматриваются как одна лексема.
- Английский: «I don't see the power plant». => [«I», «do», «n't», «see», «the», «power plant», «.»]
- Немецкий: «Jetzt sollen die Stahlkugeln ersetzt werden». => [«Jetzt», «sollen», «die, «Stahl», «kugeln», «ersetzt», «werden», «.»]
- Упрощенный китайский: «我给了老张三本书» => [«我», «给了», «老张», «三», «本», «书»] (В языках, не использующих пробелы, частицы часто присоединяются к слову, которое они определяют).
- Испанский: «Asimismo, San Francisco es una de las mejores ciudades de EE. UU». => [«Asimismo», «,», «San Francisco», «es», «una», «de», «las», «mejores», «ciudades», «de», «EE. UU».]
Чтобы использовать Tisane для токенизации/лексического разделения:
- Укажите
"words":trueв вашихsettings. - В ответе пройдитесь по всем элементам в разделе
sentence_list(отдельные предложения). - Лексические фрагменты находятся под
words.