# Лексическая фрагментация и токенизация

Tisane использует унифицированное представление лексических фрагментов, выбирая логическое представление на основе морфем.

В языках, использующих сложные слова, например, в немецком, последние делятся на составляющие.

Идиоматические [многословные выражения](https://en.wikipedia.org/wiki/Multiword_expression) («кунг-фу», «электростанция», «глиняная мишень») рассматриваются как одна лексема.

### Примеры

* Английский: «I don't see the power plant». => [«I», «do», «n't», «see», «the», «power plant», «.»]
* Немецкий: «Jetzt sollen die Stahlkugeln ersetzt werden». => [«Jetzt», «sollen», «die, «Stahl», «kugeln», «ersetzt», «werden», «.»]
* Упрощенный китайский: «我给了老张三本书» => [«我», «给了», «老张», «三», «本», «书»] (В языках, не использующих пробелы, частицы часто присоединяются к слову, которое они определяют).
* Испанский: «Asimismo, San Francisco es una de las mejores ciudades de EE. UU». => [«Asimismo», «,», «San Francisco», «es», «una», «de», «las», «mejores», «ciudades», «de», «EE. UU».]


## Как использовать

Чтобы использовать Tisane для токенизации/лексического разделения:

1. Укажите `"words":true` в ваших `settings`.
2. В ответе пройдитесь по всем элементам в разделе `sentence_list` (отдельные предложения).
3. Лексические фрагменты находятся под `words` .