{"templateId":"markdown","sharedDataIds":{"sidebar":"sidebar-@l10n/ru/sidebars.yaml"},"props":{"metadata":{"markdoc":{"tagList":[]},"type":"markdown"},"seo":{"title":"Лексическая фрагментация и токенизация","projectTitle":"Tisane Developer Documentation","description":"Tisane is an NLP platform, used for content moderation & more.","llmstxt":{"hide":false,"sections":[{"title":"Table of contents","includeFiles":["**/*"],"excludeFiles":[]}],"excludeFiles":[]}},"dynamicMarkdocComponents":[],"compilationErrors":[],"ast":{"$$mdtype":"Tag","name":"article","attributes":{},"children":[{"$$mdtype":"Tag","name":"Heading","attributes":{"level":1,"id":"лексическая-фрагментация-и-токенизация","__idx":0},"children":["Лексическая фрагментация и токенизация"]},{"$$mdtype":"Tag","name":"p","attributes":{},"children":["Tisane использует унифицированное представление лексических фрагментов, выбирая логическое представление на основе морфем."]},{"$$mdtype":"Tag","name":"p","attributes":{},"children":["В языках, использующих сложные слова, например, в немецком, последние делятся на составляющие."]},{"$$mdtype":"Tag","name":"p","attributes":{},"children":["Идиоматические ",{"$$mdtype":"Tag","name":"MarkdownLink","attributes":{"href":"https://en.wikipedia.org/wiki/Multiword_expression"},"children":["многословные выражения"]}," («кунг-фу», «электростанция», «глиняная мишень») рассматриваются как одна лексема."]},{"$$mdtype":"Tag","name":"Heading","attributes":{"level":3,"id":"примеры","__idx":1},"children":["Примеры"]},{"$$mdtype":"Tag","name":"ul","attributes":{},"children":[{"$$mdtype":"Tag","name":"li","attributes":{},"children":["Английский: «I don't see the power plant». => [«I», «do», «n't», «see», «the», «power plant», «.»]"]},{"$$mdtype":"Tag","name":"li","attributes":{},"children":["Немецкий: «Jetzt sollen die Stahlkugeln ersetzt werden». => [«Jetzt», «sollen», «die, «Stahl», «kugeln», «ersetzt», «werden», «.»]"]},{"$$mdtype":"Tag","name":"li","attributes":{},"children":["Упрощенный китайский: «我给了老张三本书» => [«我», «给了», «老张», «三», «本», «书»] (В языках, не использующих пробелы, частицы часто присоединяются к слову, которое они определяют)."]},{"$$mdtype":"Tag","name":"li","attributes":{},"children":["Испанский: «Asimismo, San Francisco es una de las mejores ciudades de EE. UU». => [«Asimismo», «,», «San Francisco», «es», «una», «de», «las», «mejores», «ciudades», «de», «EE. UU».]"]}]},{"$$mdtype":"Tag","name":"Heading","attributes":{"level":2,"id":"как-использовать","__idx":2},"children":["Как использовать"]},{"$$mdtype":"Tag","name":"p","attributes":{},"children":["Чтобы использовать Tisane для токенизации/лексического разделения:"]},{"$$mdtype":"Tag","name":"ol","attributes":{},"children":[{"$$mdtype":"Tag","name":"li","attributes":{},"children":["Укажите ",{"$$mdtype":"Tag","name":"code","attributes":{},"children":["\"words\":true"]}," в ваших ",{"$$mdtype":"Tag","name":"code","attributes":{},"children":["settings"]},"."]},{"$$mdtype":"Tag","name":"li","attributes":{},"children":["В ответе пройдитесь по всем элементам в разделе ",{"$$mdtype":"Tag","name":"code","attributes":{},"children":["sentence_list"]}," (отдельные предложения)."]},{"$$mdtype":"Tag","name":"li","attributes":{},"children":["Лексические фрагменты находятся под ",{"$$mdtype":"Tag","name":"code","attributes":{},"children":["words"]}," ."]}]}]},"headings":[{"value":"Лексическая фрагментация и токенизация","id":"лексическая-фрагментация-и-токенизация","depth":1},{"value":"Примеры","id":"примеры","depth":3},{"value":"Как использовать","id":"как-использовать","depth":2}],"frontmatter":{"seo":{"title":"Лексическая фрагментация и токенизация"}},"lastModified":"2025-06-24T05:57:38.000Z","pagePropGetterError":{"message":"","name":""}},"slug":"/ru/guides/how-tos/lexicalchunking","userData":{"isAuthenticated":false,"teams":["anonymous"]},"isPublic":true}