{"templateId":"markdown","sharedDataIds":{"sidebar":"sidebar-@l10n/vi/sidebars.yaml"},"props":{"metadata":{"markdoc":{"tagList":[]},"type":"markdown"},"seo":{"title":"Phân đoạn từ vựng và Tách từ","projectTitle":"Tisane Developer Documentation","description":"Tisane is an NLP platform, used for content moderation & more.","llmstxt":{"hide":false,"sections":[{"title":"Table of contents","includeFiles":["**/*"],"excludeFiles":[]}],"excludeFiles":[]}},"dynamicMarkdocComponents":[],"compilationErrors":[],"ast":{"$$mdtype":"Tag","name":"article","attributes":{},"children":[{"$$mdtype":"Tag","name":"Heading","attributes":{"level":1,"id":"phân-đoạn-từ-vựng-và-tách-từ","__idx":0},"children":["Phân đoạn từ vựng và Tách từ"]},{"$$mdtype":"Tag","name":"p","attributes":{},"children":["Tisane sử dụng một cách biểu diễn thống nhất cho các cụm từ vựng, lựa chọn cách biểu diễn dựa trên hình vị theo logic."]},{"$$mdtype":"Tag","name":"p","attributes":{},"children":["Trong các ngôn ngữ có sử dụng từ ghép như tiếng Đức, các từ ghép sẽ được tách thành các thành phần cấu tạo."]},{"$$mdtype":"Tag","name":"p","attributes":{},"children":[{"$$mdtype":"Tag","name":"MarkdownLink","attributes":{"href":"https://en.wikipedia.org/wiki/Multiword_expression"},"children":["Những cụm từ"]}," mang tính thành ngữ (“kung fu”, “power plant” (nhà máy điện), “clay pigeon” (đĩa bay đất sét dùng trong bắn súng) được xem như một đơn vị từ vựng duy nhất."]},{"$$mdtype":"Tag","name":"Heading","attributes":{"level":3,"id":"ví-dụ","__idx":1},"children":["Ví dụ"]},{"$$mdtype":"Tag","name":"ul","attributes":{},"children":[{"$$mdtype":"Tag","name":"li","attributes":{},"children":["Tiếng Anh: \"I don't see the power plant.\" => [\"I\", \"do\", \"n't\", \"see\", \"the\", \"power plant\", \".\"]"]},{"$$mdtype":"Tag","name":"li","attributes":{},"children":["Tiếng Đức: \"Jetzt sollen die Stahlkugeln ersetzt werden.\" => [\"Jetzt\", \"sollen\", \"die\", \"Stahl\", \"kugeln\", \"ersetzt\", \"werden\", \".\"]"]},{"$$mdtype":"Tag","name":"li","attributes":{},"children":["Tiếng Trung Giản thể: \"我给了老张三本书\" => [\"我\", \"给了\", \"老张\", \"三\", \"本\", \"书\"] (Với các ngôn ngữ không dùng khoảng trắng, các trợ từ thường được nối với từ mà chúng bổ nghĩa.)"]},{"$$mdtype":"Tag","name":"li","attributes":{},"children":["Tiếng Tây Ban Nha: \"Asimismo, San Francisco es una de las mejores ciudades de EE. UU.\" => [\"Asimismo\", \",\", \"San Francisco\", \"es\", \"una\", \"de\", \"las\", \"mejores\", \"ciudades\", \"de\", \"EE. UU.\"]"]}]},{"$$mdtype":"Tag","name":"Heading","attributes":{"level":2,"id":"cách-sử-dụng","__idx":2},"children":["Cách sử dụng"]},{"$$mdtype":"Tag","name":"p","attributes":{},"children":["Để sử dụng Tisane cho việc tách từ/phân đoạn từ vựng:"]},{"$$mdtype":"Tag","name":"ol","attributes":{},"children":[{"$$mdtype":"Tag","name":"li","attributes":{},"children":["Chỉ định ",{"$$mdtype":"Tag","name":"code","attributes":{},"children":["\"words\":true"]}," trong ",{"$$mdtype":"Tag","name":"code","attributes":{},"children":["settings"]}," của bạn."]},{"$$mdtype":"Tag","name":"li","attributes":{},"children":["Trong phản hồi, duyệt qua tất cả các phần tử trong mục ",{"$$mdtype":"Tag","name":"code","attributes":{},"children":["sentence_list"]}," (các câu riêng lẻ)."]},{"$$mdtype":"Tag","name":"li","attributes":{},"children":["Các cụm từ sẽ nằm trong ",{"$$mdtype":"Tag","name":"code","attributes":{},"children":["words"]},"."]}]}]},"headings":[{"value":"Phân đoạn từ vựng và Tách từ","id":"phân-đoạn-từ-vựng-và-tách-từ","depth":1},{"value":"Ví dụ","id":"ví-dụ","depth":3},{"value":"Cách sử dụng","id":"cách-sử-dụng","depth":2}],"frontmatter":{"seo":{"title":"Phân đoạn từ vựng và Tách từ"}},"lastModified":"2025-06-30T05:16:22.000Z","pagePropGetterError":{"message":"","name":""}},"slug":"/vi/guides/how-tos/lexicalchunking","userData":{"isAuthenticated":false,"teams":["anonymous"]},"isPublic":true}