Tisane cung cấp dữ liệu vị trí có cấu trúc nhằm giúp xác định chính xác các đoạn văn bản bị gắn cờ.
Ba thuộc tính vị trí chính là:
sentence_index: Chỉ số câu, đánh số từ 0, chứa đoạn văn bản.offset: Vị trí bắt đầu, tính từ 0, của ký tự đầu tiên trong đoạn văn bản trong phạm vi câu.length: Số ký tự của đoạn văn bản.
- Xác định văn bản câu chứa đoạn văn bản:
- Truy cập vào nút
sentence_list. - Chọn nút có
index=sentence_index. - Hoặc có thể lấy trực tiếp câu đó từ mảng danh sách câu.
- Truy cập vào nút
- Lấy chuỗi con:
- Sử dụng giá trị
offsetvàlengthđể lấy ra chuỗi con từ câu đã chọn.
- Sử dụng giá trị
Chúng tôi sử dụng chỉ mục theo câu thay vì vị trí ký tự tuyệt đối vì phần lớn người dùng cần lấy cả câu chứa đoạn bị gắn cờ để hiểu được ngữ cảnh.