Tisane предоставляет структурированные данные о местоположении, помогающие точно определить помеченные фрагменты текста.
Три ключевых атрибута местоположения:
sentence_index: Отсчитываемый от нуля индекс предложения, содержащего фрагмент.offset: Позиция первого символа во фрагменте предложения (отсчет ведется от нуля).length: Количество символов во фрагменте.
- Найдите текст предложения, содержащий фрагмент:
- Перейдите к узлу
sentence_list. - Выберите узел, где
index=sentence_index. - Либо извлеките предложение непосредственно из массива списка предложений.
- Перейдите к узлу
- Получите подстроку:
- Используйте значения
offsetиlength, чтобы получить подстроку из предложения.
- Используйте значения
Мы используем индексацию на основе предложений вместо абсолютных смещений, поскольку многим пользователям необходимо фактическое предложение с фрагментом для контекста.