Перейти к содержимому

Поиск фрагмента с использованием данных о местоположении

Tisane предоставляет структурированные данные о местоположении, помогающие точно определить помеченные фрагменты текста.

Три ключевых атрибута местоположения:

  • sentence_index : Отсчитываемый от нуля индекс предложения, содержащего фрагмент.
  • offset: Позиция первого символа во фрагменте предложения (отсчет ведется от нуля).
  • length : Количество символов во фрагменте.

Как получить строку

  1. Найдите текст предложения, содержащий фрагмент:
    • Перейдите к узлу sentence_list.
    • Выберите узел, где index = sentence_index.
    • Либо извлеките предложение непосредственно из массива списка предложений.
  2. Получите подстроку:
    • Используйте значения offset и length, чтобы получить подстроку из предложения.

Почему относительные смещения используются вместо абсолютных позиций?

Мы используем индексацию на основе предложений вместо абсолютных смещений, поскольку многим пользователям необходимо фактическое предложение с фрагментом для контекста.