Перейти к содержимому
Последнее обновление

Хранилища данных языковых моделей

Языковые модели Tisane хранятся в каталогах. Их можно разделить на:

  1. Данные, специфичные для языка, описывающие определенный язык.
  2. Межъязыковые данные, которые используются всеми языками (например, семантические связи между понятиями).

Данные, специфичные для языка

Хранилища данных, специфичные для конкретного языка, именуются в соответствии со следующим правилом: (language_code)-(data_store_name)

  • Код языка: на основе стандарта кодов языков ISO-639-1, в который по желанию можно включить диалекты.
  • Имя хранилища данных: сохраняемые конструкции.

Примеры:

  • en-phrase: английские фразовые модели
  • fr-nondic: эвристика несловарных сущностей французского языка
  • zh_CN-phrase: китайские (упрощенные) фразовые модели

Хранилища межъязыковых данных

Эти хранилища данных используются всеми языками:

  • family
  • role
  • pragma

Важно: все хранилища данных для языка должны находиться в одном и том же каталоге.

Частичное распределение

В целях экономии места или по другим соображениям можно исключить языки или компоненты из развертывания.

Предоставление только выбранных языков

Чтобы включить только определенные языки, определите соответствующие языковые коды (например, en, de,zh_CN ) и укажите соответствующие хранилища данных, специфичные для конкретного языка, вместе с тремя общими хранилищами данных (family, role, pragma).

Предоставление частичной функциональности

Хранилища xx-famlex и xx-famphrase используются только для перевода и могут быть исключены из дистрибутива, если Tisane не используется для перевода.

Проверка орфографии

Данные проверки орфографии хранятся в хранилищах xx-spell. Если этот параметр пропущен, проверка орфографии работать не будет.