Перейти к содержимому

Извлечение сущностей

Сущности — это существенные элементы или элементы, представляющие интерес в тексте. Tisane извлекает как стандартные сущности, так и сущности, имеющие отношение к приложениям в сфере доверия и безопасности/правоприменительной деятельности.

Стандартные сущности — это имена людей, их социальные роли, организации, места и т. д. Мы также извлекаем адреса криптовалют, банковские счета, номера кредитных карт, номера телефонов, названия пакетов программного обеспечения и многое другое.

Объекты регистрируются в разделе entities_summary. Каждая запись сущности представляет собой объект, состоящий из следующего:

  • type — тип сущности;
  • name — стандартное имя, если существует; в противном случае зарегистрированная строка
  • subtypes — более подробные дополнительные типы
  • subtype — первый подтип (в целях обратной совместимости)
  • mentions — массив всех обнаруженных упоминаний, включая:
    • offset
    • length
    • sentence_index
    • text
  • wikidata — идентификатор Wikidata, если существует

Полный список обнаруженных объектов см. здесь: Ссылка на ответ

Подтипы

Дополнительные сведения приведены в массиве строк subtypes (первый подтип также регистрируется как атрибут subtype).

Следующие подтипы связаны с определенными типами сущностей:

  • person
    • fictional_character — имя персонажа в художественном произведении
    • important_person — имя исторической личности, общественного деятеля или знаменитости
    • spiritual_being — имя божества, ангела или злого духа
  • organization
    • media — средство массовой информации или периодическое издание
    • authorities — государственный орган
    • law_enforcement_agency — правоохранительный орган
    • intelligence_agency — разведывательный орган
    • military — воинская часть
  • software
    • chat — любая программа, часто используемое для обмена мгновенными сообщениями
    • online_community — интернет-сообщество, такое как социальная сеть
    • low_trust_payment_method — используется для платежей и обычно считается подверженным злоупотреблениям
  • age
    • minor_age — возраст младше возраста согласия
  • crypto
    • bitcoin
    • ethereum
    • dogecoin
    • erc20-wallet
    • monero
    • tether
    • dash
    • litecoin
  • ip_address
    • v4 — IP-адрес версии 4
    • v6 — IP-адрес версии 8
  • file
    • windows — имя пути Windows
    • unix — имя пути Unix
  • credit_card
    • american_express
    • visa
    • mastercard
    • maestro
    • jcb
    • discovery
    • diners_club
    • zcash
  • credential
    • password
  • website
    • high_risk — высокая вероятность столкнуться с вредоносным ПО или мошенничеством
  • item_of_interest
    • cold_weapons
    • luxury - любой предмет роскоши, например, дорогие часы, яхты, роскошные автомобили
    • firearms
    • weapon