Tisane — это мощная платформа понимания естественного языка (NLU), разработанная с нуля для социальных сетей/текстов, создаваемых пользователями: грамматически некорректная, возможно, запутанная (например, algospeak) и изобилующая сленгом и ошибками. Основными сферами применения Tisane являются модерация контента, а также использование для целей правоохранительных органов, органов национальной безопасности и разведки.
Все функции доступны на всех поддерживаемых языках. Все выходные данные предоставляются за один вызов.
Tisane предлагает современные возможности обнаружения злоупотреблений, анализа тональности и распознавания сущностей:
Обнаружение проблемного контента для модерации и расследования:
- Личные нападки, оскорбления, кибербуллинг
- Разжигание ненависти
- Ненормативная лексика
- Сексуальные домогательства
- Ссылки только для взрослых
- Преступная деятельность (торговля запрещенными товарами, такими как наркотики, огнестрельное оружие и т. д.)
- Угрозы
- Обвинения (клеветнические или иные)
- Суицидальные мысли
- Попытка установить контакт за пределами текущего средства массовой информации или платформы
- Графические изображения насилия
- Настойчивое утверждение иерархии (например, травля на рабочем месте)
- Утечки данных (например, кража личных данных, раскрытие учетных данных)
- Спам
Обнаружение именованных сущностей и поиск связей между ними:
- люди
- организации
- социальные роли (звания, профессии и т. д.)
- места
- номера телефонов
- номера кредитных карт
- даты
- суммы денег
- предметы, представляющие интерес для расследований (наркотики, оружие, транспортные средства)
- криптовалютные адреса
- прочее
Определение тем (предметы/темы/области знаний)
Анализ настроений (положительных, отрицательных или смешанных), включая
- мнение, выраженное по отношению к определенным аспектам или сущностям в тексте. (Аспектный анализ тональности)
Tisane также обеспечивает доступ к основам лингвистики:
- Умное разделение предложений
- Предоставляет оригинальные предложения и их исправленные версии (если применимо).
- Использует неразрывы, чтобы избежать ложных срабатываний (например,
EE. UU.илиwww.google.com)
- Лексическое разделение
- Токенизирует предложения по морфеме
- Поддерживает все типы сегментации:
- языки, использующие пробелы
- языки, не использующие пробелы (например, китайский, японский, тайский)
- языки, использующие сложные слова (немецкий, голландский, африкаанс)
- клитики
- многословные выражения
- несловарные сущности (адреса электронной почты, номера телефонов и т. д.)
- Разбор грамматических деревьев и фраз
- Предлагает иерархическое представление структуры предложения, выделяя фразы и их взаимосвязи.
- Извлекает именные, глагольные, предложные, адъективные и наречные обороты.
- Слова
- Предоставляет подробную информацию о каждом слове (или лексическом фрагменте), включая его лемму, роль в предложении и грамматические особенности.
- Разрешение неоднозначности смысла
- Определяет смысл каждого слова в текущем контексте.