Ученые из Университета ИТМО представили алгоритм, позволяющий определять происхождение текста с точностью до 94%. Система различает тексты, написанные человеком, полностью сгенерированные ИИ, а также материалы, созданные человеком и затем отредактированные нейросетью.
Для обучения детектора был создан специальный корпус из более чем 4 тысяч текстов: научных статей, эссе и новостей, а также их аналогов, переписанных или созданных нейросетями, включая ChatGPT и DeepSeek. Алгоритм анализирует комплекс лингвистических признаков, таких как длина слов и предложений, распределение частей речи, разнообразие словаря и общая читаемость.
Помимо детектора, команда разработала инструмент-обфускатор, который маскирует «машинные маркеры» в тексте, переписывая фрагменты и сохраняя исходный смысл. «Сейчас мы работаем над созданием удобного интерфейса и функцией пакетной обработки», — сообщил научный руководитель проекта Вячеслав Шаламов.
Разработка может найти применение в университетах для проверки академических работ, в редакциях СМИ для маркировки контента и в бизнесе для контроля корпоративной документации. Демонстрационная версия алгоритма уже доступна на платформе Hugging Face Spaces.