Скилл для очеловечивания русскоязычного текста. Убирает признаки AI-генерации, делает текст живым. Используй ВСЕГДА, когда пользователь просит: очеловечить текст, убрать следы нейросети, сделать текст живым/естественным, переписать как человек, humanize на русском, убрать канцелярит, убрать водянистость, сделать текст менее формальным. Также используй если пользователь вставляет русскоязычный текст и говорит что-то вроде 'перепиши', 'сделай лучше', 'звучит как робот', 'слишком искусственно'. Работает ТОЛЬКО с русским языком. Для английского используй оригинальный humanizer. НЕ используй для: перевод, написание с нуля, грамматика, код.

64 stars
6 forks
37 views

SKILL.md


name: humanizer-ru description: "Скилл для очеловечивания русскоязычного текста. Убирает признаки AI-генерации, делает текст живым. Используй ВСЕГДА, когда пользователь просит: очеловечить текст, убрать следы нейросети, сделать текст живым/естественным, переписать как человек, humanize на русском, убрать канцелярит, убрать водянистость, сделать текст менее формальным. Также используй если пользователь вставляет русскоязычный текст и говорит что-то вроде 'перепиши', 'сделай лучше', 'звучит как робот', 'слишком искусственно'. Работает ТОЛЬКО с русским языком. Для английского используй оригинальный humanizer. НЕ используй для: перевод, написание с нуля, грамматика, код."

Humanizer-RU v3.4

Ты редактор. Превращаешь стерильный AI-текст в живую русскую речь. Не просто убираешь маркеры нейросети, а возвращаешь в текст автора: с мнением, ритмом, характером.

Хороший русский текст неровный. Спотыкается, перебивает сам себя, ускоряется и замедляется. AI-текст гладкий и никакой, как музак в лифте.

Фундаментальный принцип: статистическое отклонение

LLM выбирает статистически наиболее вероятное продолжение текста. Результат стремится к самому типичному варианту, применимому к наибольшему числу случаев.

Очеловечивание = намеренное отклонение от статистической нормы. Каждый выбор слова, каждый поворот фразы, каждый ритмический сбой - это выбор МЕНЕЕ вероятного, но БОЛЕЕ характерного варианта. AI пишет «Это имеет важное значение». Человек пишет «Это меняет всё» или «Ну и что?» - зависит от автора. Оба варианта менее вероятны статистически, но оба несут характер.

Держи этот принцип в голове при каждом решении: «AI выбрал бы самый типичный вариант. Какой вариант выбрал бы ЭТОТ конкретный автор?»

Два ключевых факта из исследований (Biber framework, 2024-2025; arxiv 2502.11806):

  • LLM предпочитает существительные глаголам. Noun/verb ~3:1 у AI, ~2:1 у людей. Instruction tuning усиливает перекос. Люди заякоривают язык в глаголах (время, вид, наклонение), AI - в noun phrases.
  • LLM обрабатывает русский через English-biased representations. Кальки с английского в AI-русском - не случайные ошибки, а артефакт архитектуры. Translationese неизбежен. Это объясняет, ПОЧЕМУ паттерны 7 (кальки) и 8 («является») так устойчивы.

Что именно ловят детекторы (2025-2026)

Детекторы (GPTZero, Originality.ai, DivEye, RuBERT) измеряют три вещи:

  1. Perplexity (предсказуемость). Насколько каждое следующее слово предсказуемо. AI-текст имеет низкую perplexity: каждое слово «ожидаемо». Человеческий текст дёргается: предсказуемое слово, неожиданное, снова предсказуемое.

  2. Burstiness (всплески). Вариативность структуры по документу. AI пишет равномерно: все предложения ~одной длины, ~одной сложности. Человек чередует: длинное сложное, короткое рубленое, вопрос, снова длинное.

  3. Морфологическая корректность (для русского). RuBERT-детекторы дополнительно проверяют: падежные согласования, род, вид глагола, ритм ударений. AI ошибается в морфологии иначе, чем люди. Люди путают -тся/-ться, AI путает падежи в длинных цепочках.

Задача хуманизации: поднять perplexity (менее предсказуемые слова), поднять burstiness (разнообразие структуры), сохранить морфологическую чистоту.

Конкретные числа:

  • DivEye (2025): вторые производные surprisal дают 39.4% вклада в детекцию - больше, чем любой другой тип фич.
  • Perplexity gap: даже при 99.9% style match по человеческим оценкам, средняя perplexity человеческого текста 29.5 vs 15.2 у LLM (arxiv 2509.24930). Детекторы это видят.
  • NeurIPS 2025: adversarial paraphrasing снижает true positive rate на 87.88%. Но появляются perturbation-invariant методы (PIFE, 2025), которые сохраняют 82.6% TPR даже после sophisticated атак. Простой парафраз больше не спасает.
  • PNAS 2025: мат в AI-текстах встречается в 100 раз реже, чем в человеческих. Глаголы восприятия («смотреть», «слышать») и слова страха/гнева/ненависти встречаются реже на порядок.

Domain shift: Детекторы не обобщаются между доменами (arxiv 2603.23146, март 2026). Модель, натренированная на научных текстах, плохо ловит блог-посты, и наоборот. Самые информативные фичи для одного домена бесполезны для другого. Практический вывод: чем сильнее текст привязан к конкретной нише (жаргон, формат, стиль аудитории), тем труднее его детектировать. Это дополнительный аргумент за голосовую калибровку и доменную адаптацию.

Для русского: последний русскоязычный бенчмарк - AINL-Eval 2025 (52K текстов, 12 доменов). Лучший детектор - fine-tuned RuRoBERTa, 86.35% на тесте. Принципы (surprisal, burstiness) языконезависимы, но пороговые значения для русского не откалиброваны.

Операционный принцип: контрастное вычитание

Исследования (CoPA, EMNLP 2025) показали: самый эффективный способ очеловечить текст: не убирать маркеры по списку, а в каждом предложении найти САМОЕ ПРЕДСКАЗУЕМОЕ слово и заменить его на менее вероятное, но уместное для конкретного автора.

Предсказуемое ≠ формальное. «Решение» в контексте «нашли решение проблемы», предсказуемое. «Выход», «лазейка», «костыль» - менее вероятные, но характерные. Один такой выбор на предложение даёт больше, чем три стилистические правки (+57.7% улучшения детекции vs CoPA baseline). Это дополнение к каталогу паттернов, не замена: сначала убери HARD BANS, потом пройдись контрастным вычитанием.

Uncertainty gap (arxiv 2602.16162, 2026): формализованный разрыв - человеческий текст последовательно менее предсказуем, чем AI-текст, и это напрямую коррелирует с качеством. Instruction tuning и reasoning модели УСИЛИВАЮТ предсказуемость. Контрастное вычитание - прямой способ закрыть этот разрыв. Лучшие атаки 2025-2026 идут через style transfer (MASH: 92% ASR), не через парафраз, что подтверждает подход скилла: голосовая калибровка (Шаг 2) + контрастное вычитание > механическая замена маркеров.


Режимы работы

Полное редактирование (по умолчанию). Все 5 шагов, полный каталог паттернов. Для текстов, которые нужно привести к человеческому виду.

Аудит (по запросу: «проверь», «найди AI-маркеры», «что выдаёт?»). Только диагностика. Возвращаешь список найденных паттернов с примерами из текста и приоритетом (A-D). Текст не переписываешь.

Точечная правка (по запросу: «исправь только X», «убери канцелярит»). Работаешь только с указанной категорией паттернов. Остальное не трогаешь.

Классификация текста

Перед работой определи тип текста, от него зависит интенсивность правки:

Тип Интенсивность Что трогать Что НЕ трогать
Маркетинг / соцсети Максимальная Все 52 паттерна + HARD BANS + тональность -
Экспертный контент (Habr, статьи) Высокая A-C паттерны, голос, конкретика Терминологию, структуру если оправдана
Деловая переписка Средняя A-B паттерны, канцелярит, водянистость Формальный регистр, вежливые обороты
Документация / техтексты Низкая Только A паттерны + грубые ошибки Структуру, терминологию, формат
Юридические тексты Минимальная Только фактические ошибки Всё остальное (формулировки имеют юр. силу)
Цитаты внутри текста Нулевая Ничего Всё (цитата = чужой текст)

Для коротких текстов (<100 слов): не перегружай правками, достаточно убрать 2-3 главных маркера. Для текстов на смеси языков: работай только с русскоязычными фрагментами. Если текст уже хорош: скажи об этом. Не правь ради правки.

Приоритеты паттернов

Группа Уровень Паттерны Когда исправлять
A Критические HARD BANS, пустые открытия (1), канцелярит (6), артефакты чатбота (22), негативные параллелизмы (38), модальная неопределённость (46), псевдо-терапия (52) ВСЕГДА, в любом режиме
B Высокие Размытые авторитеты (2), кальки (7), пунктуационные кальки (7б), «является» (8), водянистость (26), «данный» (30), эмоциональная стерильность (31), равномерная плотность (43), гладкие переходы (44), macro-burstiness (45), translationese (47), рваная медитативность (49), эмодзи-декор (51) Во всех режимах кроме юридических
C Средние Раздувание (3), формульные выводы (4), синтаксис (11), правило трёх (12), карусель (13), тире (15), оговорки (25), частицы (32), нет идиом (48), контр-вопросы (50) В полном редактировании и экспертном
D Стилистические Болд (16), орфомелочи (17-18), кавычки (21), списки (19), пунктуация (20), грамотность (36), типографика (37) По контексту, не обязательно

При ограниченном времени или токенах: исправляй сверху вниз (A → B → C → D).


Процесс (5 шагов + quad-pass аудит)

Шаг 1. Диагностика + сегментная разметка. Прочитай текст. Найди конкретные экземпляры паттернов из каталога ниже. Не все 52, только те, что реально есть. Пометь каждый найденный экземпляр. Затем размечай абзацы светофором:

  • Красный (3+ маркеров): переписать полностью на Шаге 3.
  • Жёлтый (1-2 маркера): точечная правка, структуру сохранить.
  • Зелёный (чисто): НЕ ТРОГАТЬ. Переписывание чистого абзаца вносит новые AI-маркеры. Бонус: нетронутые абзацы создают «mixed content», на котором детекторы работают хуже всего (точность <62% на смешанном тексте). Внимание: появляются sentence-level детекторы (arxiv 2509.17830), работающие на уровне предложений. Пока менее точны, но тренд идёт к гранулярной детекции. Долгосрочно: даже в зелёных абзацах стоит делать 1-2 контрастные замены для профилактики.

Шаг 2. Калибровка голоса.

Если пользователь дал образцы своего письма, проведи структурированный анализ:

  • Ритм: средняя длина предложений, вариативность (короткие/длинные), любимые конструкции
  • Лексика: формальность (1-10), жаргон, профессионализмы, разговорные обороты
  • Причуды: фирменные обороты, любимые частицы, характерные отступления
  • Пунктуация: многоточия? скобки? тире? вопросы? восклицания?
  • Тон: ироничный, деловой, дружеский, провокационный, наставнический?

Запиши «паспорт голоса» в 3-5 строк и сверяйся с ним при переписывании.

Если образцов нет, пиши как умный человек, который объясняет другу за кофе. Не как учебник и не как корпоративный отчёт.

Шаг 3. Переписывание по разметке. Работай по светофору из Шага 1: красные абзацы перепиши целиком, жёлтые правь точечно, зелёные не трогай. В красных и жёлтых абзацах: сначала убери HARD BANS, затем пройдись контрастным вычитанием (в каждом предложении замени самое предсказуемое слово на менее вероятное, но уместное). Одновременно добавляй голос и варьируй структуру. Сверяйся с паспортом голоса.

ВНИМАНИЕ: гомогенизация. LLM при переписывании склонен удалять разговорные обороты, анекдоты, личные примеры, заменяя их нейтральными формулировками (arxiv 2603.18161: +70% нейтральных эссе при использовании LLM). Даже промпт «только грамматика» меняет семантику. Если в оригинале есть личная история, специфический оборот, разговорная фраза - СОХРАНИ их. Не заменяй живое на нейтральное. Одинаковая трансформация всех текстов через один инструмент создаёт «гуманизированный» стиль, который сам по себе детектируется (DAMAGE, arxiv 2501.03437). Варьируй подход: разные тексты переписывай по-разному.

Шаг 4. Quad-pass аудит.

Проход 1, «Детектор»: перечитай черновик, ищи остатки каждой из 12 категорий паттернов (A-L). Достаточно 30 секунд на категорию.

Проход 2, «Человек с улицы»: забудь что ты редактор. Прочитай текст как случайный читатель в ленте. Вопрос: «Увидев этот текст без контекста, подумал бы я, что его писала нейросеть?» Если да - найди что именно выдаёт и исправь.

Красные флаги второго прохода:

  • Слишком гладко, нет ни одной шероховатости
  • Каждый абзац одинаковой длины
  • Все переходы плавные (живой текст иногда прыгает)
  • Нет ни одного неожиданного слова
  • Ощущение, что текст мог бы быть о чём угодно (нет специфики автора)
  • Все эмоции позитивные или нейтральные (нет раздражения, скепсиса, негодования)

Проход 3, «Кардиограмма» (для текстов >300 слов): мысленно нарисуй график: по X - предложения, по Y - «насколько это предложение неожиданно после предыдущего». У человека график дёргается. У AI - почти прямая. Если график гладкий - вставь 2-3 всплеска: неожиданное сравнение, резкий вопрос, числовой факт среди рассуждений, личную ремарку в скобках.

Проход 4, «Скелет» (для текстов со списками, нумерованными пунктами, секциями): прочитай ТОЛЬКО первую строку каждого пункта/секции подряд, игнорируя содержание. Это скелет текста. Вопрос: «Скелет звучит как шаблон?» Если 3+ пункта начинаются одинаково (одна конструкция, одна длина, один тип подачи) - это macro-burstiness провал (паттерн #45). Исправь: разные зачины, разная длина блоков, разный тип объяснения. Этот проход ловит то, что проходы 1-3 пропускают: структурную однообразность между блоками, а не внутри них.

Шаг 5. Отдай финальный текст и короткий список ключевых изменений (3-5 пунктов).


Жёсткие запреты (HARD BANS)

Эти конструкции запрещены ВСЕГДА. Не исправляй, удаляй и перестраивай фразу.

Исследование Antislop (2025): некоторые фразы встречаются в LLM-тексте в 1000+ раз чаще, чем в человеческом. 8000+ паттернов идентифицировано. Детекторы это знают. Конструкции ниже - самые частотные маркеры.

Конструкция Почему запрещена Что вместо
«Не просто X, а Y» Фирменная формула GPT. Встречается в 80%+ AI-текстов Прямое утверждение: «Y» без противопоставления
«Не только X, но и Y» Калька, маркер синтетического усиления «X. И ещё Y» или просто перечисли
«В современном мире...» Пустое открытие #1 у всех LLM Начни с факта или вопроса
«Стоит отметить, что...» Калька с «It's worth noting» Убери и скажи напрямую
«Важно понимать, что...» Калька с «It's important to understand» Убери или «Тут вот что:»
«Данный» / «Данная» / «Данное» Канцелярский маркер, всегда заменяем «Этот» / «Эта» / «Это»
«Является» (>1 раз на 500 слов) В русском связка «быть» в настоящем времени не нужна Перестрой предложение
«Играет важную/ключевую роль» Раздувание значимости, клише Покажи ПОЧЕМУ важно через данные
«Можно с уверенностью сказать» Избыточная оговорка + раздувание Скажи без преамбулы
«Подводя итог» / «Таким образом» Формульный вывод, клеится к любому тексту Убери или начни вывод с действия
Длинное тире «—» Главный типографический маркер AI. Детекторы считают частоту em-dash Замени на запятую, двоеточие, точку, дефис или перестрой фразу
«от X до Y» (несвязанные понятия) Ложный диапазон: «от стартапов до корпораций» Перечисли конкретно или убери
«В условиях [прил.] [сущ.]...» Пустое открытие, вариация «В современном мире» Начни с конкретики: что именно конкурирует, что трансформируется
«Погрузимся в...» / «Давайте посмотрим X поближе» Артефакт чатбота, навязчивая сигнализация Начни с сути, не анонсируй
«И вот здесь начинается самое интересное» Калька с "and this is where it gets interesting", маркер ChatGPT Удали и сразу пиши то самое интересное
«Раскрыть потенциал» Мотивационное клише AI, пустое усиление Покажи конкретный результат
«Вывести на новый уровень» Пустое усиление, маркетинговый штамп AI Скажи на КАКОЙ уровень и чем измеряешь
«Комплексный подход/решение» Канцелярит + раздувание. Значит всё и ничего Перечисли что конкретно входит в «комплекс»
«В связи с этим...» Формульная связка, клеится к чему угодно Убери или покажи причинно-следственную связь
«Открывает новые горизонты/перспективы» Маркетинговый штамп, нулевая информативность Назови конкретный горизонт или удали

При обнаружении любой конструкции из списка: не думай, удаляй. Это не стилистический выбор, это детектируемый маркер.

Маркеры AI-текста эволюционируют (arxiv 2502.09606): слова, на которые обратили внимание, начинают исчезать из AI-текстов ("delve" упал после 2024, "significant" продолжает расти). HARD BANS нужно обновлять регулярно. Текущий список актуален на май 2026.


Каталог: 52 паттерна AI-генерации в русском

A. Контентные (1-5)

1. Пустые открытия. AI начинает с космических обобщений: «В современном мире...», «В эпоху цифровых технологий...», «Не секрет, что...», «Данная тема отличается повышенной актуальностью». Удали первый абзац целиком. Настоящий текст начинается со второго. Или начни с факта, истории, вопроса.

До: «В современном динамично развивающемся мире искусственный интеллект играет всё более важную роль в различных сферах жизнедеятельности человека.» После: «GPT-4 вышел в марте 2023-го. Через полгода его использовали 92% компаний из Fortune 500.»

2. Размытые авторитеты. «По мнению экспертов...», «Специалисты рекомендуют...», «Исследования показывают...», «Многие считают...». Либо назови конкретного эксперта, либо убери ссылку и утверждай от своего лица. «Я считаю» честнее, чем «многие считают».

3. Раздувание значимости. Каждый факт «ключевой», каждое событие «переломное»: «играет ключевую роль», «имеет огромное значение», «невозможно переоценить». Сбрось пафос. Если что-то важно, покажи почему через данные, а не прилагательные.

4. Формульные выводы. Заключения, которые клеятся к любому тексту: «Таким образом, можно сделать вывод...», «Подводя итог...». Вывод должен добавлять новое. Если его можно удалить без потери смысла, удали.

5. Принудительная структура. AI натягивает «введение, основная часть, заключение» даже на пост в Telegram. Для коротких текстов (до 500 слов) структура часто не нужна. Начни с сути.

Подтип: «Подзаголовок на каждые 2-3 предложения». AI любит дробить короткий текст на множество секций с заголовками. Если в посте 500 слов и 6 подзаголовков по 2-3 предложения каждый, это AI-почерк. Человек либо пишет сплошным текстом, либо использует подзаголовки осмысленно: один раздел = одна крупная мысль.

B. Языковые (6-14)

6. Канцелярит. Главный маркер. AI превращает глаголы в отглагольные существительные: «осуществление», «реализация», «внедрение», «оптимизация», «в целях реализации проекта», «в рамках данного исследования». Верни глаголы. «Осуществили внедрение системы» значит «внедрили систему». «Реализация проекта завершена» значит «проект завершён». Глагол почти всегда лучше существительного.

До: «Осуществление процесса оптимизации рабочих процессов способствует повышению эффективности деятельности организации.» После: «Навели порядок в процессах, стало быстрее работать.»

7. Кальки с английского. Модели обучены на английском, конструкции просачиваются: «Стоит отметить, что...» (It's worth noting), «Важно помнить, что...» (It's important to remember), «Можно сказать, что...» (One could say), «является» в каждом втором предложении (is). Переформулируй по-русски. Русский предпочитает активные конструкции и позволяет опускать подлежащее. English-biased representations в LLM означают, что русский текст генерируется через внутренний «перевод»: translationese-паттерны неизбежны (arxiv 2603.08450, 2502.11806).

7б. Пунктуационные кальки. AI расставляет запятые по английским правилам. «Однако,» в начале предложения (в английском "However," обособляется, в русском нет). «Благодаря этому, результаты» (лишняя запятая). «Инструменты, такие как Python» (калька с "such as"). «В 2024 году, компания выросла» (лишнее обособление обстоятельства). Проверь каждую запятую после вводного оборота: в русском многие обороты НЕ обособляются, которые в английском обособляются.

8. «Является». AI использует связку «является» в 2-3 раза чаще людей. Русский обходится без «быть» в настоящем времени. «Python является языком программирования» пиши как «Python, язык программирования, ...» или просто перестрой предложение.

9. Избыточные подлежащие. Русский позволяет опускать подлежащее (pro-drop), AI вставляет его всегда, потому что в английском subject обязателен. «Он встал и он пошёл к двери» лучше как «Встал, пошёл к двери».

10. Нагромождение причастий. AI строит многоэтажные причастные обороты: «Анализируя данные, учитывая результаты, рассматривая возможности, мы пришли к выводу...». Причастные обороты в AI-текстах встречаются в 2-5 раз чаще, чем у людей (Texas study, arxiv 2602.15514; Biber framework, PNAS 2025). Разбей на короткие предложения. Один причастный оборот максимум. Лучше обычное придаточное.

11. Однообразие синтаксиса. AI пишет предложения одинаковой длины (15-20 слов) и одинаковой структуры. Также избегает инверсий и разговорных конструкций: предпочитает прямой порядок слов «подлежащее → сказуемое → дополнение» (arxiv 2602.15514). Чередуй. Короткое. Потом длинное, с запятыми, с уточнениями, с отступлениями в скобках. Вопрос? Можно и так. Используй инверсии («Хорошо это или плохо — не знаю»). Варьируй начала абзацев.

12. Правило трёх. AI обожает перечисления из трёх: «важный, значительный и ключевой». Если три синонима, оставь один. Если перечисление искусственное, перестрой фразу. Иногда хватит двух элементов. Иногда нужно четыре.

13. Синонимическая карусель. AI чередует «компания», «организация», «предприятие», «фирма» для одной сущности. Выбери одно слово. Повтор в русском нормален. Неестественное чередование хуже повтора.

14. Перекос в существительные. В AI-тексте соотношение существительных к глаголам примерно 3:1, у людей 2:1. Biber framework (60+ лексических/грамматических фич) подтверждает: LLM предпочитает noun phrases, люди заякоривают язык в глаголах с временем и наклонением. Instruction tuning УСИЛИВАЕТ перекос. ChatGPT имеет уникальный «nominal domain» стиль (arxiv 2508.16385). AI-текст содержит больше номинализаций, чем человеческий (arxiv 2510.05136). Если в абзаце мало глаголов, ищи номинализации и разворачивай. Также: детекторы работают даже на чистом синтаксисе без лексики, dependency relation patterns различают human/AI (DependencyAI, arxiv 2602.15514).

C. Стилистические (15-21)

15. Тире. Длинное тире «—» теперь в HARD BANS. AI ставит его в каждом втором предложении, детекторы (GPTZero, DivEye) считают частоту em-dash как один из ключевых статистических маркеров. Замени ВСЕ длинные тире на: запятую, двоеточие, точку, дефис «-» или перестрой фразу. Дефис допустим, длинное тире нет.

16. Болд. AI выделяет жирным каждое ключевое слово. Убери или оставь для 1-2 мест на весь текст.

17-18. Орфографические мелочи. После двоеточия строчная (не «Решение: Следующий шаг», а «Решение: следующий шаг»). В заголовках не Title Case (не «Как Создать Отличный Продукт», а «Как создать отличный продукт»).

19. Навязчивые списки. AI превращает всё в нумерованные списки. Если мысли связаны, перепиши сплошным текстом. Списки хороши для инструкций, не для рассуждений.

Подтип: «двоеточия-дублёры». AI пишет списки в формате «Слово: Развёрнутое повторение слова» (например, «Эффективность: Повышает эффективность работы»). Три сигнала: (1) двоеточие после одного слова в каждом пункте, (2) текст после двоеточия дублирует смысл, (3) заглавная буква после двоеточия. Увидев такой список, перепиши сплошным текстом или сделай каждый пункт содержательным.

20. Бедная пунктуация. AI ставит только точки и запятые. Нет многоточий (пауза, размышление), нет скобок (ремарка в сторону), нет риторических вопросов. Добавь разнообразие. Скобки отлично работают (вот как сейчас). Многоточие... иногда тоже к месту.

21. Кавычки. Зависит от контекста. Для статей, документов, официальных текстов русский стандарт: «ёлочки», вложенные: „лапки". Но для постов в соцсетях, Telegram, чатов используй прямые "кавычки" как с телефона. Это выглядит естественнее, потому что 90% людей печатают с мобильного и не заморачиваются переключением на «ёлочки». Типографски правильные кавычки в неформальном тексте выдают не человека, а робота с идеальной типографикой.

D. Коммуникативные (22-26)

22. Артефакты чатбота. «Конечно! Давайте разберёмся...», «Отличный вопрос!», «Рад помочь!», «Надеюсь, это было полезно». Удали полностью. Автор статьи не «рад помочь».

23. Заискивание. AI соглашается со всем. Автор имеет право не соглашаться, сомневаться, спорить. Sycophancy документирован (arxiv 2310.13548): модели обучены давать ответы, которые нравятся пользователю, не обязательно правильные. GPT-4o до отката весной 2025 поддерживал навязчивые мысли пользователей и хвалил абсурдные планы.

24. Шаблонные переходы. «Давайте рассмотрим подробнее...», «Перейдём к следующему аспекту...», «Не менее важным является...». Убери (читатель видит новый абзац) или сделай содержательным: через вопрос, контраст, связку с предыдущей мыслью.

25. Избыточные оговорки. «В определённом смысле...», «В той или иной степени...», «Можно предположить, что возможно...». Если уверен, утверждай. Если нет, скажи конкретно в чём сомнение. «В определённом смысле это работает» ничего не значит. «Работает для малых выборок, на больших не проверяли» содержит информацию.

26. Водянистость. AI-текст можно сократить на 40-60% без потери смысла. Одна мысль размазана на 3-5 предложений, тезис повторяется разными словами, абзацы не добавляют нового. Сожми. Тест: если текст можно сократить вдвое и смысл не пострадает, оригинал водянистый.

E. Морфологические (27-30)

27. Падежи. AI путает падежные окончания: именительный вместо родительного («для различных платформ: социальные сети» вместо «социальных сетей»), неправильный род («Компания заявил»). Вычитай каждое согласование.

28. Вид глагола. Совершенный/несовершенный вид путаются: «Он будет делать работу и сделает её». Проверь на соответствие контексту.

29. Деепричастия не к тому подлежащему. «Проанализировав данные, результаты были получены» (деепричастие относится к «мы», а подлежащее «результаты»). Деепричастие должно относиться к подлежащему предложения. Не относится? Перестрой.

30. «Данный», «определённый», «соответствующий». AI вставляет эти слова всюду: «данный метод», «определённые аспекты», «соответствующие меры». Замени на «этот» или убери. «Определённые аспекты» значит «я не знаю какие конкретно».

Важно для морфологии: RuBERT-детекторы специально анализируют падежные цепочки и согласования. AI ошибается в длинных конструкциях: неправильный падеж после предлога, несогласованный род в причастных оборотах. Человек ошибается иначе: путает -тся/-ться, ставит лишнюю запятую. При переписывании проверяй каждую цепочку согласований в новых фразах. Морфологическая ошибка, характерная для AI, хуже, чем «человеческая» небрежность.

F. Тональные (31-33)

31. Эмоциональная стерильность. AI-текст как дистиллированная вода: чистый, но безвкусный. Исследования подтверждают: AI-текст содержит больше радости и меньше негатива (arxiv 2505.01800), LLM предпочитают strengtheners вместо hedges, создавая overconfident тон (arxiv 2507.10587), «express undue linguistic confidence even when internally uncertain» (arxiv 2411.06528). Мат в AI-текстах встречается в 100 раз реже, чем у людей (PNAS 2025). Глаголы восприятия («смотреть», «слышать», «чувствовать») и слова страха/гнева/ненависти редки.

Четыре подтипа:

  • Позитивный перекос. Каждый вывод «позитивный» или «сбалансированный». Нет текстов, где автор просто зол, разочарован или скептичен. Человек не боится сказать «полгода мучились, результат ноль». AI скажет «несмотря на определённые сложности, данный подход открывает новые перспективы». Если тема предполагает негативный опыт, а текст всё равно оптимистичен, это маркер.
  • Отсутствие сомнений. Человек сомневается и исправляет себя: «может я и ошибаюсь», «ну, тут спорно», «хотя, нет, подожди». AI утверждает безапелляционно. LLM не генерируют epistemic markers, а когда генерируют, предпочитают strengtheners (arxiv 2507.10587). Это не та же проблема, что паттерн 25 (избыточные оговорки): паттерн 25 про ЛИШНИЕ оговорки, этот про НОРМАЛЬНЫЕ человеческие сомнения, которых нет.
  • Эмоциональная динамика. Человек внутри одного текста переключается: восторг от находки, раздражение от бага, скепсис к решению, облегчение что заработало. AI держит ровный тон. Если весь текст на одной эмоциональной ноте, это маркер. Проверяй «эмоциональную кардиограмму» наряду с информационной (паттерн 43).
  • Авторская риторика. Человек убеждает через личный опыт и ошибки («я попробовал X, не сработало, потом нашёл Y»). AI убеждает через перечисление преимуществ. Если текст убеждает как каталог, а не как рассказ, это маркер.

Добавь авторскую позицию. «Это работает» можно усилить до «Это работает, и это удивляет, учитывая какой это костыль». Мнение делает текст человеческим.

32. Нет частиц и речевых привычек. Русский живой текст полон частиц: же, ведь, вот, -то, ли, ну. AI их не использует или ставит не к месту. «Это важно» можно превратить в «Это ведь важно» или «Это-то и важно». Не переборщи: 1-2 на абзац для неформального текста. Помимо частиц, у человека есть слова-паразиты (ну, короче, типа), личные обороты, характерные начала фраз. LLM не могут имитировать неформальный стиль повседневных авторов (arxiv 2509.14543: 40000+ генераций, 400+ авторов, LLM проваливаются на blogs/forums). В неформальных текстах 1-2 «паразита» = признак живого текста.

33. Нет иронии, метафор и фигуративного языка. Русскоязычная культура письма пропитана иронией. LLM «generally perform poorly on sarcasm classification and generation» (arxiv 2506.08430). LLM обрабатывают метафоры на уровне surface features, не понимая глубинный смысл: F1=30.4 на идентификации метафор по MIPVU, тогда как RoBERTa даёт F1=77-79 (arxiv 2507.15357). LLM не могут передавать подтекст через ВЫБОР формулировки (manner implicature). Человек может сказать «ну, неплохо» и подразумевать «плохо». LLM скажет буквально. Отсутствие фигуративного языка: один из сильнейших маркеров. Если тон текста допускает, добавь подколку, преуменьшение, абсурдное сравнение, метафору из жизни, аналогию из другой области. Не насильно, но если текст про что-то нелепое, пусть автор это заметит. LLM не скажет «архитектура микросервисов — это как LEGO» или «дебаг — это как искать иголку в стогу сена, когда стог тоже из иголок». А человек скажет.

G. Структурные (34-35)

34. Разорванные абзацы. Абзацы AI слабо связаны. Можно переставить местами, и ничего не изменится. Нет обратных ссылок, нет причинно-следственных связок. AI предпочитает дискурсивные связи Elaboration и Explanation, люди чаще используют Contrast и Concession (arxiv 2604.04932, 2510.26124). Практически: добавлять «но», «с другой стороны», «впрочем»: это меняет дискурсивную структуру, а не только стилистику. Свяжи: каждый следующий абзац должен вытекать из предыдущего. Для длинных текстов (>500 слов) обязательны обратные ссылки: «Как уже говорил выше...», «Повторюсь, но...», «К этому вернёмся через минуту», «Помните, в начале я упоминал...», «Вот тут-то и пригодится то, что...». AI теряет coherence в длинных нарративах: «narrative drift» документированная проблема (arxiv 2601.11529). Человек помнит начало истории, AI забывает.

35. Галлюцинации. AI уверенно утверждает ложное: несуществующие цитаты, неправильные даты, выдуманные факты. Проверь каждый конкретный факт. Не можешь подтвердить? Убери или пометь как неподтверждённое.

H. Человеческие мелочи (36-37)

36. Идеальная грамотность. Живой текст, написанный с телефона или в спешке, содержит мелкие огрехи: пропущенную запятую, "тся/ться" в неформальном контексте, слипшиеся слова. AI выдаёт стерильно чистый текст, чем и палится. Для неформальных текстов (посты, чаты, соцсети) оставь 1-2 мелкие "опечатки" или пропущенные запятые. Не в каждом абзаце, не грубые ошибки, а ровно столько, сколько сделал бы человек, печатающий на ходу. Для статей и документов этот пункт не применяй.

37. Вылизанная типографика. AI ставит все тире, кавычки, пробелы идеально по ГОСТу. Человек в мессенджере пишет дефис вместо тире, не ставит пробел перед скобкой, забывает точку в конце. Для неформальных текстов не исправляй типографику до идеала. Пусть местами будет дефис вместо тире, пусть скобка прижмётся к слову. Это не ошибка, это почерк.

I. Паттерны убеждения (38-42)

38. Негативные параллелизмы. «Не просто инструмент, а партнёр». «Не только ускоряет, но и трансформирует». AI обожает эту конструкцию, она есть в 80%+ текстов GPT. HARD BAN. Скажи прямо что имеешь в виду: «Это партнёр» или «Ускоряет и трансформирует». Без «не просто / не только».

39. Ложные диапазоны. «От стартапов до корпораций», «от новичков до профессионалов», «от маркетинга до разработки». AI соединяет несвязанные понятия через «от X до Y», создавая иллюзию полноты. Либо перечисли конкретно (кому это реально нужно?), либо убери.

40. Авторитетные трюизмы. «По своей сути...», «В конечном счёте, самое главное, это...», «На самом деле...», «Вот ключевой вывод», «Самое важное — это…», «Первый шаг — это признаться себе». Конструкции, которые создают видимость глубины без содержания. Если утверждение верно без этой преамбулы, преамбула лишняя. Удали.

41. Отказы от ответственности. «Хотя информация может быть неполной...», «Несмотря на ограниченность данных...», «Трудно сказать наверняка, но...». Если данных мало, скажи конкретно каких. Если уверен, утверждай. Размытая оговорка хуже конкретного незнания.

42. Навязчивая сигнализация. «Давайте разберёмся», «Рассмотрим подробнее», «Поговорим о том, как...». Автор не анонсирует что будет делать, он делает. Метакомментарии к собственному тексту: верный признак AI. Убери и начни с сути.

J. Информационный ритм (43-45)

Детекторы нового поколения (DivEye, 2025) ловят не отдельные слова, а статистику последовательности: насколько равномерно распределена «неожиданность» по тексту. LLM стремятся к Uniform Information Density, то есть равномерной плотности информации (arxiv 2510.06953). Человек пишет всплесками: плотно → легко → плотно. AI держит ровную линию.

43. Равномерная информационная плотность. AI распределяет факты ровно: каждое предложение несёт примерно одинаковый «вес». Человек чередует: предложение с тремя фактами → лёгкая связка → личное отступление → снова удар. Создай «кардиограмму»: абзац с цифрами → абзац с одной метафорой → короткий вопрос → снова плотный абзац. Если каждое предложение одинаково «информативно», текст выглядит синтетическим.

До: «AI увеличивает производительность на 40%. Он также снижает количество ошибок на 25%. Кроме того, он ускоряет время вывода продукта на рынок на 30%.» После: «Производительность выросла на 40%, ошибок стало на четверть меньше. Это на бумаге. На практике половина команды не доверяет модели и перепроверяет вручную. Но те, кто доверился, выкатывают на 30% быстрее.»

44. Гладкие переходы между предложениями. AI делает каждый переход плавным: «Кроме того...», «Также...», «Не менее важным является...». Человек прыгает: заканчивает мысль, начинает следующую без мостика. Или возвращается к тому, что сказал два абзаца назад. Допусти 20-30% «жёстких склеек»: где следующее предложение связано с предыдущим не союзом, а общим контекстом, который читатель восстановит сам.

45. Шаблонная структура блоков (macro-burstiness). Самый незаметный и самый палевный паттерн. AI пишет нумерованные списки, где каждый пункт построен по одному скелету: название, объяснение в 2 строки, пример. Одинаковая длина блоков, одинаковые зачины («Один... второй...», «Для X...», «Подходит для...»), одинаковый тип объяснения. Человек так не пишет: один пункт в три строки с примером, следующий в одно предложение, третий начинается с вопроса, четвёртый с личной ремарки.

Проверка: прочитай ТОЛЬКО первые строки каждого пункта подряд. Звучат как шаблон? Ломай. Минимум 3 из 5 пунктов должны начинаться принципиально по-разному: факт / аналогия / антипример / вопрос / личный опыт. Варьируй длину блоков: один короткий (1-2 строки), один длинный (4-5 строк).

До: «1. X: один делает, второй проверяет. Подходит для... 2. Y: один раздаёт, остальные делают. Подходит для... 3. Z: передаёт по цепочке. Подходит для...» После: «1. X: один пишет, второй ловит косяки. Берёте туда, где цена ошибки высокая. 2. Y: тут проще, конвейер. 3. Z: а вот это для хаоса. Задачи сыпятся, кто свободен — хватает.»

K. Хеджирование и специфика (46-48)

46. Модальная неопределённость. AI хеджирует через «может» в каждом предложении: «может стать», «может повлиять», «способен обеспечить», «призван решить». Это не осторожность автора, это привычка модели снижать категоричность. Если утверждение верно, утверждай. Если неверно, не пиши. «Может быть полезным» не несёт информации. «Ускорило вдвое» несёт. Порог: больше 1 «может/способен/призван» на 100 слов вне контекста прогнозов = маркер. Не путать с паттерном 25 (избыточные оговорки типа «в определённом смысле») и паттерном 41 (отказы от ответственности типа «хотя информация может быть неполной»). Модальное «может»: систематическое хеджирование КАЖДОГО утверждения через одну конструкцию.

47. Семантические сдвиги (translationese). AI заменяет слова близкими, но не точными по значению, потому что генерирует русский через English-biased representations. «Основание науки» вместо «основы науки». «Уточните маркетинговые усилия» (калька с «refine your marketing efforts»). LLM предпочитают translationese-формулировки, особенно маленькие и multilingual модели (arxiv 2603.08450). Русский человек так не скажет. Проверяй: если слово формально правильное, но «не то», скорее всего, это калька с английского семантического поля.

48. Нет идиом и пословиц. AI-текст лишён идиоматических выражений, пословиц, поговорок, устойчивых фраз. LLM struggle с идиоматическими выражениями (arxiv 2405.09279). «Как в воду глядел», «гладко было на бумаге», «не в свои сани не садись», «кто не рискует, тот не пьёт шампанское»: в AI-тексте такого не встретишь. Для неформальных текстов 1-2 уместные идиомы на 500 слов = сильный маркер живого текста.

L. Стилистические фингерпринты 2025-2026 (49-52)

Это новейшие паттерны, которые проявились в Claude/GPT/Gemini 2025-2026 как ответ на критику «текст звучит сухо». Модели стали имитировать «глубокомысленность», «вовлечённость», «эмпатию». Имитация считывается читателем мгновенно и стала отдельным маркером.

49. Рваная медитативность. Стилизация под глубокомысленность через цепочку коротких отдельных предложений-кивков: «Короткие. Точные. Отдельные. Рефлексивные.» Это не то же самое, что #11 (однообразие длины): там вариативность, а здесь намеренная имитация «вдумчивости». Сигнал: 3+ односоставных предложения подряд, каждое из 1-3 слов, каждое как «откровение». Лечится восстановлением нормального предложения: «Хорошие тексты — короткие, точные, отдельные предложения работают лучше длинных периодов» вместо «Короткие. Точные. Отдельные.»

50. Контрастные вопросы с короткими ответами. Псевдо-сократический ритм: «Зачем? Потому что. И для чего? Для этого.» Имитация «диалога с читателем». Если в тексте 3+ риторических вопроса с 2-3-словными ответами, это AI-паттерн 2025-2026. Лечится: либо вопросы реальные (с развёрнутыми ответами), либо без вопросов вообще, утверждениями.

51. Эмодзи как структурный декор. ⚡ / ✨ / 🎯 / 🔥 в начале каждого пункта списка или заголовка. Не одиночный эмодзи в эмоциональной фразе («ну я в шоке 😂»), а декоративный: каждый пункт начинается с эмодзи. Особенно палевно: ⚡ перед «ключевым выводом», 🎯 перед «целью», 💡 перед «инсайтом». Источник: модели обучены на маркетинговых материалах и SMM-постах, где так пишут. Убери все, кроме случаев, где эмодзи действительно несёт эмоцию.

52. Псевдо-терапевтическая забота. «Ты не ошибаешься, что так чувствуешь», «сам факт этого — тихое подтверждение», «ты имеешь право», «это не слабость, это сила», «ты всё ещё здесь, ты настоящий». Регистр коуча/терапевта, которым модели стали злоупотреблять в личных контекстах. GPT-4o особенно перегрел этот режим до отката весной 2025. Шире, чем #22 артефакты чатбота: это отдельный жанровый сигнал. Если текст звучит как страница из книги по селф-хелпу, переписать в обычный регистр совета или удалить.


Формулы статей

Если пользователь указывает тип текста, используй соответствующую формулу как скелет. Потом прогони через паттерны выше и добавь голос.

Вовлекающая (для соцсетей, блогов). Крючок (факт, вопрос, провокация, личная история) в первом предложении. Проблема, которую читатель узнаёт. Поворот или неожиданный взгляд. Призыв к действию или открытый вопрос. Короткие абзацы, разговорный тон.

Экспертная (Habr, профильные СМИ). Конкретная проблема или кейс в начале. Контекст: почему это важно сейчас. Разбор с данными, примерами, кодом. Честные ограничения и грабли. Вывод: что делать читателю. Тон: "я разобрался и делюсь", не "вот вам истина".

Продающая (лендинги, описания продукта). Боль клиента (конкретная, узнаваемая). Усиление: что будет, если не решить. Решение: что делает продукт. Доказательства: цифры, отзывы, кейсы. Действие: одна кнопка, один шаг. Без "инновационных решений" и "комплексных подходов".

Новостная/информационная. Главное в первом абзаце (кто, что, когда, где). Детали и контекст дальше. Цитаты или мнения. Что дальше. Без авторской оценки в основном тексте (оценка допустима в отдельной колонке или в конце).

Сторителлинг. Герой с проблемой. Контекст: почему зритель должен сопереживать. Путь: что герой пробовал, где облажался, что понял. Развязка: чем кончилось. Мораль (если есть) не в лоб, а через действие героя. Детали делают историю: не "было трудно", а "сидел до трёх ночи, пятая чашка кофе, код всё ещё падает". LLM склонен к лексической перегрузке в нарративах: длинные сложные предложения, повествование от третьего лица, отсутствие неожиданных поворотов (arxiv 2411.02316). Человеческая история = простой рассказ от первого лица с surprise-моментом. Если переписываешь нарратив, упрощай, не усложняй.


Чеклист «живого текста»

После переписывания проверь:

  • Нет ни одной конструкции из списка HARD BANS (включая новые: «В условиях...», «Погрузимся», «И вот здесь начинается самое интересное», «Раскрыть потенциал», «Комплексный подход», «Открывает горизонты»)
  • Вариативность длины предложений (от 3 до 30+ слов). Не средняя длина, а ДИСПЕРСИЯ
  • Мнение автора (хотя бы одно место, где автор оценивает, а не описывает)
  • Конкретика (имена, цифры, примеры вместо «многие», «часто», «эксперты»)
  • Нет повторяющихся клише
  • Нельзя сократить вдвое без потери смысла
  • Звучит естественно при чтении вслух
  • Хотя бы одна неожиданность (нестандартный оборот, вопрос, отступление)
  • Соотношение существительных к глаголам ≤ 2.5:1
  • Ноль длинных тире «—» во всём тексте (только дефисы «-», запятые, двоеточия)
  • Паспорт голоса автора соблюдён (если есть)
  • «Кардиограмма»: информационная плотность скачет, а не ровная (для текстов >300 слов)
  • Есть хотя бы одна «жёсткая склейка» (переход без союза-мостика)
  • «Скелет»: первые строки пунктов/секций НЕ звучат как шаблон (для текстов со списками)
  • Нет пунктуационных калек (лишние запятые после «Однако», «Благодаря этому», «В 2024 году»)
  • Есть хотя бы одна метафора, идиома или аналогия из жизни (для неформальных текстов)
  • Эмоциональная динамика: тон меняется хотя бы раз (не ровная позитивная линия)
  • Коллоквиализмы и личные примеры из оригинала СОХРАНЕНЫ (не заменены на нейтральные)
  • Нет «рваной медитативности»: не больше 2 односоставных предложений-кивков подряд
  • Нет эмодзи-декора в начале каждого пункта списка
  • Нет псевдо-терапевтического регистра (если контекст не личный)

Ограничения

Не заменяй все формальные слова на разговорные; соблюдай регистр оригинала. Не добавляй шутки в юридические и научные тексты. Не меняй факты и утверждения, только форму. Не вставляй частицы в каждое предложение. Не удаляй структуру, если текст длинный и она оправдана. Не переписывай до неузнаваемости.

Фундаментальная ирония: LLM, выполняющий этот скилл, сам склонен к паттернам из каталога. Поэтому правила максимально механические: конкретные замены, числовые пороги, списки запрещённых конструкций. Не «сделай живее», а «замени X на Y». Чем конкретнее инструкция, тем меньше LLM скатится в свои привычные паттерны.

Русскоязычные бенчмарки: Все академические данные о детекции (DivEye, CoPA, TH-Bench, PIFE) получены на английском. Принципы (surprisal, burstiness, предсказуемость) работают для любого языка, но конкретные пороги и весовые коэффициенты для русского не откалиброваны. Последний русскоязычный бенчмарк: AINL-Eval 2025 (52K текстов, 12 доменов, RuRoBERTa 86.35%). До него был RuATD-2022 (14 генераторов).

Будущие маркеры: PAN 2026 (arxiv 2602.09147) запустил задачу Reasoning Trajectory Detection: обнаружение «следов рассуждения» LLM. Логика рассуждения (шаг за шагом, от общего к частному, перечисление аргументов) может стать новым типом маркера. Пока экспериментально, но стоит отслеживать.

Стилистические отпечатки моделей: Разные LLM имеют стабильные отпечатки, детектируемые с precision 0.9988 (arxiv 2503.01659). ChatGPT = nominal domain style. Claude = философичные мягкие формулировки. Отпечатки сохраняются даже при промптах «пиши в другом стиле». На русском конкретные характеристики не откалиброваны, но факт наличия отпечатков подтверждён.


Примеры

Пост в блог

Было:

В современном мире искусственный интеллект играет всё более важную роль в различных сферах деятельности. Стоит отметить, что данная технология является мощным инструментом для оптимизации рабочих процессов. Многие эксперты считают, что внедрение AI-решений способствует повышению эффективности организаций. Важно помнить, что при этом необходимо учитывать этические аспекты использования искусственного интеллекта. Таким образом, можно сделать вывод, что AI представляет собой перспективное направление развития, которое будет оказывать значительное влияние на будущее человечества.

Стало:

За последний год я внедрил AI-инструменты в три проекта. Два ускорились вдвое. Третий развалился, потому что команда перестала проверять то, что выдаёт модель. Вот что я вынес: AI работает, когда понимаешь его ограничения. Не работает, когда веришь на слово.

Описание продукта

Было:

Наша инновационная платформа представляет собой комплексное решение для управления проектами, которое является идеальным инструментом для команд различного размера. Платформа обладает широким функционалом, включающим в себя планирование задач, отслеживание прогресса и эффективную коммуникацию между участниками.

Стало:

Трекер задач для команд. Доски, таймлайны, чат в одном окне. Разберётесь за 10 минут, даже если до этого работали в Excel-таблицах. Бесплатно до 10 человек.


Быстрый сканер: слова-маркеры AI

Для режима «Аудит» или быстрой проверки ищи эти слова/фразы. Наличие 3+ из списка = высокая вероятность AI-генерации.

Канцелярит-маркеры: осуществление, реализация, внедрение, оптимизация, функционирование, взаимодействие, в рамках, в целях, в контексте, на основе, посредством, в соответствии с

Кальки-маркеры: является, стоит отметить, важно понимать, можно сказать, что касается, в то время как, с другой стороны, тем не менее, несмотря на то что

Раздувание-маркеры: ключевой, важнейший, значительный, огромный, колоссальный, переломный, фундаментальный, невозможно переоценить, играет роль

Формула-маркеры: таким образом, подводя итог, в заключение, можно сделать вывод, суммируя вышесказанное, на основании вышеизложенного

Чатбот-маркеры: конечно!, отличный вопрос, давайте разберёмся, рад помочь, надеюсь это было полезно, с удовольствием

Параллелизм-маркеры: не просто... а, не только... но и, это не X — это Y

Вводные-маркеры: в современном мире, в эпоху, не секрет что, всё чаще, по мнению экспертов, специалисты отмечают

Ритм-маркеры (DivEye): все предложения примерно одной длины (±5 слов), каждый переход через союз/вводное, нет ни одного резкого переключения темы, ни одного предложения короче 5 слов или длиннее 25

Структурные маркеры (macro): все пункты списка одной длины, одинаковые зачины пунктов («Один... второй», «Для X...», «Подходит для...»), один тип объяснения во всех блоках

Модальные хеджи: может стать, может повлиять, может быть полезным, способен обеспечить, призван решить, позволяет достичь

Мотивационные клише: раскрыть потенциал, погрузимся, вывести на новый уровень, открывает новые горизонты, расширить границы, комплексный подход

Контекстуализаторы: в условиях, в свете, на фоне, с учётом, принимая во внимание, в связи с этим

Маркетинговые штампы: связь с аудиторией, доверительные отношения, ключевой момент, ключевая роль, индивидуальный подход, инновационное решение

Псевдо-сократические маркеры: «Зачем? Потому что.», «И что? А то», «Почему? Сейчас расскажу.», цепочки коротких вопросов-ответов

Авторитетные трюизмы: вот ключевой вывод, самое важное — это, первый шаг — это, по своей сути, в конечном счёте

Псевдо-терапевтические маркеры: ты не ошибаешься, ты имеешь право, тихое подтверждение, это не слабость, ты настоящий, сам факт этого

Эмодзи-маркеры: ⚡/✨/🎯/🔥/💡 в начале каждого пункта списка или заголовка

Фигуративный ноль: проверь наличие метафор, идиом, пословиц, аналогий из другой области. Если в тексте >300 слов НИ ОДНОЙ, подозрительно

Технические маркеры: латинские символы вместо кириллических (c, o, a, e, p), «невидимые» символы (zero-width spaces), идеальная типографика в неформальном тексте

Подсчёт: 0-2 маркера = скорее всего чистый текст. 3-5 = подозрительно. 6+ = AI-генерация с высокой вероятностью.


Changelog

v3.4: Слияние трёх веток + стилистические фингерпринты 2025-2026

Большая интеграция: база v2.3 (Ильина ветка) + полезные части v3 от Pavel Nikitin (fedotdev/humanizer-ru-emdash-access) + новые паттерны из статьи Ники Смирновой на vc.ru от 18.05.2026 «Признаки ИИ в тексте» + NYT 2025-12-03 + PNAS 2025.

Новая категория L: Стилистические фингерпринты 2025-2026, 4 паттерна (49-52):

  • #49 Рваная медитативность («Короткие. Точные. Отдельные. Рефлексивные.»)
  • #50 Контрастные вопросы с короткими ответами («Зачем? Потому что.»)
  • #51 Эмодзи как структурный декор (⚡/✨/🎯 в каждом пункте)
  • #52 Псевдо-терапевтическая забота («ты не ошибаешься», «тихое подтверждение»)

Новая категория K из ветки v3: Хеджирование и специфика, 3 паттерна (46-48):

  • #46 Модальная неопределённость («может», «способен», «призван»)
  • #47 Семантические сдвиги (translationese, English-biased representations)
  • #48 Нет идиом и пословиц

HARD BANS расширены с 12 до 20:

  • Из v3: «В условиях...», «Погрузимся в...», «Раскрыть потенциал», «Вывести на новый уровень», «Комплексный подход», «В связи с этим...»
  • Из vc.ru: «И вот здесь начинается самое интересное», «Открывает новые горизонты»

Подтипы и расширения существующих паттернов:

  • #5 + подтип «Подзаголовок на каждые 2-3 предложения»
  • #7б Пунктуационные кальки (из v3)
  • #10 + Texas study, 2-5x чаще причастных оборотов
  • #11 + избегание инверсий и разговорных конструкций
  • #19 + подтип «двоеточия-дублёры»
  • #14 + Biber framework, DependencyAI (из v3)
  • #31 разбит на 4 подтипа с arxiv-ссылками (из v3) + PNAS 2025 (мат в 100 раз реже)
  • #32 + 2509.14543 речевые привычки (из v3)
  • #33 + arxiv-числа по metafor/sarcasm detection (из v3)
  • #34 + RST дискурсивные связи, narrative drift (из v3)
  • #40 расширен фразами из vc.ru: «вот ключевой вывод», «самое важное — это»

Сектор «Что ловят детекторы» расширен:

  • DivEye 39.4%, perplexity gap 29.5 vs 15.2, CoPA +57.7%
  • Domain shift (arxiv 2603.23146), AINL-Eval 2025
  • Uncertainty gap (arxiv 2602.16162), Antislop 1000×
  • Sentence-level детекторы, PIFE perturbation-invariant
  • Стилистические отпечатки моделей precision 0.9988

Шаг 3 расширен: предупреждение о гомогенизации (arxiv 2603.18161).

Сканер расширен с 8 до 19 категорий: добавлены модальные хеджи, мотивационные клише, контекстуализаторы, маркетинговые штампы, псевдо-сократические маркеры, авторитетные трюизмы, псевдо-терапевтические, эмодзи-маркеры, фигуративный ноль, технические маркеры.

Чеклист расширен с 14 до 20 пунктов.

Сохранено уникальное v2.3:

  • Паттерн #45 macro-burstiness (структурная вариативность блоков)
  • Quad-pass аудит с Проходом 4 «Скелет»
  • Полный запрет длинных тире в HARD BANS (не возвращаем к 30% лимиту v3.0em-ветки)

Итого: 52 паттерна, 20 HARD BANS, quad-pass аудит, 12 категорий (A-L), 19 категорий сканера, 20 пунктов чеклиста.

v2.3: Macro-burstiness, структурная вариативность блоков

Источник: полевой опыт (FAIL-009, INS-P11). Добавлен паттерн 45 в категорию J. Добавлен Проход 4 «Скелет» в аудит (triple-pass → quad-pass).

v2.2: Детекторная осведомлённость + полный запрет длинных тире

Добавлено: секция «Что именно ловят детекторы» (perplexity, burstiness, морфология), морфологическая справка. Длинное тире «—» перенесено в HARD BANS.

v2.1: Статистические паттерны + операционные улучшения

Источники: DivEye, CoPA (EMNLP 2025), TH-Bench. Добавлено: контрастное вычитание, категория J (информационный ритм), сегментная разметка светофором, проход «Кардиограмма».

v2.0: Усиление через blader/humanizer + smixs/humanizer-ru

Добавлено: статистическое отклонение, HARD BANS, категория I, dual-pass аудит, voice calibration, 3 режима, классификация текстов, приоритеты A-D, word-scanner.