ENG

Проверка подлинности документов и изображений давно перестала быть узкоспециализированной задачей судебных экспертов. Для банков, государственных порталов, кадровых служб, подразделений комплаенса и антифрод это ежедневная операционная рутина. Через дистанционные каналы поступают тысячи сканов паспортов, удостоверений личности, договоров, доверенностей, справок, платёжных документов и биометрических фотографий. Любой из них может стать точкой входа для мошенничества, подмены личности или легализации незаконных операций.

Одновременно с ростом объёмов проверяемых данных усложнились инструменты злоумышленников. Если раньше основным средством фальсификации были графические редакторы и примитивный монтаж, то сегодня чаще применяются генеративные нейросети и GAN-архитектуры, способные синтезировать фотореалистичные документы, подписи и лица. Визуальное различие между подделкой и оригиналом становится всё менее надёжным даже для опытного эксперта. Это и делает методы машинного обучения ключевым элементом современных систем верификации.

Цифровые следы подделки

С практической точки зрения любая фальсификация оставляет следы. Они обусловлены как самим процессом генерации изображения, так и этапами его редактирования, сохранения и передачи. Эти следы формируют совокупность признаков, на которых обучаются алгоритмы детекции.

Для текстовых документов характерны микроскопические несогласованности в гарнитурах и кернинге, нарушения регулярности межстрочных интервалов, отклонения базовой линии, различия в алгоритмах сглаживания символов. Часто выявляются локальные искажения, возникающие при копировании и вставке отдельных фрагментов, а также артефакты повторного JPEG- или PDF-сжатия, которые проявляются в виде характерных блоковых структур и спектральных «швов».

Печати и штампы анализируются по геометрии контуров и текстуре. Для подделок типичны неестественная гладкость или, наоборот, повторяющиеся шумовые паттерны, следы интерполяции при масштабировании, а также несогласованность спектральных характеристик красочного слоя с фоном бумаги. Подписи рассматриваются не только как статическое изображение, но и как результат моторного акта: анализируется непрерывность линий, вариативность толщины штриха, статистика кривизны и распределение давления. Это позволяет отличать реальную рукописную подпись от синтетически сгенерированной или аккуратно смонтированной.

Фотографии и биометрия

В случае фотографий и сканов важнейшую роль играет анализ шумовой модели и сенсорных паттернов. Каждая камера имеет уникальные характеристики матрицы, формирующие квазистационарный шумовой «отпечаток». Если внутри одного изображения обнаруживаются области с различными шумовыми свойствами, это может указывать на компоновку из нескольких источников или на генеративное происхождение отдельных фрагментов.

Спектральные методы — преобразование Фурье и вейвлет-декомпозиция — позволяют выявлять аномалии в высокочастотных компонентах, характерные для вставленных или синтезированных областей. Для дипфейк-изображений и синтетических лиц анализируются микротекстуры кожи, стабильность бликов, геометрия отражений в глазах, согласованность освещения и теней.

При работе с видеопотоками дополнительно учитывается временная когерентность: естественные микродвижения, моргание, изменение мимики и шумовые корреляции между кадрами.

Значение обучения на собственных данных

Особую роль в прикладных системах играет обучение моделей на собственных кейсах. Универсальные датасеты дают базовую устойчивость, но не отражают специфику реальных бизнес-процессов: локальные форматы документов, типовые бланки, особенности печатей, языковые шаблоны, региональные стандарты оформления. Злоумышленники, в свою очередь, адаптируются именно к этим особенностям, подделывая те формы, которые чаще всего проходят автоматическую проверку.

Поэтому наибольшую практическую ценность имеют модели, дообученные на инцидентах, выявленных внутри конкретной организации: изменённые паспорта и удостоверения, поддельные справки о доходах, договоры с подменой реквизитов, сфальсифицированные платёжные поручения, изображения лиц, используемые для обхода биометрической аутентификации. Такой подход позволяет учитывать реальные векторы атак, снижать долю ложных срабатываний и повышать устойчивость системы к целенаправленным попыткам обхода.

Архитектура системы детекции

С инженерной точки зрения процесс построения решения включает несколько уровней. На этапе предобработки выполняется нормализация разрешения и цветовых пространств, выравнивание ориентации, подавление фоновых искажений. Документ сегментируется на семантические зоны: текстовые блоки, поля форм, печати, подписи, фотографии, фон.

Далее извлекаются низкоуровневые признаки, описывающие статистику яркости, текстуры, шума и геометрии. На следующем уровне используются сверточные архитектуры, обучающиеся выявлять сложные пространственные и частотные паттерны фальсификаций. Существенную роль играют кросс-модальные модели, сопоставляющие визуальное содержимое с результатами OCR и структурой шаблона. Это позволяет обнаруживать семантические несоответствия: невозможные комбинации серий и номеров, ошибки контрольных сумм, нарушения форматов дат, логически несовместимые персональные данные и реквизиты.

Ансамбли и объяснимость

Для повышения устойчивости широко применяются ансамбли, объединяющие несколько независимых детекторов: анализ артефактов сжатия, шумовых паттернов, геометрических искажений, признаков генеративного синтеза и семантических аномалий. Их выводы агрегируются в едином вероятностном пространстве, формируя интегральную оценку подлинности.

В прикладной ИБ и юридически значимых процессах принципиально важна объяснимость. Недостаточно получить числовую вероятность подделки — необходимо понимать, какие области изображения и какие характеристики стали основанием для вывода. Для этого используются карты внимания, визуализация градиентов и локальные интерпретаторы, позволяющие эксперту увидеть, какие зоны документа выглядят аномальными и по каким причинам.

Противодействие генеративным моделям

Отдельным направлением является детекция синтетических изображений, создаваемых современными генеративными сетями. Здесь применяются специализированные классификаторы, обученные распознавать статистические следы конкретных семейств генераторов, анализ латентных корреляций и проверка согласованности глобальных и локальных распределений признаков. Однако эволюция генеративных технологий происходит крайне быстро, поэтому критически важны непрерывное дообучение на новых примерах и регулярное обновление признакового пространства.

Интеграция в контур антифрод

С процессной точки зрения системы ИИ-детекции не должны работать изолированно. Их результаты необходимо коррелировать с поведенческими характеристиками пользователя, параметрами устройства, сетевыми и геолокационными признаками, историей операций и общим профилем риска. Такой подход позволяет переходить от оценки отдельного изображения или документа к анализу целостного сценария злоупотребления и выстраивать адаптивные меры противодействия.

Выявление поддельных документов и изображений с помощью искусственного интеллекта представляет собой непрерывный цикл: сбор и разметка собственных кейсов, обучение и валидация моделей, анализ ошибок, обновление архитектур и признаков, сопоставление с эволюцией методов противника.

Опора на реальные инциденты конкретной организации, дополненная современными методами машинного обучения и обеспеченная механизмами объяснимости, позволяет создать практически значимую и устойчивую систему. Такая система способна эффективно противостоять как традиционным графическим подделкам, так и высокореалистичным дипфейк-технологиям, обеспечивая доверие к цифровой идентификации в условиях быстро меняющегося ландшафта угроз.

Автор: Долгов Николай, эксперт по кибербезопасности Angara Security.

Источник

06.03.2026

Другие публикации

Анализ защищенности 15 лет спустя. Акт первый

Директор Центра Исследования Киберугроз в Angara Security Сергей Гилев, который занимаестся и руководит пентестами и редтимами всю свою сознательную ИБ‑карьеру, решил поделиться своими мыслями о подмене понятий в услугах по анализу защищенности

06.05.2026

Технический долг или угроза безопасности?

Хаос в конфигурациях сетевого оборудования перестаёт быть просто техническим долгом в тот момент, когда из-за него теряется контроль над доступом, сегментацией, маршрутизацией и управлением самими устройствами.

18.04.2026

Типовые уязвимости веб-приложений и как их закрывают сервисные команды

Сегодня веб-приложения являются ключевым элементом цифровых сервисов — через них проходят клиентские операции, взаимодействие с партнёрами и внутренние бизнес-процессы. При этом именно веб-уровень остаётся одной из самых уязвимых точек, поскольку он одновременно открыт внешнему миру и тесно связан с внутренней инфраструктурой.

15.04.2026

Управление мобильными устройствами: регистрация, политики безопасности, очистка информации и контроль приложений

В современных реалиях стремительно увеличивается доля мобильных устройств при обработке корпоративной информации. Согласно данным аналитических агентств, в 2026 году до 70% сотрудников российских компаний используют личные или корпоративные смартфоны для доступа к рабочей электронной почте и приложениям, содержащим конфиденциальные данные. Это кратно увеличило поверхность атак для злоумышленников и одновременно усложнило контроль за соблюдением требований ИБ.

13.04.2026

Как бесшовно интегрировать NAC в существующую инфраструктуру

В условиях цифровой трансформации и роста числа кибератак контроль доступа к корпоративной сети становится критически важным элементом безопасности. Network Access Control (NAC) — это система, предназначенная для контроля доступа пользователей и конечных устройств к корпоративной сети организации

10.04.2026

Остались вопросы?

Понравилась статья?

Подпишитесь на уведомления о новых материалах