Проект
NSP-SigVer
Может ли машина распознать подделку подписи?
В проекте NSP-SigVer разрабатывается система искусственного интеллекта, настроенная на офлайновую верификацию подписи. Помимо этого, благодаря собранному датасету уточняются положения криминалистического почерковедения.

I
Анкета
Гипотеза создания прикладной интеллектуальной системы требует изучения областей оптимизации человеческой деятельности. Анкета в проекте NSP-SigVer уточнила возможности человека (неподготовленного или имеющего экспертную квалификацию) определить подлог подписи.
Каждому из 251 респондентов предлагалась анкета, включавшая форму для сбора установочных показателей: пола; возраста; уровня образования; наличия подготовки в области почерковедения, исследования документов или смежных областях; субъективной самооценки навыков респондента по выявлению подлога подписи. Далее предлагалось засечь время (анкета являлась хронометрируемой: выяснению подлежало также среднее время на сопоставление подписей), за чем следовал набор из 10 комплектов подписей, одна из которых была достоверно подлинная, а подлинность остальных четырёх нужно было попытаться установить на основе визуального сравнения подписей.
Комплект подписей анкеты.
Верхняя подпись является подлинной, для каждой из остальных подписей, в случае версии о её подлинности респонденты ставили галку, в противном случае — крестик. Имя пользователя заретушировано.
Правильность (accuracy) по Анкете v.1: 67,86%

Правильность (accuracy) по Анкете v.2: 51,50%

Средняя правильность: 60,84%. Именно это значение было принято как стартовая точка для увеличения правильности и точности распознавания подписи с помощью искусственных нейронных сетей.

II
Датасет
Обучение системы искусственного интеллекта требует больших данных — набора ресурсов, на которых будут учиться искусственные нейросети.
Датасет рукописных подписей «NSP» существует и пополняется с 2016 года.


Датасет «NSP» является первым в мире полноценным датасетом с кириллическими подписями и крупнейшим по размеру среди датасетов, включающих т. н. «живые» (не автоматически сгенерированные) подписи.
Некоторые подписи из датасета "NSP". За каждой подписью не менее 55 оригиналов и 112 подложных подписей.
Датасет «NSP» включает в себя комплекты подписей 606 человек. Каждый такой комплект включает в себя 56 подлинных подписей и от 112 до 224 соответствующих им подложных подписей.

Оригинальные подписи отбирались у респондентов на двух бумажных бланках, на каждом из которых были размечены 28 ячеек для подписей и поля для внесения информации о подписавшем (имя, возраст, предпочитаемая рука при выполнении подписи).

Подложные подписи подготавливались простым и квалифицированным способами. Каждому исполнителю подложных подписей предоставлялись оба листа с оригинальными подписями. Конкретную подпись для имитации из 56 представленных исполнитель выбирал самостоятельно. Подложные подписи также выполнялись на бланках из 28 ячеек, каждый исполнитель заполнял 1 такой бланк. Соответственно, на 56 оригинальных подписей от 1 человека приходились от 112 до 224 подложных подписей от группы от 4 до 8 человек.

После этого листы с подписями (как оригинальными, так и подложными) сканировались в разрешении 600 DPI, разделялись вручную на цифровые изображения с отдельной подписью. Обрезка осуществлялась по крайним точкам подписи, тем самым минимизировалось фоновое пространство.
Подробнее о составлении датасета
104991

Индивидуальных файлов подписей
33988

Отдельных файлов с оригинальными подписями
71003

Отдельных файлов с подложными подписями
11,6

Гигабайт весит датасет NSP
606

Человек выполняли оригинальные подписи
50

Человек выполняли подложные подписи

III
Статистика по датасету
В проекте приняли участие 606 человек, подписи которых составил датасет. Ниже представлены некоторые демографические параметры датасета.
Возраст
Средний возраст участника проекта:
29 лет.
Медианный возраст участника проекта: 22 года.
Пол
Женский: 369 (60,89 %)
Мужской: 234 (38,61 %)
Не указан: 3 (0,49 %)

Потому что на десять девчонок по статистике 6,341463 ребят.
Преобладающая рука
Правая: 519 (85,64%)
Левая: 34 (5,61 %)
Не указана: 52 (8,58 %)
Амбидекстрия: 1 (0,16 %)
Пол + Рука
Пропорция распределения основной руки сохраняется вне зависимости от пола.

IV
Нейросеть
Искусственная нейросеть (точнее, ансамбль из множества нейросетей) обучается на основе датасета NSP с использованием современных open-source технологических решений.
Картинка не наша, просто для красоты и объяснения общей сути.
Azure Machine Learning
Облачный сервис для ускорения машинного обучения oт компании Microsoft.
Python
Алгоритм машинного обучения написан на Python 3.8.
TensorFlow
Открытая программная библиотека для машинного обучения от компании Google.
Картинка не наша, просто для красоты и объяснения общей сути.

V
Приложение SigVer
Сканирование
Для загрузки подписей, которые будет сравнивать нейросеть, их нужно отсканировать камерой смартфона.
Обрезка
При необходимости изображения можно обрезать, чтобы убрать лишние детали.
Обработка
Нейросеть обработает изображение, удалив лишние детали и шумы.
Оценка
Нейросеть изучит изображения подписей и рассчитает вероятность их происхождения от одного человека.
Решение
Нейросеть подскажет вариант решения, но принять решение окончательно должен человек.
Интерфейс
Дизайн предварительный, возможны изменения (мы знаем, что иконка информации криво установлена).