Главная

Поиск дубликатов
 
Из-за чего в Ваших данных могут возникнуть дублирующиеся персоны? Или, другими словами, почему одна и та же персона может быть занесена дважды?
Давайте сначала определимся что мы будем искать - зачем нужен такой отчет.

Я вижу, как минимум, 2 варианта, когда нам нужно искать "двойников":
1. Случайно повторно добавили персону, которая уже была в дереве (то есть фактически ошибка или невнимательность работающего с программой)
2. Когда вводили персону не идентифицировали ее как уже присутствующую в дереве (то есть - дефицит информации)

Сразу скажу, что оба у меня встречались в реальной жизни
Первый вариант - это когда я знаю что найденная особа кум/сват/брат, но по какой-то причине забыл, что я его уже вносил ранее. Это случается, например, когда нахожусь в дереве "только прямые предки", нахожу в метриках, например, рождение брата прямого предка, вношу его, а потом (может даже через какое-то время), обнаруживаю, что у меня он уже был записан из другого источника (например, ревизии).
Такие дубли можно вычислять уже сейчас в Детекторе проблем по опции "Дети-тезки", такой вариант вычислить не сложно и главный критерий - это одни и те-же родители у двойников и одинаковые имена.
Конечно, мне возразят, что дети с одинаковыми именами у одних родителей встречаются часто, но не забываем, что программа - это не законченное решение всех наших проблем, а инструмент, с помощью которого этого решения можно достичь.

Объединение баз и поиск совпадений целью не является, так как есть масса ресурсов, на которых это можно сделать не прибегая к изобретению велосипеда.
Задача данного отчета сводится к поиску персон в определенном кругу людей (скорее всего какой-то населенный пункт или уезд) в своей базе данных с целью сцепления разрозненных родов через одного из "двойников".
 
Какими критериями руководствуется отчет при поиске дублей и какие данные анализирует?

 
  • Фамилия (в том числе девичья)
  • Имя
  • Отчество
  • Дата рождения (а вернее разница в годах рождения)
  • Дата смерти (тоже разница)

Каждому из этих параметров можно присвоить "вес" (для фамилий мужчин и женщин он может быть разный), который будет участвовать в расчете "коэффициента одинаковости". Любой из параметров можно исключить из сравнения, сняв галочку против него. Данные веса во время сравнения взвешивается на разницу (если это года) или вносится поправочный коэффициент при отсутствии какого-то параметра у одного из предполагаемых двойников. Также может учитываться "похожесть" фамилий, имен, отчеств. Это регулируется настройкой "Разновидности ФИО" (Точное сравнение или Учитывая "похожесть") 

Дальше идет математика и вывод в отчет всех, у кого результаты будут выше определенного предела (который также настраивается в поле "Показывать с % выше"). Не стоит воспинимать этот % как действительную вероятность того, что это одна и та же персона. Это всего лишь условная величина.
В отчете учитываются все разновидности дат при их сравнении (в т.ч. старого стиля)
При желании можно в отчет вывести детализацию анализа, указав "Детализировать расчет " (для тех, кто любит разобраться "как это работает")

Позже в отчете появилась возможность учитывать родителей персон; при их сравнении на предмет  дубляжа (опции Отец, Мать ). То есть помимо коэффициента сравниваемых персон по похожему алгоритму сравниваются и их родители, что в некоторых случаях позволит увеличить точность сравнения. Отличие при сравнивании персон и его родителей состоит в том, что в расчет не берется фамилия родителей (кроме девичьей у матери). Как правило, эта фамилия у родителей и детей совпадает, и если этого не сделать, то неоправданно повысится  % совпадения.

Также при сравнении помимо событий рождения и смерти анализируются и другие события в жизни персоны, а именно сразу отсекаются те, у которых даты таких событий больше, чем дата смерти у сравниваемой персоны или меньше даты рождения. Например, у персоны есть события (брак, рождение детей), которые произошли позже, чем дата смерти у сравниваемой персоны или раньше, чем дата рождения. Т.е., если не допущено ошибок в датах, такие персоны не могут считаться дубликатами и исключаются из списка даже если коэффициент их сравнения выше установленного.