Поиск дубликатов
Из-за чего в Ваших данных могут
возникнуть дублирующиеся персоны? Или, другими словами, почему одна и та
же персона может быть занесена дважды?
Давайте сначала определимся что мы
будем искать - зачем нужен такой отчет.
Я вижу, как минимум, 2 варианта, когда нам нужно искать "двойников": 1. Случайно повторно добавили персону, которая уже была в дереве (то есть фактически ошибка или невнимательность работающего с программой) 2. Когда вводили персону не идентифицировали ее как уже присутствующую в дереве (то есть - дефицит информации) Сразу скажу, что оба у меня встречались в реальной жизни Первый вариант - это когда я знаю что
найденная особа кум/сват/брат, но по какой-то причине забыл, что я его уже
вносил ранее. Это случается, например, когда нахожусь в дереве
"только прямые предки", нахожу в метриках, например, рождение брата
прямого предка, вношу его, а потом (может даже через какое-то время),
обнаруживаю, что у меня он уже был записан из другого источника (например,
ревизии).
Такие дубли можно вычислять уже сейчас в Детекторе проблем по опции "Дети-тезки", такой вариант вычислить не сложно и главный критерий - это одни и те-же родители у двойников и одинаковые имена. Конечно, мне возразят, что дети с одинаковыми именами у одних родителей встречаются часто, но не забываем, что программа - это не законченное решение всех наших проблем, а инструмент, с помощью которого этого решения можно достичь. Объединение баз и поиск совпадений целью не является, так как есть масса ресурсов, на которых это можно сделать не прибегая к изобретению велосипеда. Задача данного отчета сводится к
поиску персон в определенном кругу людей (скорее всего какой-то населенный
пункт или уезд) в своей базе данных с целью сцепления разрозненных родов
через одного из "двойников".
Какими критериями руководствуется
отчет при поиске дублей и какие данные анализирует?
Каждому из этих параметров можно присвоить "вес" (для
фамилий мужчин и женщин он может быть разный), который будет участвовать
в расчете "коэффициента одинаковости". Любой из параметров можно
исключить из сравнения, сняв галочку против него. Данные веса во время
сравнения взвешивается на разницу (если это года) или вносится
поправочный коэффициент при отсутствии какого-то параметра у одного из
предполагаемых двойников. Также может учитываться "похожесть" фамилий,
имен, отчеств. Это регулируется настройкой "Разновидности ФИО" (Точное
сравнение или Учитывая "похожесть") Позже в отчете появилась возможность учитывать родителей персон; при их сравнении на предмет дубляжа (опции Отец, Мать ). То есть помимо коэффициента сравниваемых персон по похожему алгоритму сравниваются и их родители, что в некоторых случаях позволит увеличить точность сравнения. Отличие при сравнивании персон и его родителей состоит в том, что в расчет не берется фамилия родителей (кроме девичьей у матери). Как правило, эта фамилия у родителей и детей совпадает, и если этого не сделать, то неоправданно повысится % совпадения. Также при сравнении помимо событий рождения и смерти анализируются и другие события в жизни персоны, а именно сразу отсекаются те, у которых даты таких событий больше, чем дата смерти у сравниваемой персоны или меньше даты рождения. Например, у персоны есть события (брак, рождение детей), которые произошли позже, чем дата смерти у сравниваемой персоны или раньше, чем дата рождения. Т.е., если не допущено ошибок в датах, такие персоны не могут считаться дубликатами и исключаются из списка даже если коэффициент их сравнения выше установленного. |