Пошук дублікатів
Через що у наших даних можуть виникнути персони, що дублюються? Або, іншими словами, чому одна й та сама персона може бути занесена двічі?
Давайте спочатку визначимося, що ми шукатимемо - навіщо потрібен такий звіт.
Я бачу, як мінімум, 2 варіанти, коли нам потрібно шукати "двійників": 1. Випадково повторно додали персону, яка вже була в дереві (тобто фактично помилка чи неуважність працюючого з генеалогічною програмою) 2. Коли вводили персону не ідентифікували її як уже присутню у дереві (тобто - дефіцит інформації) Відразу скажу, що обидва у мене зустрічалися у реальному житті Перший варіант - це коли я знаю, що знайдена особа кум/сват/брат, але з якоїсь причини забув, що я його вже вносив раніше. Це трапляється, наприклад, коли знаходжусь у дереві "тільки прямі пращури", знаходжу в метриках, наприклад, народження брата прямого предка, вношу його, а потім (може навіть через якийсь час), виявляю, що в мене він уже був записаний з іншого джерела (наприклад, ревізії).
Такі дублі можна також можна знайти і у Детекторі проблем по опції "Діти-тезки", такий варіант обчислити не складно і головний критерій - це одні й ті ж батьки у двійників і однакові імена. Звичайно, мені заперечать, що діти з однаковими іменами в одних батьків часто зустрічаються досить часто, але не забуваємо, що програма - це не закінчене вирішення всіх наших проблем, а інструмент, за допомогою якого ці проблеми можна мінімізувати. Але є й інший випадок, коли це не помилка, а одна й та саме персона існує вже в базі, але пов'язана з іншою гілкою. Завдання цього звіту зводиться до пошуку персон у певному колі людей (швидше за все якийсь населений пункт чи повіт) у своїй базі даних з метою зчеплення розрізнених родів через одного з "двійників".
Якими критеріями керується звіт під час пошуку дублів та які дані аналізує?
Кожному з цих параметрів можна привласнити "вагу"
(для прізвищ чоловіків і жінок вона може бути різною), яка братиме участь
у розрахунку "коефіцієнта однаковості". Будь-який із параметрів можна
виключити з порівняння, знявши галочку проти нього. Дані ваги під час
порівняння зважуються на різницю (якщо це рік) або вноситься поправочний
коефіцієнт за відсутності якогось параметра в одного з передбачуваних
двійників. Також може враховуватися "схожість" прізвищ, імен, по-батькові.
Це регулюється налаштуванням "Різновиди ПІБ" (Точне
порівняння або Враховуючи "схожість ") Пізніше у звіті з'явилася можливість враховувати батьків персон; при їх порівнянні на предмет дубляжу (опції Батько , Мати ). Тобто крім коефіцієнта порівнюваних персон за схожим алгоритмом порівнюються й його батьки, що у деяких випадках дозволить збільшити точність порівняння. Відмінність при порівнюванні персон та її батьків полягає в тому, що до уваги не береться прізвище батьків (крім дівочої у матері). Як правило, це прізвище у батьків та дітей збігається, і якщо цього не зробити, то невиправдано підвищиться % збігу. Також при порівнянні крім подій народження та смерті аналізуються й інші події в житті персони, а саме одразу відсікаються ті, у яких дати таких подій більші, ніж дата смерті у порівнюваної персони або менше дати народження. Наприклад, у персони є події (шлюб, народження дітей), які сталися пізніше, ніж дата смерті у порівнюваної персони або раніше, ніж дата народження. Тобто, якщо не допущено помилок у датах, такі персони не можуть вважатися дублікатами та виключаються зі списку навіть якщо коефіцієнт їх порівняння вищий за встановлений. |