База частот имён, отчеств и фамилий собранная на основе сведений об учредителях и руководителях юридических лиц из ЕГРЮЛ и сведений о физ. лицах ИП из ЕГРИП.
Представлены 3 таблицы:
-
midnames - отчества, 7040 записей
-
names - имена, 4874 записи
-
surnames - фамилии, 48 540 Записей
Все таблицы сформированы из первичных данных из 22 млн 617 тыс. записях о персонах с отсевом записей встречающихся не реже 50 раз, прошедшие последующую пост обработку, вычистку мусорных и неверных записей, а также обогащённые данные по полу, поле gender.
Для отчеств пол указан в однозначных значениях: m - мужской, f - женский
Для фамилий пол указан в однозначных значениях: m - мужской, f - женский, u - нейтральный (пол невозможно идентифицировать)
Для имён пол указан как: m - мужской, f - женский и добавлено поле gender_p - частотное измерение в процентах вероятности что имя относится к данному полу. Например, для имени "Джиргал", пол будет указан как женский "f", а точность будет как 57.97% что будет означать что для всего объёма записей о персонах у 57.97% это были лица женского пола, а остальные мужского.
Общие поля таблиц:
-
text - имя/фамилия/отчество в зависимости от таблиц
-
num - число записей где встречается
-
gender - пол (f - женский, m - мужской, u - невозможно определить)
-
regorgs - частота встречаемости по кодам субъектов федерации, на основе данных ИНН юридических лиц и ИП
-
regfl - частота встречаемости по кодам субъектов федерации на основе ИНН физического лица - ИП или руководителя организации
Дополнительные поля
Для таблицы midnames (отчетства)
- fname - имя от которого порождено отчество
Для таблицы surnames (фамилии)
-
f_form - женская форма фамилии
-
m_form - мужская форма фамилии
-
fname - имя, если фамилия происходит от имени. Например, для фамилии "Иванов" это будет имя "Иван"
Все данные представлены в формате JSON lines, могут быть загружены в СУБД, например, в MongoDB через утилиту mongoimport или любым иным способом.
Таблицы могут использоваться взамен таблиц с неочищенными данными проекта russiandata https://github.com/datacoon/russiannames