База наиболее частых имён, отчеств и фамилий

База частот имён, отчеств и фамилий собранная на основе сведений об учредителях и руководителях юридических лиц из ЕГРЮЛ и сведений о физ. лицах ИП из ЕГРИП.

Представлены 3 таблицы:

  • midnames - отчества, 7040 записей

  • names - имена, 4874 записи

  • surnames - фамилии, 48 540 Записей

Все таблицы сформированы из первичных данных из 22 млн 617 тыс. записях о персонах с отсевом записей встречающихся не реже 50 раз, прошедшие последующую пост обработку, вычистку мусорных и неверных записей, а также обогащённые данные по полу, поле gender.

Для отчеств пол указан в однозначных значениях: m - мужской, f - женский Для фамилий пол указан в однозначных значениях: m - мужской, f - женский, u - нейтральный (пол невозможно идентифицировать) Для имён пол указан как: m - мужской, f - женский и добавлено поле gender_p - частотное измерение в процентах вероятности что имя относится к данному полу. Например, для имени "Джиргал", пол будет указан как женский "f", а точность будет как 57.97% что будет означать что для всего объёма записей о персонах у 57.97% это были лица женского пола, а остальные мужского.

Общие поля таблиц:

  • text - имя/фамилия/отчество в зависимости от таблиц

  • num - число записей где встречается

  • gender - пол (f - женский, m - мужской, u - невозможно определить)

  • regorgs - частота встречаемости по кодам субъектов федерации, на основе данных ИНН юридических лиц и ИП

  • regfl - частота встречаемости по кодам субъектов федерации на основе ИНН физического лица - ИП или руководителя организации

Дополнительные поля

Для таблицы midnames (отчетства)

  • fname - имя от которого порождено отчество

Для таблицы surnames (фамилии)

  • f_form - женская форма фамилии

  • m_form - мужская форма фамилии

  • fname - имя, если фамилия происходит от имени. Например, для фамилии "Иванов" это будет имя "Иван"

Все данные представлены в формате JSON lines, могут быть загружены в СУБД, например, в MongoDB через утилиту mongoimport или любым иным способом.

Таблицы могут использоваться взамен таблиц с неочищенными данными проекта russiandata https://github.com/datacoon/russiannames

Данные и Ресурсы

Дополнительная информация

Поле Величина
Источник http://egrul.nalog.ru
Автор Иван Бегтин
Администратор Иван Бегтин
Версия 1.0
Последнее обновление Декабрь 28, 2020, 12:30 (UTC)
Создано Декабрь 28, 2020, 12:27 (UTC)
Дата создания документа 2020-12-28