Skip to main content

Изменения

View changes from to


On 28 декабря 2020 г., 12:29:48 UTC, Gravatar Ivan Begtin:
  • Updated description of База наиболее частых имён, отчеств и фамилий from

    База частот имён, отчеств и фамилий собранная на основе сведений об учредителях и руководителях юридических лиц из ЕГРЮЛ и сведений о физ. лицах ИП из ЕГРИП. Представлены 3 таблицы: * midnames - отчества, 7040 записей * names - имена, 4874 записи * surnames - фамилии, 48 540 Записей Все таблицы сформированы из первичных данных из 22 млн 617 тыс. записях о персонах с отсевом записей встречающихся не реже 50 раз, прошедшие последующую пост обработку, вычистку мусорных и неверных записей, а также обогащённые данные по полу, поле gender. Для отчеств пол указан в однозначных значениях: m - мужской, f - женский Для фамилий пол указан в однозначных значениях: m - мужской, f - женский, u - нейтральный (пол невозможно идентифицировать) Для имён пол указан как: m - мужской, f - женский и добавлено поле gender_p - частотное измерение в процентах вероятности что имя относится к данному полу. Например, для имени "Джиргал", пол будет указан как женский "f", а точность будет как 57.97% что будет означать что для всего объёма записей о персонах у 57.97% это были лица женского пола, а остальные мужского. Общие поля таблиц: * text - имя/фамилия/отчество в зависимости от таблиц * num - число записей где встречается * gender - пол (f - женский, m - мужской, u - невозможно определить) * regorgs - частота встречаемости по кодам субъектов федерации, на основе данных ИНН юридических лиц и ИП * regfl - частота встречаемости по кодам субъектов федерации на основе ИНН физического лица - ИП или руководителя организации __Дополнительные поля__ Для таблицы midnames (отчетства) * fname - имя от которого порождено отчество Для таблицы surnames (фамилии) * f_form - женская форма фамилии * m_form - мужская форма фамилии * fname - имя, если фамилия происходит от имени. Например, для фамилии "Иванов" это будет имя "Иван" Все данные представлены в формате JSON lines, могут быть загружены в СУБД, например, в MongoDB через утилиту mongoimport или любым иным способом. Таблицы могут использоваться взамен таблиц с неочищенными данными проекта russiandata https://github.com/datacoon/russiannames
    to
    База частот имён, отчеств и фамилий собранная на основе сведений об учредителях и руководителях юридических лиц из ЕГРЮЛ и сведений о физ. лицах ИП из ЕГРИП. Представлены 3 таблицы: * midnames - отчества, 7040 записей * names - имена, 4874 записи * surnames - фамилии, 48 540 Записей Все таблицы сформированы из первичных данных из 22 млн 617 тыс. записях о персонах с отсевом записей встречающихся не реже 50 раз, прошедшие последующую пост обработку, вычистку мусорных и неверных записей, а также обогащённые данные по полу, поле gender. Для отчеств пол указан в однозначных значениях: m - мужской, f - женский Для фамилий пол указан в однозначных значениях: m - мужской, f - женский, u - нейтральный (пол невозможно идентифицировать) Для имён пол указан как: m - мужской, f - женский и добавлено поле gender_p - частотное измерение в процентах вероятности что имя относится к данному полу. Например, для имени "Джиргал", пол будет указан как женский "f", а точность будет как 57.97% что будет означать что для всего объёма записей о персонах у 57.97% это были лица женского пола, а остальные мужского. Общие поля таблиц: * text - имя/фамилия/отчество в зависимости от таблиц * num - число записей где встречается * gender - пол (f - женский, m - мужской, u - невозможно определить) * regorgs - частота встречаемости по кодам субъектов федерации, на основе данных ИНН юридических лиц и ИП * regfl - частота встречаемости по кодам субъектов федерации на основе ИНН физического лица - ИП или руководителя организации __Дополнительные поля__ Для таблицы midnames (отчетства) * fname - имя от которого порождено отчество Для таблицы surnames (фамилии) * f_form - женская форма фамилии * m_form - мужская форма фамилии * fname - имя, если фамилия происходит от имени. Например, для фамилии "Иванов" это будет имя "Иван" Все данные представлены в формате JSON lines, могут быть загружены в СУБД, например, в MongoDB через утилиту mongoimport или любым иным способом. Таблицы могут использоваться взамен таблиц с неочищенными данными проекта russiandata https://github.com/datacoon/russiannames