Технические рекомендации к публикуемым материалам

Все материалы, публикуемые на портале, можно разделить на две большие группы, которые условно обозначены как «документы» и «наборы данных». С точки зрения содержания они могут быть представлены следующими материалами:

Документы:

  • Инфографика (графическое представление информации).

  • Методические рекомендации (описание верной последовательности действий в тех или иных случаях) и памятки.

  • Отчеты (текст, представляющий описание результатов исследовательской работы, к этому же типу относятся доклады и аналитические записки).

  • Презентации.

Наборы данных:

  • Реестры (претендующие на полноту), например, реестр участников саморегулируемой организации.

  • Списки (не претендующие на полноту, но предположительно полезные), например, список предприятий, с которыми поддерживает отношения данная торгово-промышленная палата.

  • Библиографии и каталоги.

  • Данные, собранные в ходе исследований или опросов или полученные в результате вторичной обработки.

  • Статистика и данные, собираемые в ходе деятельности НКО.

  • Слепок базы данных (данные, которые собирает организация для использования в своей работе/проекте). В отличие от списков и реестров, мы предполагаем, что слепок должен обладать сложной структурой и хранить в себе информацию о специфических связях между разными сущностями предметной области.

Для публикации на портале все данные должны быть представлены в виде наборов в машиночитаемых форматах. Приведем более подробные рекомендации по предпочтительным форматам публикуемых материалов.

Тексты: PDF, DOCX

Большинство отчетов обычно оформляется в формате PDF, также возможна публикация в формате DOCX. При публикации такого типа файлов следует по возможности использовать именно DOCX (а не DOC). Это связано с тем, что DOCX как более новый формат занимает меньше места и имеет более удобную для дальнейшей обработки структуру. Не стоит публиковать текстовые файлы в форматах типа ODT: с такими публикациями могут возникнуть трудности у пользователей проприетарного программного обеспечения, которое очень популярно.

Табличные данные: CSV, XLSX

Для табличных данных наиболее предпочтителен формат CSV. Он наиболее прозрачен, с точки зрения структуры, и не допускает путаницы, связанной со скрыванием или сливанием ячеек. Если всё же публиковать данные в формате проприетарной таблицы, то предпочтителен формат XLSX (а не XLS). Это связано с тем, что XLSX как более новый формат занимает меньше места и имеет более удобную для дальнейшей обработки структуру.

Данные с иерархической структурой: JSON, XML

В большинстве случаев JSON представляется наиболее удобной для обработки структурой за счет того, что она легко переводится во встроенные структуры многих языков программирования. К файлам такого типа рекомендуется прилагать описание полей, потому что их названия зачастую малоинформативны.

XML, с другой стороны, дает возможность более полного и структурированного описания данных. Таким образом, использование формата XML лучше свести только к тем случаям, которые выходят за рамки возможностей формата JSON.

К файлам XML следует прилагать также их схемы, чтобы у пользователь мог обращаться к описанию данных и их структуры.

Дампы баз данных: BSON, SQL, XML, JSON

При публикации дампов баз данных лучше избегать устаревших форматов вроде DBF, потому что современные инструменты обработки могут воспринимать их с трудом. Дампы баз данных вроде MongoDB имеет смысл публиковать как есть, то есть в формате BSON. SQL можно использовать для дампов реляционных баз данных.

Также в ряде случаев может оказаться проще выгрузить данные базы, сохранив их структуру, в папку с файлами JSON или XML.

Архивация: ZIP

Файлы большого размера могут публиковаться в виде архивов. Для архивации файлов и папок лучше использовать формат ZIP как наиболее распространенный и часто используемый среди пользователей.