Агрегированные данные – данные, сведенные вместе по тому или иному признаку непосредственно или с использованием определенного алгоритма обработки. Допустим, есть реестр контрактов, где каждая запись содержит сведения о сумме контракта, заказчике и поставщиках. Из такого реестра можно получить, например, список всех заказчиков, которые встречаются в контрактах, и для каждого заказчика посчитать, сколько контрактов он заключил и какова сумма заключенных им контрактов. Полученные цифры будут агрегированными данными.
База данных – система хранения комплексной информации, описывающей ту или иную предметную область. Допускает сложную иерархию данных и групп данных, а также позволяет выстраивать связи между различными группами данных. Также обладает инструментами фильтрации для быстрого поиска необходимых данных по заданным признакам.
Данные – поддающееся многократной интерпретации представление информации в формализованном виде, пригодном для передачи, связи, или обработки. Синонимом понятия данные является структурированная информация.
Документ – в данном случае файл немашиночитаемого формата, содержащий неструктурированную информацию. Это может быть, например, текст или изображение в форматах DOC(X), PDF, JPG, PNG и т.п. Мы специально добавили это понятие в наш небольшой глоссарий, чтобы подчеркнуть разницу. При этом довольно часто открытые данные могут ссылаться на те или иные документы, использование которых может быть неотъемлемой части работы с данными.
Машиночитаемые форматы данных – форматы представления и публикации данных, предназначенные для обработки машинными методами. К ним относятся такие форматы, как: CSV (TSV), JSON, XML, XLSX, XLS и другие.
Метаданные – данные, описывающие набор данных или документ. Например, даты его создания и обновления; автора; публикатора; контактную и лицензионную информацию и т.п.
Набор данных – совокупность данных, представленных в машиночитаемом формате и описывающих те или иные процессы, явления или предметную область. В отличие от базы данных, обычно обладают плоской или несложной иерархической структурой и сравнительно небольшим объемом, поэтому для их публикации часто используются табличные форматы (CSV, XLS/XLSX).
Неструктурированная информация – информация, представленная в форме, пригодной, прежде всего, для человеческого восприятия. Например, текст, изображение, видео- или аудиозапись. В ряде случаев неструктурированную информацию возможно и даже целесообразно преобразовывать в структурированную.
Обладатель данных – в контексте открытых данных под этим подразумевается лицо, получившее доступ к данным. Однако тут есть тонкость – схожее понятие присутствует в федеральном законе от 27.07.2006 N 149-ФЗ (ред. от 03.04.2020) «Об информации, информационных технологиях и о защите информации», где «обладатель информации» определяется как «лицо, самостоятельно создавшее информацию либо получившее на основании закона или договора право разрешать или ограничивать доступ к информации, определяемой по каким-либо признакам».
Обезличенные данные – данные, которые нельзя соотнести с каким-либо конкретным субъектом. Федеральное законодательство не поясняет, что такое обезличенные данные, однако дает понятие «обезличивания персональных данных»: действия, в результате которых становится невозможным без использования дополнительной информации определить принадлежность персональных данных их конкретному субъекту. Также в законодательстве нет понятия анонимизированных данных, но это понятие есть в европейском регламенте GDPR (General Data Protection Regulation). По сути, это окончательно обезличенные данные – то есть данные, которые нельзя соотнести с их конкретным владельцем, проведя «реидентификацию». Если же такое возможно, то такой вид обезличенных данных называют «псевдоанонимизированными».
Открытые данные – данные, опубликованные в публичном доступе в сети Интернет в машиночитаемом формате и под свободной (открытой) лицензией, допускающей бесплатное повторное использование этих данных, их переработку и распространение. Приведенное каноническое определение затрагивает только машиночитаемые данные, однако практически все (кроме узко технических) рекомендации и нормы по работе с открытыми данными затрагивают и публикацию данных в не машиночитаемых форматах (например, просто текстовом).
Персональные данные – любая информация, относящаяся к определенному или определяемому на ее основании физическому лицу (субъекту персональных данных). Например, фамилия, имя, отчество в комбинации с датой и местом рождения или адресом проживания уже позволяют это сделать.
Повторное использование – практика многократного использования (в исходном или переработанном виде) одних и тех же данных или документов.
Свободная (открытая) лицензия – лицензия, дающая максимально широкие права на использование данных и документов, в том числе право на бесплатное повторное использование, переработку и распространение. Лицензии, требующие при повторной публикации ссылки на источник или указания авторства, обычно относят к открытым. С оговорками к ним иногда относят лицензии, требующие, чтобы на продукты, созданные с использованием лицензируемых материалов, распространялись те же права, что и на исходный материал. Лицензии, которые добавляют к этому запрет на коммерческое использование, к открытым не относятся.
Сырые данные – данные, не прошедшие какую-либо обработку и представленные в своем первичном виде. Пример не сырых (обработанных) данных это статистика, обобщающая показатели исходного набора, или агрегированные данные. То, на основе чего рассчитана эта статистика или произведена агрегация, и есть сырые данные.
Человекочитаемые форматы данных – форматы представления и публикации данных, предназначенные для восприятия человеком. Например, DOC/DOCX, PDF, PPT/PPTX, JPEG, PNG, TIFF, GIF, HTML и т.п. Хотя некоторые из них относительно легко поддаются машинной обработке (как, например, HTML), их главная задача в том, чтобы упростить человеческое зрительное восприятие (зачастую в ущерб структурированности и последовательности, необходимым для корректной машинной обработки).
Чувствительные данные – данные, раскрытие которых может нести риски для субъекта, к которому они относятся. Для физического лица к ним можно отнести, например, информацию об этническом или расовом происхождении, состоянии здоровья, политических и религиозных убеждениях, а для коммерческого – информацию о производственных процессах и особенностях сделок. Этот термин не имеет сейчас определения в российском законодательстве, но уже определен в рамках европейского регламента по защите данных GDPR (General Data Protection Regulation).