数据归档准备
数据集可能是有价值的NBA投注[手机]俱乐部研究成果,您应该像准备任何其他NBA投注[手机]俱乐部研究成果一样小心地准备数据集。
本网页提供了在开始将数据集存入数据存储库之前需要考虑和解决的一些主要问题的指导。该指南的更详细版本请参见数据存档准备(PDF)。对于那些打算在大学的NBA投注[手机]俱乐部研究数据档案中存放数据的人,我们还提供数据存放清单(PDF)。
1. 定义数据集
在存储数据集之前,需要定义它。确定数据集的内容非常重要,因为这些内容也将决定需要做哪些准备。对数据进行系统的价值评估可以帮助您做出明智的决定,决定保存和共享什么。我们在数据选择和评估清单中提供了一套评估标准。
2. 识别存储库并检查其需求
我们提供以下指导:选择数据存储库.
您应该检查首选存储库关于存储数据的指导,并注意它可能具有的任何需求。存储库可能对某些类型的数据有内容和元数据要求,要求以特定格式提交数据,并对可以存储的数据量进行限制。一些存储库也可能对数据存储收费(尽管许多存储库不收费)。
一些存储库,包括NBA投注[手机]俱乐部研究数据存档,可以在受控访问程序下管理高风险的匿名数据和包含可识别信息的数据。看到数据归档准备(PDF)查阅更多资料。
3. 检查你的同意
如果数据是从活着的人那里收集的,你应该检查你是否有适当的文件证明同意数据共享。如果数据已完全匿名,则未经同意披露从人类受试者获得的数据是可以接受的,但告知参与者您这样做的意图是一种良好做法。如果在您的同意程序中明确声明数据不会被披露或将在给定时间销毁,则即使是匿名数据也不能被披露。可识别的数据可以在受控访问程序下披露,前提是参与者已同意参与NBA投注[手机]俱乐部研究,并了解数据将以这种方式共享。大学提供了一份同意书样本,其中包括适用于公开数据共享和受保障措施约束的数据共享的声明。
如果您将从参与者那里收集的数据保存在NBA投注[手机]俱乐部研究数据档案中,您将被要求将您的信息表和同意书样本连同您的数据文件一起提交给我们,以便我们确认您有数据共享的基础。这些文档将作为文档文件存储在数据集中。对它们的访问将受到限制,这意味着用户无法下载它们。
最好在收集数据之前获得同意,但也可以回顾性地获得同意。在某些情况下,例如在涉及收集敏感信息的定性NBA投注[手机]俱乐部研究中,过程同意模型可能是适当的。这可能涉及,例如,在进行采访之前获得同意,然后在存档之前寻求匿名采访记录的批准。
4. 识别数据集创建者
了解谁是数据集的创建者(以及谁不是)是很重要的,因为知识产权和分发数据的许可将与数据集的创建者相关联。数据集的创造者在道义上也有权被认定为这样的人。数据集可能是许多人的工作成果,要清楚地区分它的创造者和其他对项目工作做出贡献的人并不总是容易的。
根据1988年《版权、外观设计和专利法》,数据库是“独立作品、数据或其他材料的集合,这些作品、数据或其他材料——(a)以系统或有条理的方式排列,(b)可以通过电子或其他方式单独访问”。“对数据库内容的选择或安排”构成了吸引版权的创造性行为。
因此,创建者是那些在数据集中数据的选择和排列中具有直接创造性作用的人。这与参与NBA投注[手机]俱乐部研究设计或原始数据收集不同。在大多数情况下,项目负责人或学生导师不会是数据集的创建者,除非他们直接参与了数据集的创建。技术人员、承包商和其他参与数据收集的人通常不是数据集的创造者,除非他们对数据点的选择和安排有创造性的投入。
任何不符合创建者定义但对数据集的生产做出贡献的人,仍然可以在数据集文档中确认他们的贡献。NBA投注[手机]俱乐部研究数据存档在其元数据模式中包含贡献者字段。
5. 确定权利持有人
您必须清楚地识别权利所有者,因为您存档数据集的授权取决于他们的许可。请记住,通过存档数据,您也在分发它们,未经版权所有者授权这样做将违反版权法。
数据中的知识产权(IPR)所有者将与数据集的创建者相关联。
一般来说,雇主将拥有其雇员创造的知识产权;大学通常是员工创造的知识产权的权利人。NBA投注[手机]俱乐部研究合同通常允许“新产生的知识产权”(即根据合同产生的知识产权)的所有权归原始机构所有。
在大学注册的学生默认拥有他们创建的知识产权,但如果他们是根据第三方赞助协议资助的(不包括NBA投注[手机]俱乐部研究委员会等公共资助者,这些资助者不会将学生知识产权分配给其他方),或者如果他们将自己的知识产权分配给大学,情况可能并非如此。通常第三方赞助商是一家公司,如先正达(Syngenta)、维特罗斯(Waitrose),但也可能是政府资助的机构,如英国气象局(Met Office),或主要不是NBA投注[手机]俱乐部研究资助机构的慈善机构,如驴保护区(Donkey Sanctuary)。赞助协议将包括知识产权条款,说明哪一方拥有产生的知识产权的所有权。学生在其他机构创造的知识产权所有权将受该机构的知识产权政策和任何相关协议的约束。
如果一个数据集有多个创建者,它也可能有多个权利持有者,其中可能包括大学、拥有自己权利的学生以及合作和伙伴组织。有更多的知识产权指导和NBA投注[手机]俱乐部研究数据网页。
您可能需要nba投注任何适用的NBA投注[手机]俱乐部研究合同或学生协议,以确定哪些方拥有数据集的权利。学生和/或其导师应提供与NBA投注[手机]俱乐部研究计划有关的任何合同的副本。如果您需要找到合同的副本,请联系合同经理。如果您对NBA投注[手机]俱乐部研究合同有疑问,请联系我们。
如果数据集包含辅助数据,这些数据的所有者也将有权决定您如何以及以何种条款分发其数据。
6. 决定您的许可偏好
知识产权应该在许可下发布,这样其他人就能清楚地知道知识产权的所有权和使用条款。根据大学的NBA投注[手机]俱乐部研究数据管理政策,您应该尽可能在开放许可下共享数据。最广泛使用的开放数据许可证是知识共享署名(CC BY)许可证,它允许在适当署名的情况下重新使用数据,以及知识共享零公共领域奉献(CC0),放弃作品中的所有权利。
为了许可数据,您必须是数据所有者或被授权代表数据所有者转让许可,因此许可的选择可能取决于其他方的许可。例如:具有商业利益的第三方共同创作者可以要求申请非商业许可;如果数据集包含第三方材料,这些材料可能会在“保留所有权利”的基础上提供。
在受控访问策略下持有的数据(如英国数据服务保护的数据和NBA投注[手机]俱乐部研究数据档案中的受限数据集)将在特殊许可条款下提供。存储在NBA投注[手机]俱乐部研究数据档案中的受限数据集的数据访问协议允许数据在未经授权的情况下仅用于非商业NBA投注[手机]俱乐部研究和学习目的。该协议将由大学与授权用户所属的组织签订。
作为一般规则,我们建议您对开放数据使用知识共享署名许可,这是默认应用于NBA投注[手机]俱乐部研究数据存档中的上传文件。只有在有正当理由的情况下,例如为了保护商业或其他机密利益,才应使用限制性更强的许可证。
我们提供了一个关于许可数据指导的网页。有关软件许可选择的指导可在我们的出版NBA投注[手机]俱乐部研究软件指南中找到。
7. 必要时获得权限
你必须确保你有权限存档和分发数据集从:创建者;权利的人;对NBA投注[手机]俱乐部研究成果发表有合同权利的当事人;辅助数据所有者。
创造者
在版权法中,数据集的创造者有道德权利被认定为这样的人。个人也有道德上的权利不让别人把作品错误地归为自己的作者。因此,您必须确保数据集是在其创建者的知识和许可下存档的。
权利的人
如果雇主是一所大学或公共资助的NBA投注[手机]俱乐部研究机构,可以从他们对NBA投注[手机]俱乐部研究数据的政策立场推断出发布数据的许可,这当然是在大学的情况下,促进公众分享支持NBA投注[手机]俱乐部研究成果的数据。其他各方,包括学生、工业奖学金赞助商和商业NBA投注[手机]俱乐部研究合作伙伴,将需要书面同意数据集的发布。
合同各方
NBA投注[手机]俱乐部研究和学生合同有出版条款,通常授予其他各方被通知的权利,并有机会批准或推迟任何预期的出版。无论谁拥有根据合同创造的IP,这种权利都是存在的。标准通知期为30天。
辅助数据所有者
如果您的数据集包含来自现有来源的IP,则可能需要寻求分发数据集的许可。如果数据是从公共资源(如网站或数据存储库)获得的,则应检查其来源是否包含任何使用条款或许可信息。如果您使用了政府或NBA投注[手机]俱乐部研究数据,这些数据很可能已经在开放许可协议下提供,并且可以在提供来源确认的情况下重新分发。如果您在已发布的来源中找不到任何信息,或者数据是从非公开来源获得的,您可能需要直接与数据所有者联系。我们提供了一个网页,上面有关于使用辅助数据的信息。
申请
如欲获得许可,你应致函有关各方,并以书面要求获得许可。NBA投注[手机]俱乐部研究合同和赞助协议将为每一方指定一名法律官员或其他联系人,合同项下的任何通知都可以直接发给他们。
在与其他各方联系以获得存档和分发数据的许可时,重要的是要明确地识别数据,并明确数据将如何提供,以及将以何种条款获得使用许可。虽然您应该始终寻求以最开放的条款授权数据集,但其他权利持有人可能会合法地要求更严格的许可。例如,商业合作伙伴可能不愿意根据允许为商业目的重用的条款分发数据集。
8. 形成数据集
归档数据不像将文件从活动存储位置传输到数据存储库那样简单。你的数据需要被整理、整理、记录。在形成数据集时,需要考虑以下几点:
- 定义数据集:标识组成数据集的所有文件。这些可能包括:原始数据文件(初始收集格式);处理过的数据文件(如清理过的数据);保存为另一种格式的原始数据;统计分析和可视化);文档;编程代码(例如分析脚本)。
- 确保数据以适合保存的格式存储,例如将表格数据保存为CSV等开放格式。您可能需要检查所选存储库指定的任何文件格式要求。提供了关于NBA投注[手机]俱乐部研究数据档案保存的合适文件格式的指导。
- 确保您的数据文件格式良好且可读。呈现不佳的数据更难以阅读,更有可能包含错误,也更难以获得信任。检查数据是否有错误。使用一致的风格和格式,并检查文本的拼写。清晰地格式化代码文件,并包含注释来解释代码的作用。确保相关信息清晰地呈现在数据文件中,例如变量名称和定义、度量单位、缺失值代码等。当前实际值;避免编码内容,例如电子表格中的公式和条件格式。Wellcome Trust提供了关于准备电子表格数据的有用指导。
- 必要时编辑数据。从NBA投注[手机]俱乐部研究参与者收集的数据可能需要匿名。英国数据服务提供了关于匿名的指导。其他类型的信息也可能需要删除或隐藏,例如商业机密信息、濒危物种的位置等。链接编码数据,即数据记录由唯一代码识别,该代码与保存在单独表格中的可识别参与者信息相关联,在数据保护法中仍然属于个人数据。他们是化名,而不是匿名。对于一个数据集是匿名的,并且适合作为开放数据共享,您需要删除任何将数据记录链接到可识别的参与者的方法,例如,通过销毁链接的所有文档记录,或者通过将数据集中链接的id替换为未链接的id。
- 如果数据集由多个文件组成,请确保它们以逻辑方式组织。
- 使用合适且一致的文件名,文件名描述文件内容,格式不带空格或特殊字符,长度不超过32个字符。有关文件命名的指导,请参阅组织数据网页。
- 检查数据集的大小,并确保它不超过所选数据存储库指定的任何大小限制。NBA投注[手机]俱乐部研究数据档案允许免费存放高达20gb的数据集,并建议单个文件不超过4gb。如果您有一个大型数据集和/或大量文件,那么对于您和数据的潜在用户来说,使用归档格式打包/压缩文件可能会更容易。Zip和tar.gz是不错的选择,因为它们提供无损压缩。
- 您可以请同事或同行检查您的数据集。一双不熟悉数据的眼睛可能会发现你忽略的错误和事情。记住,阅读你数据的人不会有你对NBA投注[手机]俱乐部研究背景的经验。
9. 准备文档
每个数据集至少应该有一个基本的手册或用户指南。这应包括以下内容:
- 数据集的引用元数据(创建者、标题、出版年份);
- 附有许可证声明的权利持有人的身份证明;
- 数据集的简要描述。这可能包括关于收集数据的内容和数量、收集数据的NBA投注[手机]俱乐部研究背景、收集数据的目的以及使用的工具和方法的摘要信息;
- 关于收集数据的项目的资料,以及任何外部供资细节;
- 对数据集内容的描述,例如文件清单;
- 关键解释性信息,如所用变量和单位的完整定义,如代码本或数据字典;
- 用于收集、处理和分析数据的方法和仪器的详细信息,以及相关的辅助信息,例如分析脚本;
- 引用所使用的任何辅助数据源;
- 参考相关出版物。如出版物正在出版,应提供尽可能多的资料,以便识别已出版的项目,例如作者、暂定标题、期刊(如已知)、年份和状况(筹备/审稿、出版)。
对于大学NBA投注[手机]俱乐部研究数据档案的存款,提供了一个README模板(txt),可用于记录基本文件。文档可以保存在PDF, Word或其他文本格式的首选。
为数据存档做准备(PDF)
资料存放核对表(PDF)
自述模板(txt)