在哪里存档数据
选择正确的位置来归档数据非常重要,因为这将决定数据的可查找、可访问、可互操作和可重用(FAIR)程度。在大多数情况下,数字数据存储库将是合适的,但根据数据的类型和性质,不同的服务可能是合适的。大容量和非数字数据可能需要其他解决方案。
数字数据
通常,数字数据应该归档到合适的公共数据存储库中。数据存储库将通过承担以下功能来确保数据集是公平的:
- 它积极地保存数据,使其长期有效,例如复制和验证数据文件,迁移到保存格式;
- 它发布机器可读的元数据,以实现在线发现;
- 它将为数据集分配一个持久的唯一标识符(例如DOI)以使其可引用;
- 在大多数情况下,它对数据集进行质量控制,并可能增强元数据,例如通过应用标准词汇表(并非所有存储库都这样做);
- 它使在线访问数据成为可能,这样其他人就可以使用这些数据;
- 它对数据集应用许可通知,以明确使用条款和归属要求。
我们提供了关于选择合适的数据存储库的指导。
源代码
支持已发布结果的软件代码(例如,用于生成输出数据的模型代码,或为统计分析目的编写的代码)应归档到公共数据存储库中,以便将其保存在与报告结果相关的特定版本中,并可通过DOI引用。可以将特定于数据集的小脚本与数据一起归档到数据存储库中。可能作为输出而存在的代码,例如模型代码,最好作为一个独立的项目进行归档。GitHub提供了一个易于使用的功能,用于将代码文件归档到Zenodo数字存储库。代码文件也可以存放在大学的NBA投注[手机]俱乐部研究数据档案或任何其他通用存储库中。
如果希望发布源代码,以便其他人可以下载并运行它,并为其正在进行的开发做出贡献,则还应该将其作为公共代码存储库提供。代码存储库将提供版本控制、代码审查、bug跟踪、文档、用户支持和其他功能。学校提供GitLab代码库服务;其他流行的平台是GitHub和Bitbucket。请注意,共享与发布结果相关的代码是不够的,因为代码存储库平台不承担长期保存或发布doi的责任,并且到代码存储库的链接不是特定于版本的。支持已发布结果的代码应该始终保存在数据存储库中,并通过DOI从相关发布引用。
限制数据
有些数据可能不适合公众访问,例如,因为它们包含不易删除的机密信息(例如生物特征数据或视频/图像数据),或者因为编辑数据以删除敏感或机密信息将大大降低其价值。这并不意味着这些数据不能存档并提供给其他人。
一些存储库可以在受控访问过程下管理敏感数据。这可能要求潜在的数据用户提出查询特定数据集的申请,该申请可以被数据所有者或指定的数据管理员拒绝或批准。请求者可能还需要满足某些条件才能获准访问数据,例如签署保密协议。查阅个人资料亦须获得资料当事人的同意,因此在NBA投注[手机]俱乐部研究的规划和招募阶段须考虑这一点。有关更多信息,请参阅大学的数据保护和NBA投注[手机]俱乐部研究指南。
提供受控访问程序的存储库包括英国数据服务ReShare存储库,它有一个“安全数据”选项,以及欧洲基因组-表型档案。
该大学的NBA投注[手机]俱乐部研究数据档案也提供了一个受限制的数据集选项。受限制的数据集可以安全地保存在大学的基础设施上,并在数据访问委员会(包括原始NBA投注[手机]俱乐部研究的PI或指定代表)的批准下,根据大学和接收组织之间的数据访问协议条款,供隶属于NBA投注[手机]俱乐部研究组织的授权NBA投注[手机]俱乐部研究人员访问。
大容量数据
一些NBA投注[手机]俱乐部研究可以产生大量的数据,在100千兆字节(GB)或太字节(TB)的规模,如计算建模和各种实验成像。如果您需要存档这些数据,那么实际操作和成本方面的限制可能会限制您的选择。许多数据存储库不能有效地处理这种大小的数据集,尽管情况并非总是如此——例如:
- NERC的CEDA档案定期管理TB级别的气候和天气数据集。
- 欧洲生物信息学NBA投注[手机]俱乐部研究所提供遗传、成像和一般生物学NBA投注[手机]俱乐部研究数据的存储库,可以免费接收大量数据。
- 一些支持生成大容量数据的NBA投注[手机]俱乐部研究设施,如ISIS中子和介子源,为其仪器收集的原始数据提供了存档设施。在这种情况下,您不需要自己存档数据,因为这将作为设施操作程序的一部分完成。
大学的NBA投注[手机]俱乐部研究数据档案只能接受不超过20gb的数据存储;但推荐使用两种容量较大的通用数据存储库:
- 免费使用的数据共享服务Zenodo接受最多50 GB的存款,最多100个文件,并将接受最多200 GB的一次性存款。
- Figshare Plus可用于共享规模达数TB的数据集,只需一次性收费。(标准的Figshare服务可以免费使用,最大存款额为20gb。)
请记住,您可能不一定需要归档或维护项目中收集或生成的所有原始数据。在数据选择网页上有更多的信息。
在存储库之外归档大容量数据
如果您的数据没有合适的数据存储库,我们建议您按顺序考虑以下解决方案。如果与在NBA投注[手机]俱乐部研究数据档案中创建描述数据集及其访问方式的元数据记录相结合,则可以使其符合大学的数据共享要求。
- 的DTS离线数据归档为在安全的环境中归档数字数据提供了一种经济、长期的存储解决方案。该服务旨在归档需要长时间保存但不需要立即主动访问的NBA投注[手机]俱乐部研究数据,适用于NFS (Linux)或SMB (Windows)数据存储。
- 大学云存储选项提供免费的大容量存储。OneDrive账户为员工用户提供5tb的标准存储空间;团队站点提供高达25 TB的存储空间。这些服务不是作为长期存储解决方案设计的,也不是存储和使用大量数据的最佳方案。存储在OneDrive中的数据只有在帐户持有人是大学成员的情况下才可以访问,因此数据应该备份到需要其他人继续访问的另一个位置。
- 外部硬盘驱动器提供了便宜的存储解决方案,但您应该考虑至少在一个单独的位置备份数据。硬盘驱动器应安全地存储在现场,并由至少两个人访问。数据需要定期迁移到新媒体上,例如每五年迁移一次。
使用上述方式存储数据时,建议遵循以下原则:
- 确保至少有两个人可以访问/检索数据,并有移交政策,以便如果数据所有者/管理员离开大学,责任转移,数据继续可检索。建议在一个NBA投注[手机]俱乐部研究小组或部门中为存档数据指定一个管理员,他维护存档数据集的注册表、它们的位置和负责任的所有者。
- 应采取基本措施确保数据的完整性和可用性。数据文件应该是写保护的,这样一旦归档就不能再修改了。如果可能的话,应该为所有数据文件生成校验和。应该有一些数据文档,包括文件列表或清单,以便可以导航和理解它们。
- 如果数据支持已发表的结果,则应在大学的NBA投注[手机]俱乐部研究数据档案中创建元数据记录,描述数据和访问数据的方法。这将使数据能够通过DOI从相关出版物中引用,并提供其他人可以请求访问这些数据的方法。如果收到访问数据的请求,则可以通过邀请请求者在现场查看数据(如果可行)或安排(由请求者自费)发送相关数据的副本来批准请求。
- 当数据被删除时,NBA投注[手机]俱乐部研究数据档案中的任何本地注册表和元数据记录都必须相应更新。
NBA投注[手机]俱乐部研究数据服务可以建议和支持您使用上述原则存档数据。
非数字(离线)数据
非数字数据应尽可能进行数字化存档。如果由于任何原因,这是不可能的或不可取的,那么应该按照上面概述的大容量数据的原则对它们进行归档。应该有明确的文件所有权和数据的本地管理。如果数据是支持已发表的NBA投注[手机]俱乐部研究成果所必需的,则应在大学的NBA投注[手机]俱乐部研究数据档案中发表记录,描述数据和访问数据的方法,以便从相关出版物中引用。