文档和元数据
你能在5年或10年后理解你的数据吗?如果其他人想在他们自己的NBA投注[手机]俱乐部研究中使用你的数据,或者希望复制你的结果,他们需要什么信息?
文档使原始数据变得有意义,并提供验证它们的方法,以及您的发现所基于的分析。您应该尽快记录相关信息,并确保有效地存储和组织。这将使它在以后需要时更容易使用-例如,当您准备在项目结束时将数据集存入数据存储库时。
从四个层次来考虑文档是很有用的:变量、文件/数据库、项目和元数据。
变量
变量级文档定义了变量,并指定了度量单位和允许的值(包括缺失的值代码)。这些信息通常嵌入在数据文件中,例如作为标题或列标签。电子表格文件中的单独工作表可能包含变量列表及其完整定义以及有关度量单位和允许值的信息。可变信息也可以记录为单独的码本或数据字典。
文件/数据库
文件级或数据库级信息描述数据集的组件和逻辑结构。这可以是简单的文件列表及其内容的详细信息,也可以是数据库模式。这些信息通常记录在一个单独的自述文件中。
项目
项目级信息描述了收集数据要回答或测试的NBA投注[手机]俱乐部研究问题和假设,NBA投注[手机]俱乐部研究方法,用于收集和处理数据的工具,以及NBA投注[手机]俱乐部研究过程的记录。在你的领域可能有标准的实验报告协议,你可以用它来记录你的方法和仪器。文档可能包括实验室笔记、访谈时间表、仪器或软件规范和指南、在NBA投注[手机]俱乐部研究中编写的软件代码的在线注释、访谈记录和匿名指南等。在科学NBA投注[手机]俱乐部研究中,这些信息的文档化可能更加形式化,并可能得到特定过程或工具的支持。例如,对NBA投注[手机]俱乐部研究方案进行公开预注册越来越普遍,并且有许多在线工具,例如协议。io, Benchling, Labstep或RSpace,可用于记录和发布实验协议和实验笔记。
元数据
元数据级信息是对信息项(如由一组已定义元素组成的数据集)的结构化描述。它通常是在将数据集存入数据存储库或在数据目录中描述时创建的,并且将由在文档的前三个级别生成的信息组成。元数据描述使数据集能够在线发现,并提供关键信息,以支持数据集的持续管理和使用。核心元数据属性通常是:创建者、标题、发布者、出版年份、资源类型、唯一标识符(例如DOI)。为了便于发现和使用,可能会包含其他属性,例如描述、关键字、时间和地理参考、权利和许可信息以及相关出版物的链接。
您不需要为您的数据创建元数据记录,直到您完成了数据收集和分析,并处于NBA投注[手机]俱乐部研究的最后阶段或准备发表。在这个阶段,您应该考虑将数据存储在相关的存储库中。但是,如果您已经确定了计划存放数据的特定学科存储库,那么就有必要熟悉它们的元数据需求,以便在需要时拥有所需的所有信息。例如,如果您正在进行微阵列或下一代测序实验,并计划在Array Express中存储数据,您应该准备使用microarray实验最小信息(MIAME)或测序实验最小信息(MINSEQE)指南记录您的实验。