• 总根 >计算机与教育 >课程 >高等教育课程 >本科课程 >模式识别与人工智能 >zstu-(2021-2022)-1

  • 2019329621016-韩晓鹏-作业1

    摘要

    数据的预处理方法 : 1. 数据获取 获取数据是数据挖掘中最基本的步骤,因为数据本身决定了数据可能包含的知识。数据库和数据仓库是数据的主要来源,可以使用查询语言(通常是SQL)来获取结构化数据。数据仓库是专门为组织,理解和利用数据而设计的:它们通常是与运营数据库分离的系统,具有时变结构以及使后续分析工作容易进行的结构,并且大多数重要的是,非

    正文字数(1916) 正文图片数(0) 正文视频数(0) 下载文件数(0)

    ————————————————
    数据的预处理方法 :

    1. 数据获取 获取数据是数据挖掘中最基本的步骤,因为数据本身决定了数据可能包含的知识。数据库和数据仓库是数据的主要来源,可以使用查询语言(通常是SQL)来获取结构化数据。数据仓库是专门为组织,理解和利用数据而设计的:它们通常是与运营数据库分离的系统,具有时变结构以及使后续分析工作容易进行的结构,并且大多数重要的是,非易失性。 可以将获取的数据存档为文件,并直接用于后续过程。它们也可以重新格式化并存储在数据库或数据仓库中,以备将来进行数据挖掘任务时使用。 在过去以及现在,在大多数情况下,无论如何获取数据,我们都将数据获取步骤视为获取数据集的过程。但是,如今,新数据正以极快的速度生成:每天每一秒钟都会创建大量数据。某些服务,例如民意监测和推荐系统,确实需要新生成的数据:它们对准时性有强烈的要求。在这种情况下,“流”的概念比数据集更为重要。流是数据的实时表示。在这个概念下,开发了可以在线运行的模型和算法。对于流挖掘任务,数据获取的目标不再是获取数据集,而是获取实时输入源。

    2. 数据清洗 清洗是关于数据的清洗和预处理,目的是使数据具有统一的格式并易于建模。 至于数据清洗的详细概念和技术,读者可以参考本文的以下部分,因为其中大部分将在数据预处理概述中介绍。

    3. 数据探索 在对数据建模之前,人们可能想了解数据的基本分布,变量之间的相关性以及它们与标签的相关性。可以在此步骤中进行假设。例如,人们可能认为吸烟与肺癌高度相关。这些假设很重要,因为它们将为数据挖掘任务中的其他过程提供指示,包括帮助选择合适的模型,并帮助证明您在解释数据时的工作合理性。 探索数据和验证假设的工具通常是统计分析和数据可视化。统计分析为我们提供了假设不正确的理论概率,即显着性水平,而数据可视化工具(例如ggplot 和D3 )给我们带来了有关数据分布的印象,有助于人们从概念上验证他们的假设。另外,在可视化步骤中可能会发现在假设步骤中被忽略的新模式。

    4. 数据建模 数据源中存在基础模式,通过建模,可以使用数据挖掘模型显式表示模式。对于数据挖掘任务,建模通常会将数据分为训练集和测试集,从而可以在相对“新”的数据集上对模型的准确性进行评分。如果模型包含超参数,例如K近邻居(KNN)模型中的参数k,则将创建交叉验证集以获取最佳的超参数集。 对于大多数数据挖掘模型,需定义损失函数为。通常,如果模型表现良好损失函数值低。此外,它通常具有特殊的功能,例如凸度,这使得基于梯度的优化算法的效果更好。通过可训练的参数,模型的训练步骤是调整参数,以便它的训练数据损失更低。具体定义函数的损失取决于模型本身和任务。分类任务中的回归均方误差和交叉熵是通常采用的损失函数。数据挖掘模型种类繁多;他们的任务包括聚类,分类和回归。模型的复杂性也各不相同:简单的模型(例如线性回归)仅具有少量参数,少量的数据将使训练步骤收敛,而复杂的模型(例如AlexNet)具有数百万个参数,并且它们的训练也需要庞大的数据集。但是,复杂并不意味着更好:应根据任务的预测目标,数据集大小,数据类型等来确定模型。有时,有必要对一个数据集运行不同的模型并找到最合适的数据挖掘模型。

    5. 挖掘知识可视化 尽管先前的步骤通常是纯科学,但解释步骤却更具人文性。 可以从输入数据中提取知识,但是要花费更多的时间才能说服人们接受这些知识。 尽管复杂的统计数据和模型使工作看起来更加专业,但对于外行而言,图表,表格和正确解释的准确性使其更易于理解和接受。 此外,诸如讲故事和表达情商等社交技能也很重要:此过程与人有关,而不与数据有关。

    6.数据转换 数据在不同属性中的表示形式有所不同:有些是分类的,而有些是数字的。对于分类值,它们可以是标称值,二进制或序数;对于数值数据,它们还可以具有不同的统计特征,包括平均值和标准偏差。但是,并非所有类型的数据都能满足数据挖掘模型的要求。同样,数据属性之间的差异可能给随后的数据挖掘模型优化工作带来麻烦。数据转换涉及修改数据的表示形式,以使其有资格成为数据挖掘模型的输入,并使数据挖掘模型的优化算法更容易生效。

    7. 数据降维 数据仓库或数据集中的数据量可能很大,在执行数据挖掘任务时会给数据存储和处理带来困难,而并非每个模型都需要大量的数据来训练。另一方面,尽管数据可能具有很多属性,但可能存在不相关的特征以及特征之间的相互依赖性。数据缩减是一种有助于减少数据集的数量或维数或两者兼有的技术,从而使模型的学习过程更有效,并帮助模型获得更好的性能,包括防止过度拟合问题并修复歪斜的数据分配。


    0 Responses to 2019329621016-韩晓鹏-作业1

    要发布评论,您必须先 登录!