Python机器学习
Python机器学习详细操作教程
机器学习(ML)基本上是计算机科学领域,计算机系统可以像人类一样提供对数据的感知。简而言之,ML是一种人工智能,可以通过使用算法或方法从原始数据中提取模式。ML的重点是允许计算机系统从经验中学习,而无需进行明确的编程或人工干预。
对于对本学科感兴趣或将其作为课程一部分的研究生,研究生和研究型学生,本教程将非常有用。读者可以是初学者或高级学习者。本教程已为学生和专业人士准备,可以迅速提高。本教程是您机器学习之旅的垫脚石。
读者必须具有人工智能的基础知识。他/她还应该了解Python,NumPy,Scikit-learn,Scipy和Matplotlib。如果您不熟悉这些概念,我们建议您先学习有关这些主题的教程,然后再进一步学习本教程。
我们生活在一个"数据时代",该时代具有更好的计算能力和更多的存储资源。这些数据或信息每天都在增加,但真正的挑战是要理解所有数据。企业和组织正在尝试通过使用来自数据科学,数据挖掘和机器学习的概念和方法构建智能系统来应对它。其中,机器学习是计算机科学中最令人兴奋的领域。如果我们将机器学习称为可以为数据提供意义的算法的应用和科学,那就没错。
什么是机器学习?
机器学习(ML)是计算机科学领域,计算机系统可以像人类一样提供对数据的感知。
简单来说,ML是一种人工智能,它通过使用算法或方法从原始数据中提取模式。 ML的主要重点是允许计算机系统从经验中学习,而无需进行明确的编程或人工干预。
机器学习的需要
目前,人类是地球上最聪明,最先进的物种,因为他们可以思考,评估和解决复杂的问题。另一方面,人工智能还处于起步阶段,在很多方面都没有超越人类的智慧。然后的问题是,使机器学习需要什么?这样做的最合适的理由是"根据数据高效高效地做出决策"。
最近,组织正在大量投资于人工智能,机器学习和深度学习等较新的技术,以从数据中获取关键信息,以执行一些实际任务并解决问题。我们可以称其为机器做出的数据驱动决策,尤其是使流程自动化的决策。在无法固有编程的问题中,可以使用这些数据驱动的决策来代替编程逻辑。事实是,我们离不开人类的智慧,但另一方面,我们都需要高效地解决现实问题。这就是为什么需要机器学习的原因。
为什么以及何时使机器学习?
我们已经讨论了机器学习的必要性,但另一个问题是,在什么情况下必须使机器学习?在某些情况下,我们需要机器来高效,大规模地进行数据驱动的决策。以下是使机器学习更加有效的一些此类情况。
缺乏专业知识
我们想要机器学习并执行以数据为依据的决策的第一个场景可能是缺乏专业知识的领域。示例可以是在未知地区或太空星球中的导航。
动态场景
有些场景本质上是动态的,即随着时间的推移不断变化。在这些情况和行为的情况下,我们希望机器学习并采取以数据为依据的决策。一些示例可以是组织中的网络连接性和基础结构的可用性。
难以将专业知识转化为计算任务
人类可以在各个领域拥有自己的专业知识;但是,他们无法将这种专业知识转化为计算任务。在这种情况下,我们需要机器学习。这些示例可以是语音识别,认知任务等领域。
机器学习模型
在讨论机器学习模型之前,我们必须了解由Mitchell教授给出的ML的以下正式定义-
"据说计算机程序可以从经验E中学习有关某类任务T和绩效指标P的信息,如果计算机对T中的任务的绩效(由P衡量)随着经验E的提高而得到改善。"
以上定义基本上集中于三个参数,也是任何学习算法的主要组成部分,即Task(T),Performance(P)和Experience(E)。在这种情况下,我们可以将该定义简化为-
ML是AI的一个领域,其中包括-
提高他们的表现(P)
执行某些任务(T)
随着时间的推移经验(E)
基于上述内容,下图表示机器学习模型-
让我们现在更详细地讨论它们-
任务(T)
从问题的角度来看,我们可以将任务T定义为要解决的现实问题。问题可能是诸如在特定位置找到最佳房价或找到最佳营销策略之类的东西。另一方面,如果我们谈论机器学习,则任务的定义是不同的,因为很难通过以下方式解决基于ML的任务常规编程方法。
当任务T基于流程并且系统必须遵循以对数据点进行操作时,它被称为基于ML的任务。基于ML的任务包括分类,回归,结构化注释,聚类,转录等。
经验(E)
顾名思义,它是从提供给算法或模型的数据点获得的知识。一旦提供了数据集,该模型将迭代运行并学习一些固有模式。这样获得的学习称为经验(E)。与人类学习进行类比,我们可以认为这种情况是人类正在学习或从各种属性(如情况,关系等)中获得经验。有监督,无监督和强化学习是学习或获得经验的一些方法。将从ML模型或算法中获得的经验用于解决任务T。
性能(P)
机器学习算法应该随着时间的流逝执行任务并获得经验。衡量ML算法是否按预期执行的指标是其性能(P)。 P基本上是一个定量指标,使用其经验E来告诉模型是如何执行任务T的。有许多指标有助于理解ML性能,例如准确性得分,F1得分,混淆矩阵,精度,召回率,灵敏度等。
机器学习中的挑战
虽然机器学习正在迅速发展,并且在网络安全和自动驾驶汽车方面取得了长足的进步,但整个AI领域仍有很长的路要走。背后的原因是ML无法克服许多挑战。 ML当前面临的挑战是-
数据质量-为ML算法获得高质量的数据是最大的挑战之一。使用低质量的数据会导致与数据预处理和特征提取相关的问题。
耗时的任务-ML模型面临的另一个挑战是时间的浪费,特别是在数据获取,特征提取和检索方面。
缺乏专家-由于机器学习技术仍处于起步阶段,因此专家资源的获取是一项艰巨的任务。
没有明确的解决业务问题的目标-ML没有另一个明确的目标和明确的业务问题目标,因为该技术尚未成熟。
过度拟合和不足拟合的问题-如果模型过度拟合或不足拟合,则无法很好地解决问题。
维的诅咒-ML模型面临的另一个挑战是数据点的特征太多。这可能是一个真正的障碍。
部署困难-ML模型的复杂性使得在现实生活中难以部署。
机器学习的应用
机器学习是发展最快的技术,根据研究人员的说法,我们正处于AI和ML的黄金年。它用于解决许多传统方法无法解决的现实世界中的复杂问题。以下是ML的一些实际应用-
情感分析
情绪分析
错误检测与预防
天气预报和预测
股票市场分析和预测
语音合成
语音识别
客户细分
对象识别
欺诈检测
防欺诈
在线购物中向客户推荐产品