scikit-learn是一个简单高效的Python机器学习框架。scikit-learn基于Numpy、SciPy和Matplotlib构建,可用于数据挖掘、数据分析,包括分类、回归、聚类、数据降维、模型选择和数据预处理。
分类的典型应用为垃圾邮件识别和图像识别。scikit-learn在分类领域支持向量机、最近邻、随机森林等算法。
回归的典型应用为预测药物反应和预测股票价格。scikit-learn在回归领域支持向量回归(SVR),脊回归,Lasso回归等算法。
聚类的典型应用为顾客分组和实验结果分组。scikit-learn在回归领域支持K-均值、谱聚类、均值偏移等算法。
数据降维的典型应用为可视化和性能。
模型选择的典型应用为参数调优。
数据预处理是机器学习的第一步,包括特征提取和归一化。
用户评价
scikit-learn提供了一个工具箱,其中包含一些先进模型的坚实实现,并且很容易集成到现有的应用中。我们在Spotify大量使用scikit-learn推荐音乐。我认为这是我见过的设计最优良的机器学习软件包。
Erik Bernhardsson,Spotify音乐发现和机器学习部门
创建一个分类器通常是一个迭代的过程,包括探索数据,选取特征(某种程度上被认为可用于预测的数据属性),训练模型,最后评估。我们使用基于Python的优秀软件scikit-learn完成其中大量的任务。
Mark Ayzenshtat, Evernote增强智能部门总监
在Booking.com, 我们将机器学习算法用于许多不同的应用,例如推荐旅馆和目的地、识别欺诈性的预订、安排客服。我们使用多种工具实现预测任务的标准算法,scikit-learn是其中之一。scikit-learn的API和文档精良,便于使用。scikit-learn开发者的工作很棒,将先进的实现和最新的算法集成进此软件包。因此,scikit-learn提供了各种算法易于使用的实现,使我们可以很稳妥地找到合适的工具。
Melanie Mueller, Booking.com的数据科学家
安装
scikit-learn依赖以下软件:
Python (>= 2.7 或 >= 3.3)
NumPy (>= 1.8.2)
SciPy (>= 0.13.3)
Matplotlib (>= 1.1.1)
scikit-learn还使用CBLAS,基本线性代数子程序库的C接口。scikit-learn自带一个CBLAS的实现,不过系统的CBLAS会被编译系统检测到。
安装依赖后,可直接使用pip或conda安装scikit-learn:
pip install -U scikit-learn
或
conda install scikit-learn
文档和代码样例
scikit-learn拥有详细的文档:
稳定版文档
开发版文档
FAQ
scikit-learn也拥有丰富的代码样例:
稳定版
开发版
机器人网原创文章,未经授权禁止转载。详情见转载须知
本文来自机器人网,如若转载,请注明出处:https://www.jqr.com/news/008201