译者|核子可乐
出处|AI 前线
我们更新了 Python 下的各大顶级人工智能与机器学习项目。TensorFlow 凭借着三位数的贡献者增长量成为新的冠军,Scikit-learn 虽然跌落至第二,但仍然拥有相当庞大的贡献者群体。
迈入机器学习与人工智能领域绝非易事。考虑到目前市面上存在着大量可用资源,众多怀有这一抱负的专业人士及爱好者往往发现自己很难建立正确的发展路径。这一领域正不断演变,我们必须紧随时代的步伐。为了应对演进与创新带来的压倒性速度,保持机器学习认知与知识积累的最好方法无疑在于同技术社区开展合作,进而为众多顶尖专家所使用的开源项目及工具提供贡献。
在今天的文章当中,我们更新了原有信息,旨在对此前于 2016 年 11 月发布的二十大 Python 机器学习开源项目清单呈现出的趋势作出一番全面整理。
Tensorflow 凭借着三位数的贡献者增长量成为新的冠军,Scikit-learn 虽然跌落至第二,但仍然拥有相当庞大的贡献者群体。相较于 2016 年,各项目的贡献者增长速度分别为:
TensorFlow,增长 169%,由 493 名贡献者增加至 1324 名。
Deap,增长 86%,由 21 名贡献者增加至 39 名。
Chainer ,增长 83%,由 84 名贡献者增加至 154 名。
Gensim,增长 81%,由 145 名贡献者增加至 262 名。
Neon,增长 66%,由 47 名贡献者增加至 78 名。
Nilearn,增长 50%,由 46 名贡献者增加至 69 名。
图一:GitHub 上的二十大 Python 人工智能与机器学习项目。
项目规模与贡献者数量成正比,颜色表示贡献者的数量变化——红色更高。
可以看到,TensorFlow、Theano 以及 Caffe 等深度学习项目目前拥有极高人气。
以下清单整理自 Github 上的贡献者数量,以降序形式排列。感兴趣的朋友亦可点击其中的链接以查看各项目的说明文档页面,并以此为起点开始协作及学习利用 Python 实现机器学习的具体方式。
1.TensorFlow 最初由谷歌公司机器智能研究部门旗下 Brain 团队的研究人员及工程师们所开发。这套系统专门用于促进机器学习方面的研究,旨在显著加快并简化由研究原型到生产系统的转化。贡献者数量增长 168%。
提交数量:28476 次。贡献者数量:1324 名。Github URL:https://github.com/tensorflow/tensorflow。排名变化:+1。
2.Scikit-learn 是一套简单且高效的数据挖掘与数据分析工具,可供任何人群使用,可在多种场景下进行复用,立足 NumPy、SciPy 以及 matplotlib 构建,遵循 BSD 许可且可进行商业使用。贡献数量增长 39%。
提交数量:22575 次。贡献者数量:1019 名。Github URL:https://github.com/scikit-learn/scikit-learn。排名变化:-1。
3.Theano 允许大家高效对关于多维阵列的数学表达式进行定义、优化与评估。贡献者数量增加 24%。
提交数量:27931 次。贡献者数量:327 名。Github URL:https://github.com/Theano/Theano。排名变化:0。
4.Gensim 是一套自由 Python 库,其中包含可扩展统计语义、纯文本文档语义结构分析、语义相似性检索等功能。贡献者数量增加 81%。
提交数量:3549 次。贡献者数量:262 名。Github URL:https://github.com/RaRe-Technologies/gensim。排名变化:+1。
5.Caffe 是一套深度学习框架,主要面向表达、速度与模块化等使用方向。此框架由伯克利大学视觉与学习中心(简称 BVLC)以及社区贡献者共同开发完成。贡献者数量增加 21%。
提交数量:4099 次。贡献者数量:260 名。Github URL:https://github.com/BVLC/caffe。排名变化:-1。
6.Chainer 是一套基于 Python 的独立开源框架,专门面向各类深度学习模型。Chainer 提供灵活、直观且高效的手段以实现全面的深度学习模型,其中包括递归神经网络以及变分自动编码器等最新模型。贡献者数量增加 84%。
提交数量:12613 次。贡献者数量:154 名。Github URL:https://github.com/chainer/chainer。排名变化:+3。
7.Statsmodels 是一套 Python 模块,允许用户进行数据探索、统计模型评估并执行统计测试。其提供包含描述统计、统计测试、绘图功能以及结果统计的广泛列表,适用于各种不同类型的数据与估算工具。贡献者数量增加 33%。
提交数量:9729 次。贡献者数量:144 名。Github URL:https://github.com/statsmodels/statsmodels/。排名变化:0。
8.Shogun 是一款机器学习工具集其中提供多种统一且高效的机器学习(简称 ML)方兴未艾。这套工具集能够以无缝化方式对多种数据表达、算法类以及通用型工具加以组合。贡献者数量增加 33%。
提交数量:16362 次。贡献者数量:139 名。Github URL:https://github.com/shogun-toolbox/shogun。排名变化:0。
9.Pylearn2 是一套机器学习库。其主要功能以 Theano 为实现基础。这意味着大家可以利用数学表达式编写 Pylearn2 插件(新模型以及算法等),而 Theano 将对这些表达式进行优化与稳定调整,并将其编译至您所选定的后端(CPU 或 GPU)。贡献者数量增加 3.5%。
提交数量:7119 次。贡献者数量:119 名。Github URL:https://github.com/lisa-lab/pylearn2。排名变化:-3。
10.NuPIC 是一个开源项目,基于所谓新皮层理论中的分层时间记忆(特立独行 HTM)概念。HTM 理论中的部分内容已经在现实层面得到应用、测试以及使用,而该理论的其余部分则仍处于开发阶段。贡献者数量增加 12%。
提交数量:6588 次。贡献者数量:85 名。Github URL:https://github.com/numenta/nupic。排名变化:0。
11.Neon 为 Nervana 的基于 Python 的深度学习库。其在实现易用性的同时,亦可提供极高的性能表现。贡献者数量增加 66%。
提交数量:1112 次。贡献者数量:78 名。Github URL:https://github.com/NervanaSystems/neon。排名变化:0。
12.Nilearn 是一套 Python 模块,用于对 NeroImaging 数据进行便捷学习。其利用 scikit-learn Python 工具集进行多变量统计,并可提供预测建模、分类、解码或者连接分析等应用选项。贡献者数量增加 50%。
提交数量:6198 次。贡献者数量:69 名。Github URL:https://github.com/nilearn/nilearn。排名变化:0。
13.Orange3 是一套同时面向新手与专家的开源机器学习与数据可视化方案。其中的大规模工具集可实现交互数据分析工作流。贡献者数量增加 33%。
提交数量:8915 次。贡献者数量:53 名。Github URL:https://github.com/biolab/orange3。排名变化:0。
14.Pymc 是一款 Python 模块,可实现贝叶斯统计模型与拟合算法,包括马尔可夫链蒙特卡洛算法。其出色的灵活性与可扩展性使其适用于多种任务。贡献者数量增加 6%。
提交数量:2721 次。贡献者数量:39 名。Github URL:https://github.com/pymc-devs/pymc。排名变化:0。
15.Deap 是一种用于快速原型设计与思路测试的新型进化计算框架。其目标在于提升自满的明确度与数据结构的透明性。其与多进程及 SCOOP 的并行机制能够完美契合。贡献者数量增加 86%。
提交数量:1960 次。贡献者数量:39 名。Github URL:https://github.com/deap/deap。排名变化:+4。
16.Annoy (全称为近似最近毗邻) 是一套 C++ 库,且绑定有 Python 以搜索空间当中与给定查询点相信的各点。其亦可创建基于文件的大型只读数据结构并将其映射至内存当中,从而实现多进程间共享相同数据。贡献者数量增加 46%。
提交数量:527 次。贡献者数量:35 名。Github URL:https://github.com/spotify/annoy。排名变化:+2。
17.PyBrain 是一套面向 Python 的模块化机器学习库,其目标在于为各类机器学习任务及多种预定义环境提供灵活且易于使用的强大算法,从而测试并比较各类算法。贡献者数量增加 3%。
提交数量:992 次。贡献者数量:32 名。Github URL:https://github.com/pybrain/pybrain。排名变化:-2。
18.Fuel 是一套数据管道框架,旨在为您的机器学习模型提供其需要的数据。该项目原本专供 Blocks 与 Pylearn2 神经网络库使用。贡献者数量增加 10%。
提交数量:1116 次。贡献者数量:32 名。Github URL:https://github.com/mila-udem/fuel。排名变化:-2。
19.PyMVPA 是一套 Python 工具包,旨在简化对大型数据集的统计学习分析流程。其提供一套扩展框架,可通过一套高级接口实现分类、回归、特征选择、数据导入与导出等多种算法。贡献者数量增加 8%。
提交数量:9373 次。贡献者数量:28 名。Github URL:https://github.com/PyMVPA/PyMVPA。排名变化:-2。
20.Pattern 是一套面向 Python 编程语言的 Web 挖掘模块。其捆绑多款工具,可用于数据挖掘(谷歌 +Twitter+ 维基百科 API、Web 爬取器、HTML DOM 解析器)、自然语言处理(词性标注器、n-gram 搜索、情感分析、WordNet)、机器学习(向量空间模型、k-means 聚类、朴素贝叶斯 +k-NN+SVM 分类器)以及网络分析(图形中心性与可视化)。贡献者数量减少 5%。
提交数量:968 次。贡献者数量:19 名。Github URL:https://github.com/clips/pattern。排名变化:0。
以上贡献者与提交次数数据截至 2018 年 2 月 13 日。
原文链接:https://www.kdnuggets.com/2018/02/top-20-python-ai-machine-learning-open-source-projects.html
评论留言