今天,投资过Google,Oracle,Salesforce,Linkedin等公司的硅谷传奇风险投资机构Battery Ventures在TechCrunch上发布了自己对热门开源项目和开源社区的研究和思考,并且从几个不同角度综合为40个最流行的开源项目进行了排名
当今很多最新最热面向企业的技术核心都是免费“开源”的技术。于是很多大公司,从金融巨头到零售也到服务公司,都把他们的业务围绕着全新的,基于社区的技术,这些技术与过去的IT实践的天壤之别。
不过企业客户和投资者们要如何评估这些开源项目呢?他们如何分别哪些项目(通常有这奇怪的名字:Ansible,Vagrant,Gradle)能产生最多的用户使用趋势?哪些被最多的软件开发者追捧,哪些又有最多的市场份额潜力?
这些问题尤其难回答,因为大部分开源公司依然是私有公司,所以并不需要披露关键的用户和财务数据(不过这一点也正在改变,开源剧透Cloudera最近公布了上市计划,此举让市场更加注意开源技术)
这也是为什么我们决定创建一个新的,详尽的指数来跟踪流行的开源软件项目,同时得到一些关于使用这些开源技术的公司的洞察。我们引入这个被称为Battery开源软件指数(BOSS Index)的指数,为之我们花了数月的时间公开的信息整理好。我们希望每季度更新这个指数,而且它随着更多的使用这些项目开源公司上市,这个指数会变得越来越准确。
指数包含了40个开源项目,都是从Github和Datamation的开源项目列表中挑选出来。前25位在下面的表中,全部列表可以在我们的网站上找到。
我们着重关注企业级IT相关的领域,诸如IT运营,包括技术驱动的运营和服务开通系统;数据和分析,包括人工智能,机器学习和数据库的相关工具;DevOps,包括关注最新的“容器”技术趋势,这种技术可以帮助开发者在指定的环境中快速开发。
THE BATTERY OPEN-SOURCE SOFTWARE INDEX | |||||
排名 | 项目名 | 综合项目评分 | 领域 | 相关公司 | 源代码阅读 |
1 | Linux | 100.00 | IT Operations | Red Hat, Ubuntu | |
2 | Git | 31.10 | DevOps | GitHub, GitLab | |
3 | MySQL | 25.23 | Data & Analytics | Oracle | |
4 | Node.js | 22.75 | DevOps | NodeSource, Rising Stack | |
5 | Docker | 22.61 | DevOps | Docker | |
6 | Hadoop | 16.19 | Data & Analytics | Cloudera, Hortonworks | |
7 | Elasticsearch | 15.72 | Data & Analytics | Elastic | |
8 | Spark | 14.99 | Data & Analytics | Databricks | |
9 | MongoDB | 14.68 | Data & Analytics | MongoDB | |
10 | Selenium | 12.81 | DevOps | Sauce Labs, BrowserStack | |
11 | NPM | 12.31 | DevOps | NPM | |
12 | Redis | 11.61 | Data & Analytics | Redis Labs | |
13 | Tomcat | 11.04 | IT Operations | NA | |
14 | Jenkins | 10.47 | DevOps | CloudBees | |
15 | Vagrant | 8.15 | IT Operations | HashiCorp | |
16 | Postgres | 8.02 | Data & Analytics | EnterpriseDB | |
17 | Gradle | 7.68 | DevOps | Gradle | |
18 | Nginx | 7.57 | IT Operations | Nginx | |
19 | Ansible | 7.42 | IT Operations | Ansible | |
20 | Kafka | 7.22 | Data & Analytics | Confluent | |
21 | GitLab | 6.42 | DevOps | GitLab | |
22 | Hbase | 6.41 | Data & Analytics | Cloudera, Hortonworks | |
23 | Chef | 6.37 | IT Operations | Chef* | |
24 | TensorFlow | 5.97 | Data & Analytics | ||
25 | Cassandra | 5.74 | Data & Analytics | DataStax |
名单中有一些众所周知的名字,包括那些催生了一些大公司的项目,有Linux,衍生出了Red Hat;MySQL,衍生出了同名公司,这家公司后来被Sun Microsystems在2008年以10亿美元收购(现在被Oracle并购了);以及Hadoop,衍生出了Cloudera和Hortonworks。
不过也有些较为陌生的名字,比如Selenium,也排名很高,说明在开源社区中有很多草根的创新而且很多也在孕育新的公司。不过,我们的研究也表明,开源项目拥有很多用户并不一定代表也可以有商业上可行的公司。
我们按照以下四点为这些项目排名:
- 公众兴趣,以Google搜索活动来衡量
- 用户活跃度,以项目在注明技术讨论社区Stack Overflow上被提到的次数衡量
- 职业影响力,以工作网站Indeed和Simply Hired上提到这些开源项目的工作数量来衡量
- 开源社区中的影响力,以项目在Github上的影响力来衡量。具体说,我们追踪了项目被“分支”的数量;被Github上标星的数量;以及被观察的数量,数据更新到2017年2月9日。
因为有些项目在某一点上做的极好,或者极差 - 比如有个项目有这傲视群雄的Google搜索数据但是职位数量却不怎么样 - 我们去掉了每个项目最好和最差的单项得分。这种统计方法被叫做“切尾均值”,有点类似于奥运会上体操项目的打分(我们团队里并没有东德裁判,但是我们还是得小心点)
编者注:这里原文作者提到的梗的是1988年汉城奥运会上美国体操队受到了来自
即便如此,我们总还是有进步的空间。有些采纳度和流行度的标准,比如下载数量,显然很难衡量,而且我们也肯定没有抓到所有的最新最热的工具。不过随着我们每季度更新数据,我们应该能捕捉到最新的行业领袖。所有我们希望慢慢能从开源社区中听取意见来提高我们的指数。如果你对指数有更好的想法欢迎邮件到opensource@battery.com
下面是基于我们研究的一些重要的结论.
Linux, Git和MySQL傲视群雄
应该不太让人惊讶,在我们的指数上夺冠的开源项目是Linux,这个1991年被第一次发布从此成为最被广泛采纳的开源项目之一。它被几家公司商业化了,其中包括Red Hat,为数不多的几家上市的开源公司,以及Ubuntu和SUSE。
我们的第二名Git,激发了Github和Gitlab两家公司的出现。这个及其流行的开源项目是一种“版本控制系统”,用来追踪变动和协调软件开发者之间的工作。
高居第三位的MySQL是一个1995年被开发的开源技术。MySQL目前帮助Google,Facebook和Twitter这样的大型Web端铲平的公司。不过要注意的是有一些“NoSQL”的项目也排名靠前。
这些NoSQL的技术包括MongoDB,排名第九,正在被Redis Labs商业化的Redis排名12;Cassandra排名25,被数据库公司DataStax所支持; Elasticsearch在第七位,目前在被Elastic公司商业化。
MongoDB在2015年末进行了最新一轮融资 - 公司现在估值大概是15亿美金 - 现在正跟像甲骨文,IBM和微软这样的巨头在数据库领域竞争。总的来说,这几个NoSQL的供应商都在彼此独立的成长,而不是合并成一个大的系统。这也预示着今后数据基础架构领域会更加碎片化,几个NoSQL领域的强者在未来也能成为上市公司。
大数据驱动开源
随着很多机构都在努力管理海量的结构化和非机构化数据 -- 由从安全软件到tweet到工厂中联网的传感器产生 -- 它们日益需要新的数据管理和存储系统。这个趋势在我们的Index中也有所体现。40个项目中有15个都是帮助数据库和数据处理的项目。
前面提到的Hadoop就是这样的项目。另一个是被Databricks正在商业化的Spark,排名第8。
另一些值得一提的项目
Other names to know
Docker,容器技术领域的宠儿,能帮助软件开发更快更有效,在我们的指数中排名第五。很多人都认为Docker是巨头VMware的可能替代者,而且Docker能够容易又廉价的在开源社区中使用更是加速了它的采用。
Docker也在和诸如排名第33的Google的Kubernetes,以及软件开发中的制编配层的Mesos正在竞争。
另一个很热的开源方向是“持续集成和持续交付”,一种将开发的代码不断的和别的平台整合的能力。这个领域的工具包括Jenkins,目前正被CloudBee商业化,以及TravisCI。同样在DevOps相关的技术包括Maven(排名30),以及高速成长的二进制管理软件Artifactory,正在被JFrog商业化。
商业化之路
正如我们之前所说,用户数量众多虽然对于最终取得商业增长至关重要,但并不一定保证开源项目就一定能变成好的商业项目。好的商业项目还需要更多的工作和创新,特别是需要创造出新的商业模式;合理利用复杂的开源许可证;对传统的企业销售时间做出适合开源项目的调整,正如我们去年在TechCrunch上讨论过的一样。
另外,我们发现如果基于开源项目的IT企业能提供多种开源技术并且把他们组成一个技术栈,那么这些企业商业成功就会增加。比如Elastic就有“ELK”技术栈,包括开源的Elasticsearch(排名第7),Kibana(排名36),和Logstash(排名29)
时间序列数据库公司InfluxData,类似的也有TICK技术栈,代表Telegraf,InfluxDB,Chronograh和Kapacitor。最后一个例子是DevOps公司HashiCorp,也商业化了很多开源项目,包括我们名单上的Vagrant(排名15)和Vault(排名40)。软件开发者喜欢从这些技术栈中选取他们最喜欢的组件,这也和当今软件开发领域的“最佳组合”思路相契合。
这些开源项目不再是你父辈的Sun或者甲骨文这样的公司。不过很清楚的一点是,跨国公司的CIO们,包括我们在名单里提到的一些,需要依靠这些开源技术来运行他们的技术架构,而且这些项目都是会长期存在的。确实,从我们去年举办的开源峰会来看,从高盛到CapitalOne的IT高管们都纷纷表示他们的“开源为先”态度。而随着接下来几年开源公司们纷纷上市,我们能得到更多的这些领先的项目的表现和对于产业的影响。