本文将常见的算法分析工具分为数据预处理分析工具和数据挖掘工具两大类。算法分析工具常见的有七种,分别是Microsoft Excel、SpreadDesginer、Google Sheets、EDM Workbench 、R-Programming、Python、Content Grabber这七种工具的比较见表1。数据挖掘工具常见的7种分别是OpenRefine、Rapidminer、Weka、NodeXL、Gephi、Storm、Plotly,这七种工具的比较见表2。
1.数据预处理工具的比较
(1)Microsoft Excel
Microsoft Excel主要用于小规模的特征工程。Excel可以进行各种数据的处理、统计分析和辅助决策等操作。它具有可视化功能,软件内部提供了可以使用的数据图,函数透视表。Excel的VBA功能是Excel的最大特色,使其具有了独立的编程环境,满足了研究人员自行创建的需求。如果不考虑Excel的性能、可加载性和可运行的数据量,那么它可以用来处理绝大部分的分析工作。但Excel在数据图的设置功能有限,很难制作出满足专业网站和大公司的需求。
(2)SpreadDesginer
SpreadDesginer兼容了Excel环境,支持NET.Framework 4.0系统,有丰富的图表效果。SpreadDesginer有自由使用的公式引擎,操作人员可以利用内建函数和代码的基础上建立自身需要的模块。研究者可以在基于SpreadDesginer工具表的数据直接生成图表,操作简单方便。同时相对于EXCEL而言,SpreadDesginer安装免费,绿色解压,部署分发也是免费提供,还有可定制功能。
(3)Google Sheets
Google Sheets是一款免费的、有丰富的计算功能的共享在线表格,可以通过精美直观的表格可视化呈现数据。在GA中无法收集到的数据,研究者可以建立自定义维度对数据进行收集然后做相应的分析,所以Google Sheets很容易识别数据中的结构和语义问题。然而Google Sheets和Excel在创建功能时需要对不同的数据汇总,导致数据会被多次分类和重新排序,而且两者中常见的操作符也会进一步降低性能。
(4)EDM Workbench
EDM Workbench主要用于自动化过滤和数据标记数据的工具。支持数据采样,处理和数据可靠性的检测。它弥补了Google Sheets和Excel的不足,可进行大规模的工程设计。EDM Workbench有基于xml创建的功能,在教育行业可以利用它的文本回放、智能辅导系统实时跟踪学生学习的情况和操作行为的正确性。
(5)R-Programming
R-Programming其实是S语言的一个分支。主要功能有数据存储和运算处理,在向量、矩阵运算方面功能非常强大;支持完整连贯的统计分析;有强大的制图功能;编程语言简单易上手;支持数据的分支、循环、用户可自定义等功能。R提供了若干统计程序,使用者利用数据库和参数便可自行创建符合需要的统计计算方法。R-Programming也支持线性和非线性建模和时间序列分析等功能。这使其在统计领域得到了广泛应用。
(6)Python
Python是一个具有解释性、编译性、互动性和面向对象等特征的脚本语言。具有特色的语法结构,可读性较强。Python有明确定义的语法,结构简单,易于理解和阅读;其代码定义的清晰,可维护性强;与UNIX,Windows、Macintosh平台之间的兼容高;支持从终端输入执行代码并获得结果的语言,互动的测试和调试代码片断。它不仅可以添加通知消息到用户窗口反映批量数据处理进程,而且可以将输出信息重点标注。python可以利用C或C++完成复杂代码的编写,然后再调用,可扩展性较强。其嵌入到其他程序的共鞥你,让用户获得"脚本化"的能力。
(7)Content Grabber
Content Grabber是一个支持智能收集数据的软件。它的程序运行环境可用在开发、测试和产品服务器上。Content Grabber支持C#或VB.NET来调试或编写脚本来控制爬虫程序,并添加第三方扩展插件。凭借其全面综合的功能,Content Grabber对于具有技术基础的用户而言功能极其强大。
2.数据挖掘工具的比较
(1)OpenRefine
OpenRefine(以前是谷歌Refine)是一款高人气数据分析工具,适用于各类与分析相关的任务。支持数据清洗,支持将数据从一种格式转换为另一种格式,并使用web服务和外部数据对其进行扩展,这意味着用户可以拥有多种不同数据类型及名称。这款工具主要用来处理混乱的数据,能够利用其强大的聚类算法完成条目分组,使网页上杂乱数据标准化、规范化。同时,OpenRefine总是能将您的数据保持在自己的计算机上私有,直到您想要共享或协作为止。
(2)Rapidminer
RapidMiner是集数据挖掘,机器学习,预测分析和商业智能为一体的可视化工具软件,包括文本挖掘、多媒体挖掘、功能设计、数据流挖掘、集成开发方法和分布式数据分析等功能。RapidMiner是一款开源数据软件,和KNIME一样,具有强大的可视化编程机制。它兼容了 WEKA的集成环境,为用户提供了关于数据集成、转换和建模的最全面的机器学习解决方案;它通过开源平台为用户免费提供了大量的数据抽取功能。用户可以使用Java 代码,借用 GUI 模式或Java API 进行操作,也可以用简单脚本语言自动进行大规模进程操作使分析过程具有极大的灵活性和扩展性;Rapidminer与不同版本的CDH集成,包括同一平台的不同的版本。
(3)Weka
Weka是一款开源的数据挖掘工具软件,具有可视化特征。其操作简便,运行较快,主要用于小规模的机器学习建模工程。WEKA出了具有基本的数据分析功能,而且在新的交互式界面上是可视化的。此外,WEKA 可以根据实际的数学模型或 PMML (Predictive Modeling Markup Language)文件生成相应的模型,用于评分插件。同时,WEKA可以基于Java 编程语言进行操作,丰富了其运算平台的选择。不足之处在于:它不提供与大数据平台的集成;用户仅可以选择功能,但不支持创建新功能。
(4)NodeXL
NodeXL它是用于微软Excel的一个开源软件包。其受分析速度慢的限制,主要适用于小规模的数据处理工程。作为Excel的附加扩展,它没有数据集成服务的功能,更多的应用于社交网络分析。其高级网络指标、对社交媒体网络数据导入器的访问以及自动过滤数据的可视化等功能使其成为了用户选择数据分析工具的重要因素之一。
(5)Gephi
Gephi是一款在NetBeans平台上用Java编写的开源网络分析和可视化的软件包。Gephi通过提供精确的计算使得再LinkedIn或Facebook上面的社交联系有更加精确的指标展现。它除了复杂网络的分析意外,还可以对数据进行实时的动态分析、时段动态分析、无标度网络分析等探索以及分层图示等可视化操作。同时,它在链接分析、社交网络分析、 生物网络分析和新媒体分析等方面,具有较强的多媒体展示功能。
(6)Storm
Storm来自Apache的Storm是一款伟大的实时计算系统,能够极大强化无限数据流的处理效果。其亦可用于执行多种其它与大数据相关的任务,具体包括分布式RPC、持续处理、在线机器学习以及实时分析等等。使用Storm的另一大优势在于,其整合了大量其它技术,从而进一步降低大数据处理的复杂性。Storm之所以可以实时处理数据,是因为实时流处理、使用zk协调功的主从架构,每秒处理数万消息的吞吐量也不会主动停止。同时也提供了简单容易理解的接口,便于用户开发。
(7)Plotly
Plotly是一个交互式的、开源的绘图库库,Python库则是它的一个重要分支。这是一款数据可视化工具,现已支持超过40种独特的图表类型,涵盖了广泛的统计、金融、地理、科学和三维用例。Plotly可兼容多种语言,比如,Plotly通过Java构建,能基于Web显示实现交互式的可视化效果,甚至能够帮助不具备代码编写技能或者时间的用户完成动态可视化处理。所以它的图形呈现可以方便的显示于Jupyter notebook(基于html)、独立的html中、更可以通过Plotly官方强推的dash实现web页面的直接生成。Plotly在非web环境中同样强大,包括桌面编辑器(QtConsole、Spyder、PyCharm)和静态文档的发布。
学习元评论 (0条)
聪明如你,不妨在这 发表你的看法与心得 ~