• 学习分析工具比较研究

    普通类
    • 支持
    • 批判
    • 提问
    • 解释
    • 补充
    • 删除

    摘要:近年来,教育领域伴随着大数据时代的来临积累了海量数据,如何利用这些数据挖掘出有价值的信息、知识并为教学决策和学习优化提供服务引起了学术界的广泛关注。学习分析技术应用而生,学习分析工具也如雨后春笋般出现,并成为了研究热点。本文从多个角度对学习分析工具进行了划分,并从专门程度、使用环境、数据支持格式、可视化、是否开源、工具自身成熟度、使用难易度,使用成本等维度进行详细比较,主要讨论 应用广泛的学习分析工具的特点,旨在为研究学习分析的教育实践者提供参考。

    关键字:学习分析;工具;比较;研究

    • 一、引言

          大数据的发展催生了学习分析。学习分析技术是“测量、收集、分析和报告有关学习机器学习环境的数据,用以理解和优化学习及产生的环境的技术”(Knewton,2011)。随着教育信息化的发展和在线学习方式的普及,学习分析已经成为了教育领域的研究热点。美国新媒体联盟(New Media Consortium,NMC)发布《地平线报告(高等教育版)》,并将学习分析列为促进学习的关键技术。以“学习分析”为主题的“学习分析技术与知识国际会议”迄今也已召开了六次,对学习分析技术的发展起了推动性的重要作用。

           学习分析工具目前已有很多,且仍在快速发展中。例如,WEAK、KNIME、SASS是数据统计工具, Nvivo 、CATPAC、Atlast是支持文本标注或评论的工具,Tableau、D3.js是可视化分析工具等。同时,不同的研究者根据自己的理解和实践基础,给出了不同的分类。李青等人更具学习工具专用度,将学习分析工具分为专用工具和通用工具,郭炯等人根据学习分析工具服务对象的不同,将学习分析工具分为了支持教师教学的学习分析工具、支持学生学习的学习分析工具和支持教育决策的学习分析工具三大类,王琴紫等人根据学习结果的呈现方式,将学习分析工具分为了可视化和非可视化工具。本文综述了当前学习分析领域中30多种最为常用的工具,并从多个角度对学习分析工具进行了分类,讨论了其各自的特点和功能,旨在为研究学习分析的教育实践者提供参考。

     

     

    • 二、学习分析工具的分类

            学习分析工具在不同的领域,研究者都有不同的分类。本文根据学习分析工具应用于教育领域的种类,将其分为:算法分析工具,文本处理工具,支持个性化教与学的分析工具四大类。

    (一)算法分析工具

          算法分析工具是指可以对数据进行预处理、聚合、分类和回归等操作的工具。本文根据算法工具的主要处理功能将其分为两大类进行对比研究,分别是数据预处理工具和数据挖掘工具。利用数据预处理工具实现数据的清理、分类、标准化和统一化等需求,而数据挖掘工具主要是将预处理工具处理好的数据进行做相应的研究分析,从而挖掘出研究需要的有价值信息。

    (二)文本分析工具

           随着互联网的发展,各行各业开始利用产生的海量数据进行分析,例如,教育行业的论文学术分析、在线学习的行为分析,学习平台的评论分析等等。文本分析工具主要是通过读取文本,语义分析,自动聚类,编码和标记等操作来进行信息的挖掘和特征的提取。最后将统计分析的结果利用可视化图表进行展示。

    (三)行为分析工具

           近年来,由于数据分析的快速发展及其工具种类的精细化,不仅是商业领域逐渐出现了对自己用户行为进行数据分析,教育领域也利用这些行为分析软件对人机交互过程中的数据进行分析。行为分析工具主要是对学习者登录系统的时间和次数学习的进度、作业完成情况进行系统自动捕获记录。通过监测学习者访问系统的行为,深度挖掘学习者的学习轨迹学习特征,从而优化教学,为个性化的教学提供可能。

    (四)情感分析工具

              目前,自然语言处理是最为常见的情感分析方法,特别是在以提取文本的情感内容为目标的分类方法中。对文本内容做情感分析是通过情感得分指标来量化定性数据的过程。通过对评论观点的倾向分析,有利于企业为用户提供全方位的服务,方便用户进行决策。然而在教育领域中对学习平台上发表的言论进行情感分析,有利于把握学习者对知识点、课程安排、教学方法等方面流露出的情感倾向变化,从而有利于授课者改变教学策略,为学习者提供丰富、有趣的教学内容。

    (五)可视化分析工具

            上面介绍的四种工具都是通过一系列的数据分析来帮助研究人员挖掘出研究需要的相关信息。对于普通非专业人员而言,数据的可读性不高,而数据可视化的分析本质就是视觉的对话,让技术与艺术完美结合,通过借助图形化的手段,清晰有效地增加的信息的传达。可以说可视化让数据更加灵动,让研究者从数据中提取有价值信息更加快捷、方便,让决策者更有把握的做决定。

    • 三、算法分析工具的比较

           本文将常见的算法分析工具分为数据预处理分析工具和数据挖掘工具两大类。算法分析工具常见的有七种,分别是Microsoft Excel、SpreadDesginer、Google Sheets、EDM Workbench 、R-Programming、Python、Content Grabber这七种工具的比较见表1。数据挖掘工具常见的7种分别是OpenRefine、Rapidminer、Weka、NodeXL、Gephi、Storm、Plotly,这七种工具的比较见表2。

    1.数据预处理工具的比较

    (1)Microsoft Excel

    Microsoft Excel主要用于小规模的特征工程。Excel可以进行各种数据的处理、统计分析和辅助决策等操作。它具有可视化功能,软件内部提供了可以使用的数据图,函数透视表。Excel的VBA功能是Excel的最大特色,使其具有了独立的编程环境,满足了研究人员自行创建的需求。如果不考虑Excel的性能、可加载性和可运行的数据量,那么它可以用来处理绝大部分的分析工作。但Excel在数据图的设置功能有限,很难制作出满足专业网站和大公司的需求。

    (2)SpreadDesginer

          SpreadDesginer兼容了Excel环境,支持NET.Framework 4.0系统,有丰富的图表效果。SpreadDesginer有自由使用的公式引擎,操作人员可以利用内建函数和代码的基础上建立自身需要的模块。研究者可以在基于SpreadDesginer工具表的数据直接生成图表,操作简单方便。同时相对于EXCEL而言,SpreadDesginer安装免费,绿色解压,部署分发也是免费提供,还有可定制功能。

    (3)Google Sheets

            Google Sheets是一款免费的、有丰富的计算功能的共享在线表格,可以通过精美直观的表格可视化呈现数据。在GA中无法收集到的数据,研究者可以建立自定义维度对数据进行收集然后做相应的分析,所以Google Sheets很容易识别数据中的结构和语义问题。然而Google Sheets和Excel在创建功能时需要对不同的数据汇总,导致数据会被多次分类和重新排序,而且两者中常见的操作符也会进一步降低性能。

    (4)EDM Workbench  

           EDM Workbench主要用于自动化过滤和数据标记数据的工具。支持数据采样,处理和数据可靠性的检测。它弥补了Google Sheets和Excel的不足,可进行大规模的工程设计。EDM Workbench有基于xml创建的功能,在教育行业可以利用它的文本回放、智能辅导系统实时跟踪学生学习的情况和操作行为的正确性。

    (5)R-Programming

          R-Programming其实是S语言的一个分支。主要功能有数据存储和运算处理,在向量、矩阵运算方面功能非常强大;支持完整连贯的统计分析;有强大的制图功能;编程语言简单易上手;支持数据的分支、循环、用户可自定义等功能。R提供了若干统计程序,使用者利用数据库和参数便可自行创建符合需要的统计计算方法。R-Programming也支持线性和非线性建模和时间序列分析等功能。这使其在统计领域得到了广泛应用。

    (6)Python

           Python是一个具有解释性、编译性、互动性和面向对象等特征的脚本语言。具有特色的语法结构,可读性较强。Python有明确定义的语法,结构简单,易于理解和阅读;其代码定义的清晰,可维护性强;与UNIX,Windows、Macintosh平台之间的兼容高;支持从终端输入执行代码并获得结果的语言,互动的测试和调试代码片断。它不仅可以添加通知消息到用户窗口反映批量数据处理进程,而且可以将输出信息重点标注。python可以利用C或C++完成复杂代码的编写,然后再调用,可扩展性较强。其嵌入到其他程序的共鞥你,让用户获得"脚本化"的能力。

    (7)Content Grabber

           Content Grabber是一个支持智能收集数据的软件。它的程序运行环境可用在开发、测试和产品服务器上。Content Grabber支持C#或VB.NET来调试或编写脚本来控制爬虫程序,并添加第三方扩展插件。凭借其全面综合的功能,Content Grabber对于具有技术基础的用户而言功能极其强大。

    2.数据挖掘工具的比较

    (1)OpenRefine

            OpenRefine(以前是谷歌Refine)是一款高人气数据分析工具,适用于各类与分析相关的任务。支持数据清洗,支持将数据从一种格式转换为另一种格式,并使用web服务和外部数据对其进行扩展,这意味着用户可以拥有多种不同数据类型及名称。这款工具主要用来处理混乱的数据,能够利用其强大的聚类算法完成条目分组,使网页上杂乱数据标准化、规范化。同时,OpenRefine总是能将您的数据保持在自己的计算机上私有,直到您想要共享或协作为止。

    (2)Rapidminer

           RapidMiner是集数据挖掘,机器学习,预测分析和商业智能为一体的可视化工具软件,包括文本挖掘、多媒体挖掘、功能设计、数据流挖掘、集成开发方法和分布式数据分析等功能。RapidMiner是一款开源数据软件,和KNIME一样,具有强大的可视化编程机制。它兼容了 WEKA的集成环境,为用户提供了关于数据集成、转换和建模的最全面的机器学习解决方案;它通过开源平台为用户免费提供了大量的数据抽取功能。用户可以使用Java 代码,借用 GUI 模式或Java API 进行操作,也可以用简单脚本语言自动进行大规模进程操作使分析过程具有极大的灵活性和扩展性;Rapidminer与不同版本的CDH集成,包括同一平台的不同的版本。

    (3)Weka

           Weka是一款开源的数据挖掘工具软件,具有可视化特征。其操作简便,运行较快,主要用于小规模的机器学习建模工程。WEKA出了具有基本的数据分析功能,而且在新的交互式界面上是可视化的。此外,WEKA 可以根据实际的数学模型或 PMML (Predictive Modeling Markup Language)文件生成相应的模型,用于评分插件。同时,WEKA可以基于Java 编程语言进行操作,丰富了其运算平台的选择。不足之处在于:它不提供与大数据平台的集成;用户仅可以选择功能,但不支持创建新功能。

    (4)NodeXL   

             NodeXL它是用于微软Excel的一个开源软件包。其受分析速度慢的限制,主要适用于小规模的数据处理工程。作为Excel的附加扩展,它没有数据集成服务的功能,更多的应用于社交网络分析。其高级网络指标、对社交媒体网络数据导入器的访问以及自动过滤数据的可视化等功能使其成为了用户选择数据分析工具的重要因素之一。

    (5)Gephi    

           Gephi是一款在NetBeans平台上用Java编写的开源网络分析和可视化的软件包。Gephi通过提供精确的计算使得再LinkedIn或Facebook上面的社交联系有更加精确的指标展现。它除了复杂网络的分析意外,还可以对数据进行实时的动态分析、时段动态分析、无标度网络分析等探索以及分层图示等可视化操作。同时,它在链接分析、社交网络分析、 生物网络分析和新媒体分析等方面,具有较强的多媒体展示功能。

    (6)Storm

          Storm来自Apache的Storm是一款伟大的实时计算系统,能够极大强化无限数据流的处理效果。其亦可用于执行多种其它与大数据相关的任务,具体包括分布式RPC、持续处理、在线机器学习以及实时分析等等。使用Storm的另一大优势在于,其整合了大量其它技术,从而进一步降低大数据处理的复杂性。Storm之所以可以实时处理数据,是因为实时流处理、使用zk协调功的主从架构,每秒处理数万消息的吞吐量也不会主动停止。同时也提供了简单容易理解的接口,便于用户开发。

    (7)Plotly

           Plotly是一个交互式的、开源的绘图库库,Python库则是它的一个重要分支。这是一款数据可视化工具,现已支持超过40种独特的图表类型,涵盖了广泛的统计、金融、地理、科学和三维用例。Plotly可兼容多种语言,比如,Plotly通过Java构建,能基于Web显示实现交互式的可视化效果,甚至能够帮助不具备代码编写技能或者时间的用户完成动态可视化处理。所以它的图形呈现可以方便的显示于Jupyter notebook(基于html)、独立的html中、更可以通过Plotly官方强推的dash实现web页面的直接生成。Plotly在非web环境中同样强大,包括桌面编辑器(QtConsole、Spyder、PyCharm)和静态文档的发布。

    • 四、文本分析工具的比较

     本文将常见的文本分析工具分为支持对原始帖子进行标注或编码、交叉应用和简短评论的文本分析工具和支持对基本的基于词典的文本分析工具两大类。支持对原始帖子进行标注或 编码、交叉应用和简短评论的文本分析工具常见的有五种,分别是WMatrix、Sketch Engine、Nlpir、THULAC、Jieba,这五种工具的比较见表3。支持对基本的基于词典的文本分析工具常见的有Nvivo、Atlas.ti、微词云、HanLP、NLPIR,这五种工具的比较见表4。

    (一)支持对原始帖子进行标注或编码、交叉应用和简短评论的文本分析工具

    1.WMatrix

          WMatrix是一款在线文本分析工具。优势在于语义归类和范畴研究,有预料分析、软件对比、自动标注,统计词频等功能。WMatrix在线分析的主要操作是上传文件、词性标注、语义标注和生成词表。研究者可以通过工具自建预料库上传到平台,然后,平台便会自动在线标注,最终WMatrix将分析的频次差异的统计结果以文字云的形式显示。

    (2)Sketch Engine

          Sketch Engine和WMatrix一样是基于网络平台的语料库分析工具。Sketch Engine是一款开源软件,可进行平行语料库的检索、索引行分析、生成词表和同义辨析。优势在搭配方面功能更强大,常用来区分同义词搭配。收录的语言种类多达60种;不仅可以分析单一语言,还可以检索两种以上语言的词汇和语法的异同。同时,利用CQL语言(corpus query language),让检索变得更加灵活;Sketch Engine的同义词辨析是基于一定的语境来进行直观地对比,为英语等专业的教师提供了便利。

    (3)Nlpir

           Nlpir平台是文本数据处理平台,NLPIR平台能够全方位多角度满足应用者对大数据文本的处理需求,包括大数据完整的技术链条:网络抓取、正文提取、中英文分词、词性标注、实体抽取、词频统计、关键词提取、语义信息抽取、文本分类、情感分析、语义深度扩展、繁简编码转换、自动注音、文本聚类等。pynlpir是NLPIR / ICTCLAS中文分词软件的Python包装器,它具有分词、词性标注、关键词提取等功能。

    (4)THULAC

            THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。THULAC集成了目前世界上规模最大的人工分词和词性标注中文语料库(约含5800万字),模型标注能力强大。该工具包在标准数据集Chinese Treebank(CTB5)上分词的F1值可达97.3%,词性标注的F1值可达到92.9%。同时进行分词和词性标注速度为300KB/s,每秒可处理约15万字。只进行分词速度可达到1.3MB/s。总的来说,可以理解为thulac训练的分词、词性标注语料库很大,性能优良。

    (5)Jieba

           Jieba是 python的分词组件,它安装便捷,不需要下载其它的数据包。Jieba包含许多功能,如分词、词性标注、自定义词典、关键词提取。其两种常用的关键词提取算法是TF-IDF算法和TextRank算法。jieba包含三种分词模式:精准模式,可以将句子最精确地切开,适合文本分析);全模式,可以扫描出把句子中成词的词语, 速度非常快,但是不能解决歧义问题;搜索引擎模式,是在精确模式的基础上,对长词再次切分,提高召回率。

    2.支持对基本的基于词典的文本分析工具 

    (1)Nvivo

           Nvivo是一款定性和 混合方式搜索的软件,它包括了导入、浏览、编码、查询、思考、可视乎、备忘录六个基本的功能。Nvivo可分析非结构化或半结构化数据,例如:访谈、开放式调查问卷回答、文章、课堂视频、讨论互动和网页内容等。Nvivo for Mac是为Mac用户创建的,是很好的原生定性数据分析应用。NVivo 11 for Windows提供三个版本的简体中文用户界面:其中NVivo 11 Starter for Windows:是对基于文本的数据的分析。NVivo 11 Pro for Windows是对范围广泛的数据分析和更为复杂的分析。 NVivo Pro是一款复杂的研究工具,提供了分析形式的非结构化数据的帮助。凭借查询和可视化工具,用户可以发现主题、证明调查结果并生成报告。借助NVivo Pro,用户可以使用文本、音频、视频、图像、电子表格、在线调查、社交媒体和网上内容。Nvivo可以将分析结果网络视图化,也可以通过导入到excel和Spss等软件中进一步做统计分析的处理。

    (2)Atlas.ti

         Atlas.ti和Nvivo一样是一个强大的用于定性分析文本、图形、音频和视频数据的平台。Atlas.ti支持安排、重新装配和管理素材,这个功能Nvivo都无法做到。Atlas.ti可以满足任何领域研究人员定性分析的需求,让用户专注于素材本身。支持多媒体类型、所用主要格式的文本文档格式,音频格式和几十种图片格式,以及主流的视频格式。Atlas.ti支持多人开发,能够整合不同项目;对Word文件可以直接编码;可视化的网络概念图编辑器,可以建立网络视图;利用鼠标拖拽便能完成编码和结合的联结动作;支持多种语言;分析结构和 NVivo一样输出到Spss中加以处理。

    (3)微词云

           微词云支持自定义词典,支持去掉单字词、位置词,计算单词相关性以及单词提取量和快速分词筛词等选项,同时可以通过勾线快速分词筛词,将低频词取消关注。工具操作简单,支持直接复制粘贴和文本导入,用户可以手动筛词,忽略词频小于几的单词,根据分析结构可生成数据报告,包括词性占比和相关词云图,也支持词云图美化功能。

    (4)HanLP

            HanLP是由一系列模型与算法组成的工具包,以普及自然语言处理在生产环境中的应用为目标。采用了全世界量级最大,种类最多的预料库,旨在普及落地最前沿的NLP技术。其具备功能完善、性能高效、多平台移植、架构清晰、语料时新、可自定义等特点。自然语言处理包括词法分析(中文分词、词性标注、命名实体识别)、句法分析、文本分类和情感分析等。应用场景的维度也很广泛,如舆情分析,文本搜索、知识库建构、个性化推荐、评价分析、知识挖掘等功能。

    (5)NLPIR

            NLPIR大数据语义智能分析平台是一个全链条的分析工具,完全本地化部署,不上传用户数据,安全可靠。融合了网络精准采集、自然语言理解、文本挖掘和网络搜索的技术,提供客户端工具、云服务以及二次开发接口,包含了大数据背景下有关语义分析的各个环节的工具,无论对没有任何编程背景和需要二次开发才能完成特定领域的信息服务都可以满足要求。

    NLPIR的文本聚类模块是基于相似性算法的自动聚类技术,自动对大量无类别的文档进行归类,把内容相近的文档归为一类,并自动为该类生成标题和主题词。基于文章集合核心语义理解技术,不仅聚类速度快,而且准确率高,并能自动得到类别间的演化趋势。其能够从大规模数据中自动分析出热点事件,并提供事件话题的关键特征描述,适用于自动生成热点舆论专题、重大新闻事件追踪、情报的可视化分析等诸多应用,能够实现长文本和短信、微博等短文本的热点分析。使用NLPIR平台的文本聚类模块进行分析,能够查看同属一个类别的多个文件。

     

    • 五、行为分析工具的比较

     本文罗列了常见的三种行为分析工具,分别是Google Analytics、HeapAnalytics、Nlpir、THULAC、Jieba,这三种工具的比较见表5。

    1)Google  Analytics

            Google  Analytics(简称 GA是谷歌的一项可以用来统计应用程序的各种数据的产品,还可以分析用户行为。Google  Analytics在数据统计结构上,分为内容、社交、移动、转化分析几个维度,主要功能是可以对网站进行访问数据统计和分析,并提供多种参数供用户使用。特色是可以为使用者提供新鲜的深度挖掘信息,帮助用户了解访问者如何使用自己的网站,网站的点击频率、浏览次数,以及如何设计可以增加用户的访问量。其优点在于代码简洁易懂,一般人员都可以驾驭;它的分析行为功能也吸引了不少用户。免费缺点:主要适用于企业级角色基础功能免费,但是深度分析功能十分昂贵,少说也得几十万美金每年

    2HeapAnalytics

             HeapAnalytics是国外一款数据统计工具,其最大的特色是没有任何技术的用户都可以监测到任何我们想监测的东西。因为用户可以直接将页面上的按钮添加到统计系统里进行细分统计,操作及其简单易上手。HeapAnalytics模式简单却也能被用于精细化的统计,并且可以做多个类似数据的服务。除此之外,在用户分组与趋势判断中强大的分析系统。其优点在于去技术化、无埋点、实时数据、可视化配置等。

    3Adobe  Analtyics

            Adobe  Analtyics是最早采用页面布码方式进行监测的工具之一,且最早按照SaaS方式提供服务,不是开源软件自定义能力上比Google  Analytics强价格也比较灵活,主要是通过按照流量分阶付费不足之处在于需要强大的本地客户支持如果没有官方的帮助,功能将会大打折扣,用户使用软件的体验感会降低

     

     

    • 六、情感分析工具的比较

         本文罗列了常见的三种情感分析工具,分别是HubSpot's ServiceHubSemantriaSAS Sentiment Analysis,这三种工具的比较见表6。

    1HubSpot's ServiceHub

           HubSpot's ServiceHub它是一个收集用户反馈和评论的工具。该工具运用自然语言处理(NLP)对语言进行分析,分辨其话语的正负面意义,然后用仪表板上的图形和图表来可视化结果。该工具支持将HubSpot's ServiceHub对接到CRM系统中,因此方便可以将相应的结果与特定的人员产生联系对比分析得出未来特定人员的情感发展和行为趋势。例如,教育研究者可以利用该软件筛选出学习积极和消极人权,并及时提供高质量的精准化教学服务,或是提高在线学习平台上用户的留存

    2)Semantria

            Semantria是一个可以从社交媒体渠道收集帖子、推文和评论的工具。它使用自然语言处理技术来解析文本,分析用户的正负面态度。通过这种方式,研究人员可以获得用户对产品或服务的真实看法,据此提出更好的想法来改进你的产品服务。

    3SAS Sentiment Analysis

           SAS Sentiment Analysis是一款功能相当强大的软件。SAS可以轻松校对和聚类分析网页中最困难的拼写问题。通过自然语言处理,机器学习和语言规则相结合,SAS可帮助用户分析出最新的趋势,并从所有非结构化文本数据中提取出真正有价值的信息。

     

    • 七、可视化分析工具的比较

           本文罗列了常见的四种可视化分析工具,分别是Tableau谷歌Fusion TablesFineBI、Infogram,这四种工具的比较见表7。

    1Tableau

            Tableau与Qlik是一款功能差不多交互式数据可视化工具它不需要编写脚本,简介的操作界面为新手降低了使用难度,简单的拖拉拽就能轻松的完成数据的可视化分析。其官网同时也提供很多相关的学习文档、案例、视频等资源供用户进行上手学习Tableau支持进行Iframe网页集成内置时序分析预测、聚类算法,可进行简单数据挖掘计算处理不能进行深度的数据挖掘此外,Tableau对计算机的硬件要求很高,部署十分复杂数据模型属于宽带模型,灵活性和拓展性比较差无法控制用户查看的列级别的权限粒度,数据权限控制较差
    2谷歌Fusion Tables

    Fusion Table 是谷歌提供的数据管理平台。研究者可以使用它来做数据收集、数据可视化和数据共享。就像电子数据表,但功能更强大更专业。用户可以通过添加CSV、KML和电子表格中的数据集和同事共享资料还可以发布数据资料并将其嵌入到其他网页属性中。

     (3) FineBI
            FineBI是帆软旗下的自助性BI产品,数据分析功能强大。优点在于性能强大,性价比最高对于新手而言简单易学支持自助式数据分析,能应用复杂多变的场景需求支持多数据源连接,对平台的对接能力更强内设多种数据挖掘算法,数据加工能力强大后期采用jar包升级换代,维护方便.。

    4Infogram

           Infogram是一种直观的可视化工具,可帮助用户创建精美的信息图表和报告。Infogram内置系统中提供了至少超过35个交互式图表和500多个地图,帮助用户将数据可视化。除了各种各样的可视化图表,还有柱状图、条形图、饼图或词云等,它用创新的信息图表给用户留下深刻印象。

    • 算法工具比较 表1

    编号

    工具名称

    开源

    可视化

    数据支持格式

    输出的格式

    专门程度

    工具自身成熟度

    使用难易度

    优缺点

    1

    Microsoft Excel

    excel文件格式:.xlsx 、.xlsx.、.xlsb、.xltm、xlw、xlr。文本文件格式:.prn、.txt、.csv、.dif、.slk其他文件格式:.ods、.pdf、.xps

    pdf、xlsx、csv、ods

    专用

    成熟,软件兼容性强,文档规范并齐全,用户群广泛

    容易

    数据量较大时,可加载性较弱。数据图功能设置有限。

    2

    SpreadDesginer

    excel.xlsx文件。文本文件。Spreadxml文件。Spread的文件。

    excel.xlsx文件。

    文本文件。

    Spreadxml文件。

    专用

    成熟,软件兼容excel环境,用户群广泛

    容易

    开发者可以设计表格、图形、图像等都会作为对象输出到excel文件中,

    3

    Google Sheets

    .pdf、.xlsx、.csv.、ods.、tab

    .xlsx.xls.xlsm

    .xlt.xltxm.ods.

    csv.txt.tsv.tab

    专用

    成熟,用户体体验感强

    容易

    丰富计算功能,支持excel文件处理,即使分析数据,含有丰富的插件

    4

    EDM Workbench

    .wbpj,.sql

    ds.dat,solve.out

    通用

    成熟

    容易

    编程语言通俗易懂,容易学习和掌握,统计方法和技术都可以在软件内部直接获取

    5

    R-programing

    JPG,BMP,PNG,xts

    excel,csv,txtRdata,pdf

    通用

    成熟,软件开发历史时间较长,并持续直更新

    容易(语言编程相对简单易学)

    统计分析和优秀的绘图工具,代码简单。但数据量过大时,因内存原因,不再适用

    6

    python

    csv、xlsx、hdf、jepg、gif、png、zip、json、mp4、mp3、docx、pdf、images、html、xml

    csv、xlsx、hdf、jepg、

    gif、png、zip、json、

    mp4、mp3、docx、

    pdf、images、html、

    xml

    专用

    成熟

    容易(结构简单、关键较少、语法定义明确易学)

    易于学习,易于阅读,易于维护,可移植,可扩展,可嵌入

    7

    Content Grabber

    Excel、XML、CSV

    .pdf、.xlsx、.csv.

    通用

    成熟

    容易

    支持 JavaScript 渲染、Ajax 爬取等功能,另外还有验证码识别等解决方案,并使用 Nohodo 作为 IP 代理。

    • 数据挖掘工具比较 表2

    编号

    工具名称

    开源

    可视化

    数据支持格式

    输出的格式

    专门程度

    工具自身成熟度

    使用难易度(针对教育研究者)

    优缺点

    1

    OpenRefine

    csv、tsv及其他*sv,csv,tsv及其他*sv,JSON,XML,行文本格式(比如log文件)

    csv,tsv,excel,open document,RDF,Export project,自定义导出设置等

    通用

    成熟

    容易(四步实现数据清洗)

    连接管理、消息解析、消息路由、消息发送.

    2

    RapidMiner

    支持ExcelSPSS、格式支持CSVDbaseArff DasyLabASCII,PDFHTML XML 格式和和网页、时间序列数据等

    实际数据模型输出,或Xml文件中输出

    通用

    成熟(有成熟的社区和扩展交易市场。)

    对于开发人员入门也非常容易;对于专业数据分析人员比较简单;对一般业务分析人员,需要专业指导。

    有广泛的分类、回归以及用于聚类、关联规则挖掘的算法。用户可以根据自己的需要,快速获取很多定制化的功能。统一的数据科学平台加速了在单一环境中构建完整的分析工作流程

    3

    WEKA

    arff、xrff、csv,libsvm

    arff

    通用

    成熟

    对于开发人员入门简单,使用便捷。界面描述均是专业术语,一般分析人员无法轻松使用,学习周期较长。

    可移植性强。提供简洁的拖拽等可视化建模能力。支持常用的图表展示,但是图表美观性差

    4

    NodeXL

    支持一般格式和UCINET, GraphML格式

     

    通用

    成熟

    容易(通过简单操作就可以实现数据的批量处理)

    软件界面简单直接采用了Excel的界面,不需太多培训的前提下就能上手非常强大的数据分析操作。

    5

    Gephi

    GEXF, GDF,GML, GraphML, NET,DOT, CSV, DL, TPL, VNA, Spreadsheet

    GEXF,GDF, SVG, PNG、SVG、PNG、PDF、gexf 等

    通用

    成熟

    比较 容易

    分析内容多样,探索分析功能完备,可分析大型复杂网络,具有可扩展功能接口。有 Fire fox 插件,可在线 提取数据分析。

    6

    Strom

    txt,xml,sql

    jrxml,rng,tld,xml,

    xsd,xslt

    通用

    成熟

    容易(开发人员只需要关注应用逻辑,编程语言简单)

    免费、开源、分布式、实时计算系统。可 跨语言、可伸缩的;低延迟,秒级/分钟级、容错。

    7

    Ploty

    图表格式,文字格式

    orca

    专用

    成熟

    比较容易

    交互式的、开源的绘图库

    • 支持对原始帖子进行标注或编码、交叉应用和简短评论的工具比较 表3

     

    编号

    工具名称

    开源

    可视化

    数据支持格式

    输出的格式

    专门程度

    工具自身成熟度

    使用难易度(针对教育研究者)

    优缺点

    1

    WMatrix

    纯文本格式(ASCII编码)

    文本格式(ASCII编码)

    通用

    成熟

    容易(仅需要轻点鼠标,就可以通过在线的方式获取Web开发过程中每一个阶段的的相关学习资源,包含视频、样例代码、以及ASP,NET指导手册,快速驾驭WebMatrix)

    英文文本量的分析有限,不能脱机分析

    2

    Sketch Engine

    否(免费适用一周)

    JPG、PNG、TIFF、SVG、PDF、EPS

    JPG、PNG、TIFF、PDF 、EPS:、SVG

    通用

    成熟

    容易(有经验的设计师只需几个小时便能自如运用)

    绝大多数的数字产品设计,Sketch 都能替代 Adobe PhotoshopIllustrator Fireworks

    3

    Nlpir

    否(免费试用一个月)

    docexcelpdfppttxt

    doc、excel、txt等

    通用

    比较成熟(产品开发时间较短,处于发展阶段)

    对于开发人员容易;对一般业务分析人员,入门比较困难。

    内置功能全方位多角度

    4

    THULAC

    Excel、XML、CSV

    Excel、XML、CSV等

    专用

    比较成熟(产品处于发展阶段)

    容易

    能力强、准确率高、速度快

    5

    Jieba

    txt、支持文本编码格式utf-8

    txt、utf-8

    通用

    比较成熟(优化发展阶段)

    容易(使用简单,看readme也能快速上手)

    分词工具强大,提取关键词、词性标注、词位置查询等功能也是十分便捷

    • 支持对基本的基于词典的文本分析工具比较 表4

    编号

    工具名称

    开源

    可视化

    数据支持格式

    输出的格式

    专门程度

    工具自身成熟度

    使用难易度

    优缺点

    1

    Nvivo

    NVivo 几乎可处理所有数据,如,MPEG

    格式(mp3,m4a),Microsoft Windows

    Media格式(wma,wav),MPEG格式

    (mpg,moeg,mpe,mp4),Windows

    Media(AVI,WMV),Quick Time格式

    (mov,qt),3G手机格式(3gp)

    ,AVCHD高清视频格式(mts,m2ts)

    .docx,.xlsx,qdc,.html

    通用

    成熟

    较难(使用计算机常用的术语,会让部分初学者难以理解)

    是一款支持定性研究方法和混合研究方法的软件

    2

    Atlas.ti

    WordRTFTXTPDF/MP3 M4AWMA

    WAV/MPGMPEGMPEMP4AVIWMV

    MOVQT3GPMTSGIFM2TSBMP

    JPGJPEGPNGTIFTIFF,制表符分割的文本和 Excel 格式的 集,SQLAccess 的数据库文件,可 Twitter Facebook,社交网站的讨论数据,可导入 Survey Monkey 卷数据。

    RTF,TXT,PDF,BMP,EMF,XML,HTML,Excel,SPSS,WORD,CSV

    通用

    成熟

    容易(ATLAS.ti不需要使用者有很多前设的相关软件知识技能,大部分人根据教程自学就能学会该软件的基本操作技能)

    可直 接 将 谷 歌地图 图 片 数 据导入 工 具 进 行分 析。在 iPad与 Android 手机上已有 app;只能 手 动 或 半自动 编 码 不 能自动编码。

    3

    微词云

    excel,word,

    jpg,png,svg,pdf

    通用

    比较成熟

    简单(适合学生群体和老师群体)

    文本分析只可传输20M文本

    4

    HanLP

    部分开源

    TXT,XLSX,CSV,

    CoNLL,文本文件格式和缓存文件格式

    专用

    成熟

    较难(程序编码需要基础)

    所有分词器均支持,同时自带的预料处理工具,可以帮助用户训练自己的模型

    5

    NLPIR

    开源

    docexcelpdfppttxtXML

    doc、excel、txt等

    通用

    成熟

    较难

    提供跨领域可扩展,知识质量智能核查和人机结合的服务

    • 情感分析工具比较 图5

    编号

    工具名称

    开源

    可视化

    数据支持格式

    输出的格式

    专门程度

    工具自身成熟度

    使用难易度(针对教育研究者)

    优缺点

    1

    Google  Analytics

    是(基础功能免费,深度分析费用较为昂贵)

    csv(必须是utf-8格式),利用API去导入数据

    PDF、XML、CSV、TSV

    通用

    成熟

    难(对不懂前沿技术的人很困难)

    功能上比较单一,只能进行粗略的数据统计。

    2

    HeapAnalytics

    否(技术层面做了大量的处理与资源分配,所以价格很高,但有试用期)

       

    通用

    成熟

    容易(完全不懂技术的人,也能轻易监测到想要的东西)

    优点去技术化、无埋点、实时数据、可视化配置。缺点费用较高。

    3

    Adobe  Analtyics

    WordExcelPDF HTML

     PDF CSV 

    通用

    成熟

    比较难

    不足是需要强大的本地客户支持

    • 情感分析工具比较 表6

    编号

    工具名称

    开源

    可视化

    数据支持格式

    输出的格式

    专门程度

    工具自身成熟度

    使用难易度

    优缺点

    1

    HubSpot's ServiceHub

    .xlsx、.csv.

    CSV

    通用

    成熟(全世界的流量排名是第五位)

    简单

    建立了合作伙伴生态,内置了SEO,内容产出、网站设计和开发等服务工具

    2

    Semantria

    Excel、txt、CSV

    文本格式,图片格式

    通用

    成熟

    比较难

    整合了一个更大的知识库,并使用了深度学习

    3

    SAS Sentiment Analysis

    csv、xlsx、txt(URL编码),docx等

    csv、xlsx、txt,docx

    专用

    成熟

    比较难

    对带有情感色彩的主观性文本进行分析、处理、归纳和推理,利用情感得分指标来量化

    • 可视化分析工具 表7

    编号

    工具名称

    开源

    可视化

    数据支持格式

    输出的格式

    专门程度

    工具自身成熟度

    使用难易度

    优缺点

    1

    Tableau

    否(个人使用也许付费)

    txt、csv、json

    .twb、.twbx.、tds

    专用

    成熟

    容易,网站有免费在线培训教程,傻瓜式操作

    对国内外的企业服务方面比较差

    2

    FineBI

    否(价格比较高)

    Excel,CSV,XML

    Excel,CSV,XML

    专用

    成熟(BI市场占有率第一)

    容易,无需编程

    轻量化的BI工具,打通了各类数据源,可视化颜值高

    3

    谷歌Fusion Tables

    是(默认可以创建15G数据)

    CSV、KML、TSV、TXT,CSV、KML、ODS、XLS 或 Google 电子表格

    CSV、KML、TSV、TXT,CSV、DWG、DXF

    通用

    成熟

    专业人员比较简单,一般人员相对比较难

    数据收集、数据可视化和数据共享功能都比较强大

    4

    Infogram

    是(基础班免费,专业版和企业版收费)

    csv、xlsx、hdf、gif、png、zip、pdf、images、html

    csv、xlsx、hdf、gif、png、pdf、images、html

    通用

    成熟(用户已经用它创建了超过15亿次的图表、报告和信息图表)

    容易简单易操作

    支持实时数据刷新,所有的操作都可以web端轻松完成,

    • 标签:
  • 加入的知识群:
    学习元评论 (0条)

    评论为空
    聪明如你,不妨在这 发表你的看法与心得 ~



    登录之后可以发表学习元评论
      
暂无内容~~
顶部