R 编程语言中用于数据科学和分析的最常用 60个软件包

R 编程语言中用于数据科学和分析的最常用 60个软件包


发布日期: 2023-11-02 更新日期: 2023-11-02 编辑:xuzhiping 浏览次数: 641

标签:

摘要: 本文全面列出了60 个最常用的 R 软件包,这些包有助于在处理数据科学/分析项目时实现以下一些目标: 预测建模 数据处理/操纵 可视化 一体化 Hadoop 图形用户界面 数据库 以下是大约 60 个 R 软件包的列表,它们有助于在创建预测模型时处理不同...

60个R 软件包

本文全面列出了60 个最常用的 R 软件包,这些包有助于在处理数据科学/分析项目时实现以下一些目标:

  • 预测建模
  • 数据处理/操纵
  • 可视化
  • 一体化
  • Hadoop
  • 图形用户界面
  • 数据库

以下是大约 60 个 R 软件包的列表,它们有助于在创建预测模型时处理不同方面的问题:

预测建模

预测建模

预测建模代表有助于处理各种不同预测模型(线性/多元/逻辑回归模型、SVM、神经网络等)的软件包。

1.插入符号:代表分类和回归训练。提供一组函数,可用于在处理分类和回归问题时执行以下某些操作,取决于包的数量并适当地(按需)加载这些包以实现上述目标。

  • 数据处理(分割)
  • 特征选择
  • 基于重采样评估模型调整参数
  • 预测变量重要性估计
  • 根据训练集估计模型性能

2.lars:使用最小角度回归算法,该算法提供了生成最合适的预测变量和相关系数的估计手段和方法。

3.gbm:代表广义提升回归模型。gbm 软件包基于决策树算法,提供了解决回归和分类相关问题的方法。它支持提升,其中多个弱模型通过算法组合以创建更好的模型。

4.Zoo:提供处理规则的、特别是不规则的时间序列问题的方法。

5.glmnet:提供线性、多项式、逻辑和泊松回归模型以及 cox 模型的方法。它基于 Lasso 和弹性网络正则化技术,用于选择最合适的参数或系数,从而消除相关和冗余系数。

6.lme4:提供拟合和分析线性混合模型、广义线性混合模型和非线性混合模型的函数。混合模型通常被定义为同时包含固定效应和随机效应的统计模型,因此称为混合效应。简而言之,线性回归模型取决于一组预测变量(具有固定效应)和代表一个或多个随机效应的全包误差项。在线性混合模型中,该误差项被进一步扩展,并且包括一个或多个具有随机效应的项。

7.Forecast:提供显示和分析单变量时间序列模型的方法。

8.quantmod:一个快速原型设计环境,量化交易者可以快速、干净地探索和构建交易模型。换言之,它有助于交易、构建和分析定量金融交易策略。

9.randomForest:提供基于随机森林算法处理分类和回归问题的方法,随机森林算法指示在变量的随机样本上创建大量引导树,使用该森林中的所有这些树对特定情况进行分类,并决定最终结果基于平均或多数投票技术,具体取决于是否处理回归或分类问题。

10.e1071:提供处理回归和分类问题的方法。诸如以下的算法作为函数的一部分包含在内:

  • 支持向量机 (SVM)
  • 朴素贝叶斯分类器
  • 袋装聚类
  • 短时傅立叶变换

11.gam:代表广义加性模型,提供用于处理广义附加模型的函数。

12.nnet:提供使用前馈神经网络和多项对数线性模型的方法。

13.stats:这是 R 基本安装附带的基本包。

数据处理/操作

数据处理/操作

数据处理/操作:表示数据处理、操作操作的软件包。

14.dplyr:最好的数据操作工具之一,dplyr 提供了使用数据框和数据库执行不同数据操作操作的方法。

15.reshape2:提供熔化和铸造方法,将宽数据格式转换为长数据格式,反之亦然。以下是更多详细信息:

  • Melt:将宽格式数据转换为长格式数据
  • Cast:将长格式数据转换为宽格式数据

16.sqldf:提供对数据框的 SQL 选择。对于想要使用 R 的 RDBMS 专业人士而言,这是一个很好的资源。

17.lubridate:提供日期和时间操作的方法。

18.stringr:提供字符串操作的方法,方法包括与长度、替换、提取、匹配、顺序等相关的操作。

19.XML:提供读取和创建 XML(和 HTML)文档(包括 DTD)的方法,既可以在本地读取,也可以通过 HTTP 或 FTP 访问。

20.data.table:提供更快聚合大型数据集、更快添加/更新/删除数据列、列出列、从文件中读取数据的功能。

21.caTools:提供数据处理的实用功能,包括读/写二进制文件(如 GIF/ENVI、base64 编码器/解码器等)等活动。异常值:提供检测异常值的方法/测试。

22.Extremevalues:提供检测数据集中异常值的方法,还提供了显示绘图的 GUI 工具。

23.Hmisc:提供数据分析、实用操作、字符串操作、计算样本大小和功效、变量聚类等多种功能。

24.RevoScaleR:提供处理大型数据集的方法,包括读取和操作大型数据集、清理数据以及准备使用 R 进行统计分析的操作。

25.tidyr:提供整理杂乱数据的功能,以下是三个关键功能:

  • 收集
  • 分离
  • 传播

26.foreach:提供用于重复执行 R 代码的循环结构,foreach 包的 USP 是支持在同一系统上的多个核心或集群中的多个节点上并行执行重复操作。

27.sweave:提供混合文本和 R 代码以生成动态报告的框架,以便在数据或分析发生变化时自动更新报告。

28.rggobi:为 GGobi(一个交互式动态图形包)提供命令行界面。

29.Visualization:表示用于可视化的软件包。

30.ggplot2:ggplot2 是数据可视化的最佳工具之一,可用于使用来自不同数据源的数据逐层创建绘图。

31.knit:Knit 是 Sweave 的替代工具,它提供了动态报告生成的方法。

32.igraph:一种可视化工具,iGraph 提供了处理常规图形和大型图形的方法,操作:为 R studio 内提供交互式绘图功能。

33.RColorBrewer:提供为专题地图创建调色板的方法。

34.lattice:一个高级数据可视化软件包,重点关注多元数据,据说是基于R图形的改进。

35.rcharts:使用熟悉的网格样式绘图界面从 R 创建、自定义和发布 javascript 可视化的包。

36.googleVis:提供与 Google 图表 API 交互并基于数据框创建交互式图表的方法。

37.colorspace:提供在 R 中创建和使用 HCL(Hue-Chroma-Luminance)包的方法。

38.scales:提供以下一些方法:

  • 将数据映射到美学
  • 自动确定轴和图例的中断和标签

39.playwith:用于编辑 R 绘图并与之交互的 GUI。

Hadoop

Hadoop

Hadoop:代表有助于连接和处理来自 Hadoop 生态系统的数据的包。

40.RHadoop:5个 R 软件包的集合,允许用户使用 Hadoop 管理和分析数据。以下是这5个包:

  • rmr:用于映射归约操作的函数;
  • rhdfs:HDFS文件管理函数;
  • rhbase:HBase 数据库管理函数;
  • ravro:读写 AVRO 格式文件的函数;
  • plyrmr:plyr 的函数,类似于结构化数据的数据处理。

41.RImpala:提供将 Cloudera Impala 连接到 R 的方法,从而能够从 R 查询驻留在 HDFS 和 Apache Hbase 中的数据,这些数据可以使用 R 函数作为 R 对象进一步处理。

集成

集成:表示实现某些目标的软件包,例如与 Twitter、Facebook 等流行的社交网络连接。此外,还提到 PMML 软件包,该软件包用于以 XML 格式表示数据挖掘模型,以便可以共享这些模型不同统计软件包之间的差异。

42.twitteR:提供 Twitter Web API 的接口

43.Rfacebook:提供一系列允许访问 Facebook API 的函数,从而获取以下一些信息:

  • 用户
  • 帖子
  • 使用特定关键字进行状态更新

44.PMML:代表预测模型标记语言。PMML 是一种基于 XML 的语言,提供了表示数据挖掘模型的开放标准。它有助于以 XML 格式导出预测和描述模型,这些模型可以在不同的 PMML 兼容应用程序之间共享。

45.foreign:提供可用于从一些最常用的统计软件包(如 SAS、SPSS、Stata 等)导入数据文件的功能。

应用程序编程

46.shiny:帮助使用 R 构建响应式和交互式 Web 应用程序。

47.slidify:提供使用 R markdown 创建、自定义和共享 HTML5 文档的方法。

48.proto:促进 R 中的原型式编程。

简单而言,原型编程是一种没有类的面向对象编程,使用 proto 软件包,无需类即可组织数据和过程。

rJava:低级 R 到 Java 接口。

GUI

49.Rattle:用于数据挖掘的 GUI,帮助轻松完成以下一些操作:

  • 从 CSV 文件或数据库加载数据
  • 探索性数据分析(转换和探索)
  • 构建和评估模型
  • 将模型导出为 PMML

50.Rcmdr:Rcmdr 包针对初学者/新手,提供了 GUI,可以访问一系列常用的 R 命令。

数据库

51.RMySQL:提供从 MySQL 数据库访问数据的方法。

52.RPostGreSQL:提供从 PostGreSQL 数据库访问数据的方法,该软件包提供符合 DBI 的驱动程序来访问 PostGreSQL 数据库系统。

53.Rmongo:提供允许访问 MongoDB 数据库的方法。

54.Rsqlite:在 R 中嵌入 SQLite 数据库,提供使用该数据库的方法。

Miscellaneous

55.digest:提供实现以下一些目标的方法:

  • 为任意对象创建哈希函数摘要(digest)
  • 创建 AES 分组密码对象 (AES)
  • 计算基于 Hash 的消息身份验证代码 (hmac)

56.DmwR:代表使用 R 进行数据挖掘,包括“使用 R 进行数据挖掘,通过案例研究进行学习”一书附带的函数和数据。

57.Fortunes:包含来自不同来源的整套幽默引述和评论。

58.magrittr:为链接命令提供转发管道运算符,这本质上意味着该运算符将把值转发到下一个函数。

59.multicore:提供在多核或多 CPU 的机器上并行执行 R 代码的功能。

60.doParallel:由 Revolution Analytics 维护,doParallel 使用 R 2.14.0 及更高版本的并行包为 foreach %dopar% 函数提供并行后端。

相关推荐

关注公众号
获取免费资源

随机推荐


Copyright © Since 2014. 开源地理空间基金会中文分会 吉ICP备05002032号

Powered by TorCMS

OSGeo 中国中心 邮件列表

问题讨论 : 要订阅或者退订列表,请点击 订阅

发言 : 请写信给: osgeo-china@lists.osgeo.org