天道酬勤,学无止境

Apache Sqoop 和 Flume 可以互换使用吗?(Can Apache Sqoop and Flume be used interchangeably?)

问题

我是大数据的新手。 从Flume 和Sqoop 有什么区别?的一些回答来看,Flume 和Sqoop 都可以从source 拉取数据,然后push 到Hadoop。 任何人都可以指定使用水槽的地方和使用 sqoop 的地方吗? 两者可以用于相同的任务吗?

回答1

Flume 和 Sqoop 都旨在处理不同类型的数据源。

Sqoop 适用于任何支持 JDBC 连接的 RDBMS 系统。 另一方面,Flume 可以很好地处理流数据源,例如在您的环境中连续生成的日志数据。

具体来说,

  • Sqoop 可用于向 RDBMS 系统(如 Oracle、MS SQL Server、MySQL、PostgreSQL、Netezza、Teradata 和其他一些支持 JDBC 连接的系统)导入/导出数据。
  • Flume 可用于从像下面这样的源摄取高吞吐量数据并插入到下面的目的地(接收器)中。
    • 常用的水槽源:
      • 假脱机目录 - 在其中创建大量文件的目录,主要用于收集和聚合日志数据
      • JMS - 从基于 JMS 的系统收集指标
      • 还有更多
    • 常用的水槽:
      • 高密度文件系统
      • HBase
      • 索尔
      • 弹性搜索
      • 还有更多

不,这两种工具不能用于完成相同的任务,例如,flume 不能用于数据库,sqoop 不能用于流数据源或平面文件。

如果您有兴趣,flume 也有一个替代品,它与 chukwa 做同样的事情。

受限制的 HTML

  • 允许的HTML标签:<a href hreflang> <em> <strong> <cite> <blockquote cite> <code> <ul type> <ol start type> <li> <dl> <dt> <dd> <h2 id> <h3 id> <h4 id> <h5 id> <h6 id>
  • 自动断行和分段。
  • 网页和电子邮件地址自动转换为链接。

相关推荐