天道酬勤,学无止境

bigdata

Python - Parsing a text onto columns by the position of each item

问题 Bovespa(巴西证券交易所)提供一个文件,其中包含一个时间范围内的所有报价。 文件太大,每一行都是这样的真实示例: 012016010402AAPL34 010APPLE DRN R$ 000000000415000000000042200000000004150000000000421300000000042080000000003950000000000435000005000000000000012500000000000052664400000000000000009999123100000010000000000000BRAAPLBDR004115 所以,在寻找文档时,我发现列映射是这样的: char 01 到 02:(int)寄存器类型; char 03 到 10:(日期)股票报价信息的日期; char 11 到 12:(int)某种代码; char 13 到 24:(str)股票代码; …… 我开始研究 Python 并尝试读取包含此数据的文件,并使用此代码使每一行都成功: import pandas as pd dataset1 = pd.read_table('bmfbovespaquotes/DemoCotacoesHistoricas12022003.txt') 我认为这可能是一个愚蠢的问题,但我还没有找到解决方案,所以如果你知道解决这个问题的方法

2022-05-15 12:21:10    分类:技术分享    python   pandas   jupyter   bigdata

Create hive table error to load Twitter data

问题 我正在尝试创建外部表并尝试将 twitter 数据加载到表中。 创建表时出现以下错误,无法跟踪错误。 hive> ADD JAR /usr/local/hive/lib/hive-serdes-1.0-SNAPSHOT.jar > ; Added [/usr/local/hive/lib/hive-serdes-1.0-SNAPSHOT.jar] to class path Added resources: [/usr/local/hive/lib/hive-serdes-1.0-SNAPSHOT.jar] hive> CREATE EXTERNAL TABLE tweets ( > id BIGINT, > created_at STRING, > source STRING, > favorited BOOLEAN, > retweeted_status STRUCT< > text:STRING, > user:STRUCT<screen_name:STRING,name:STRING>, > retweet_count:INT>, > entities STRUCT< > urls:ARRAY<STRUCT<expanded_url:STRING>>, > user_mentions:ARRAY<STRUCT<screen_name:STRING,name

2022-05-12 15:06:11    分类:技术分享    hadoop   twitter   hive   flume   bigdata

Inserting a big array of object in mongodb from nodejs

问题 我需要从 nodejs 在 mongodb 中插入大量对象(大约 1.5-2 百万)。 我怎样才能改进我的插入? 这是我的代码: var sizeOfArray = arrayOfObjects.length; //sizeOfArray about 1.5-2 millions for(var i = 0; i < sizeOfResult; ++i) { newKey = { field_1: result[i][1], field_2: result[i][2], field_3: result[i][3] }; collection.insert(newKey, function(err, data) { if (err) { log.error('Error insert: ' + err); } }); } 回答1 您可以使用批量插入。 有两种类型的批量操作: 有序批量操作。 这些操作按顺序执行所有操作,并在第一次写入错误时出错。 无序批量操作。 这些操作并行执行所有操作并聚合所有错误。 无序批量操作不保证执行顺序。 所以你可以做这样的事情: var MongoClient = require('mongodb').MongoClient; MongoClient.connect("mongodb://myserver:27017/test", function

2022-05-08 04:11:13    分类:技术分享    node.js   mongodb   bigdata

What is the status on Neo4j's horizontal scalability project Rassilon?

问题 只是想知道是否有人对 Rassilon 项目的状态有任何信息,该项目是 Neo4j 的侧项目,专注于提高 Neo4j 的水平可扩展性? 它于 2013 年 1 月在这里首次宣布。 我特别想知道更多关于何时取消图形大小限制以及何时可以跨集群进行分片。 回答1 节点和关系限制将在 2.1 中消失,这是 2.0 之后的下一个版本(现在有一个候选版本)。 Rassilon 肯定仍在混合中。 也就是说,这项工作并没有优先于诸如 2.0 中的重要新功能包之类的事情。 原因是现在的 Neo4j 具有极强的扩展能力,使用下面概述的各种架构特性(带有一些实时示例): www.neotechnology.com/neo4j-scales-for-the-enterprise/ 当前架构中有很多巧妙之处,可以让图形在不分片的情况下很好地执行和扩展。 因为一旦开始分片,就注定要遍历网络,这是一件坏事(对于延迟、查询可预测性等)。因此,虽然有一些非常大的图,主要是出于写入吞吐量的原因,但必须权衡性能超级规模(通过分片),令人高兴的是大多数图表不需要这种妥协。 只有在 1% 的情况下才需要分片,这意味着几乎每个人都可以吃到自己的蛋糕。 目前在生产客户中有 Neo4j 集群,他们的图表中有 1B+ 个人,支持拥有数千万用户的 Web 应用程序。 这些使用相对较小(但非常快速、非常高效)的集群。

2022-05-06 18:19:04    分类:技术分享    neo4j   bigdata

speed up large result set processing using rmongodb

问题 我正在使用 rmongodb 来获取特定集合中的每个文档。 它可以工作,但我正在处理数百万个小文档,可能是 100M 或更多。 我使用的是作者在网站上建议的方法:cnub.org/rmongodb.ashx count <- mongo.count(mongo, ns, query) cursor <- mongo.find(mongo, query) name <- vector("character", count) age <- vector("numeric", count) i <- 1 while (mongo.cursor.next(cursor)) { b <- mongo.cursor.value(cursor) name[i] <- mongo.bson.value(b, "name") age[i] <- mongo.bson.value(b, "age") i <- i + 1 } df <- as.data.frame(list(name=name, age=age)) 这适用于数百或数千个结果,但 while 循环非常非常慢。 有什么方法可以加快速度吗? 也许是多处理的机会? 任何建议,将不胜感激。 我平均每小时 100 万,按照这个速度,我需要一周的时间来构建数据框。 编辑:我注意到while循环中的向量越多,它就越慢。

2022-05-04 16:09:36    分类:技术分享    r   mongodb   dataframe   rmongodb   bigdata

Python - Parsing a text onto columns by the position of each item

The Bovespa (brazilian stock exchange) offer a file with all the quotes in a timeframe. The file is too large, and each line are something like this real sample: 012016010402AAPL34 010APPLE DRN R$ 000000000415000000000042200000000004150000000000421300000000042080000000003950000000000435000005000000000000012500000000000052664400000000000000009999123100000010000000000000BRAAPLBDR004115 So, looking for the docs, I found that the column mapping is something like that: char 01 to 02: (int) type of register; char 03 to 10: (date) date of the stock quote info; char 11 to 12: (int) some kind of code

2022-05-03 02:31:56    分类:问答    python   pandas   jupyter   bigdata

isNullOrEmpty function in spark to check column in data frame is null or empty string

How can I check the columns of dataframe is null or empty ins spark. Ex. type IdentifiedDataFrame = {SourceIdentfier, DataFrame} def splitRequestIntoDFsWithAndWithoutTransactionId(df: DataFrame) : Seq[IdentifiedDataFrame] = { seq((DeltaTableStream(RequestWithTransactionId), df.filter(col(RequestLocationCodeColName).isNull && col(ServiceNumberColName).isNull && col(DateOfServiceColName).isNull && col(TransactionIdColName).isNotNull)). (DeltaTableStream(RequestWithoutTransactionId), df.filter(col(RequestLocationCodeColName).isNotNull && col(ServiceNumberColName).isNotNull && col

2022-05-02 10:31:35    分类:问答    scala   dataframe   apache-spark   bigdata

ssh connection to host port 22 connection refused

I use a VMware virtualization system. I have centos release 7 as my operating system. I installed hadoop2.7.1. After installing Hadoop I ran the command :#hdfs namenode -format, it ran successfully. But when I run the command :#./start-all.sh it gives me errors. I tried several proposals that I saw on the internet but the problem persists [root@MASTER sbin]# ./start-all.sh This script is Deprecated. Instead use start-dfs.sh and start-yarn.sh 21/06/17 19:06:27 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

2022-05-02 03:48:18    分类:问答    hadoop   hdfs   bigdata

OpenRefine: How to fill down blank cells using delineated values from the first cell?

How can you fill down blank cells using delineated values from the first cell? COL A COL B COL C... "N" Option 1 A,B,C,D Option 1 attribute Option 1 Option 1 attribute Option 1 Option 1 attribute Option 1 Option 1 attribute Option 2 C,D,F Option 2 attribute Option 2 Option 2 attribute Option 2 Option 2 attribute Option 3 D,J,Z Option 3 attribute Option 3 Option 3 attribute Option 3 Option 3 attribute Turned into COL A COL B COL C... "N" Option 1 A Option 1 attribute Option 1 B Option 1 attribute Option 1 C Option 1 attribute Option 1 D Option 1 attribute Option 2 C Option 2 attribute Option 2

2022-05-02 03:32:26    分类:问答    excel   bigdata   data-cleaning   openrefine

Data preparation to upload into Redis server

问题 我有一个 10GB 的 .xml 文件,我想使用 mass insert 将其上传到 redis 服务器。 我需要有关如何将此 .xml 数据转换为 redis 支持的某个键、值或任何其他数据结构的建议? 我正在处理流转储上的堆栈,例如,如果我使用了 comments.xml。 数据模式:row Id="5" PostId="5" Score="9" Text="这是一个超级理论的人工智能问题。一个有趣的讨论!但不合适......" CreationDate="2014-05-14T00 :23:15.437" 用户 ID="34" 假设我想检索由特定用户 ID 或特定日期发表的所有评论,我该怎么做? 首先, 如何将此 .xml 日期准备为适合 Redis 的数据结构。 如何将其上传到 Redis。 我在 Windows 上使用 Redis。 命令 pipe 和 cat 似乎不起作用。 我已经厌倦了使用 centos,但我更喜欢在 Windows 上使用 Redis。 回答1 在选择适当的数据结构之前,您需要了解您将进行哪种类型的查询。 例如,如果您有特定于用户的数据,并且您需要对每个用户的不同用户活动进行分组并汇总结果,则您需要使用不同的结构、构建索引、将数据拆分成块等等。 相对于大量聚合数据(45GB),我发现 ZRANGE 可用的 SortedSets,因为它比

2022-05-01 04:11:09    分类:技术分享    redis   bigdata