天道酬勤,学无止境

csv

Unable to read csv file by Anaconda IDE

问题 我的 Anaconda IDE 无法使用panda.read_csv()函数读取 csv 文件。 文件名是棒球,保存在位置C:\Users\Firdaus\Desktop 我写了以下代码: # Import pandas as pd import pandas as pd # Import the cars.csv data as Base Base = pd.read_csv('C:\Users\Firdaus\Desktop\baseball.csv') # Print out Base print(Base) 错误是: SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape 回答1 在常规 python 字符串中,\U 字符组合表示扩展的 Unicode 代码点转义。 您可以使用以下方法之一: r'C:\Users\Firdaus\Desktop\baseball.csv' #r stands for raw strings 'C:\\Users\\Firdaus\\Desktop\\baseball.csv' #using double slashes 'C:/Users/Firdaus

2022-05-17 05:23:03    分类:技术分享    python   csv   pandas

Regular expression extracting number dimension

问题 我正在使用 python 正则表达式从数据库中提取维度信息。 该列中的条目如下所示: 23 cm 43 1/2 cm 20cm 15 cm x 30 cm 我需要的只是条目的宽度(因此对于带有“x”的条目,只有第一个数字),但正如您所看到的那样,值无处不在。 根据我在文档中的理解,您可以使用它们的位置访问匹配中的组,所以我想我可以根据返回的组数和在每个索引处找到的内容来确定条目的类型。 到目前为止我使用的表达式是^(\d{2})\s?(x\s?(\d{2}))?(\d+/\d+)?$ ,但是它并不完美,它返回一个无用组的数量。 有没有更有效和更合适的方法? 编辑:我需要每一行的数字。 当只有一个数字时,暗示只测量了宽度(包括任何小数部分,例如第 2 行)。 当有两个数字时,也测量了高度,但我只需要第一个数字的宽度(例如最后一行) 回答1 尝试下面的正则表达式,它将捕获第一个数字和可选的小数,在第一个'cm'之前 import re regex = re.compile('(\d+.*?)\s?cm') # this will works for all your example data # or # this asserted whatever come after the 1st digit group must be fractional number only

2022-05-17 04:26:08    分类:技术分享    python   regex   csv   numbers   data-processing

How to read huge CSV file with 29 million rows of data using .net

问题 我有一个巨大的.csv文件,具体来说是一个有 2900 万行的.TAB文件,文件大小约为 600 MB。 我需要将其读入IEnumerable集合。 我尝试过CsvHelper 、 GenericParser和其他一些解决方案,但总是以 Out of Memory 异常结束 请提出一种方法来做到这一点 我试过了 var deliveryPoints = new List<Point>(); using (TextReader csvreader1 = File.OpenText(@"C:\testfile\Prod\PCDP1705.TAB")) //StreamReader csvreader1 = new StreamReader(@"C:\testfile\Prod\PCDP1705.TAB")) using (var csvR1 = new CsvReader(csvreader1, csvconfig)) { csvR1.Configuration.RegisterClassMap<DeliveryMap>(); deliveryPoints = csvR1.GetRecords<Point>().ToList(); } using (GenericParser parser = new GenericParser()) { parser.SetDataSource

2022-05-17 03:01:44    分类:技术分享    c#   .net   csv   streamreader

Merge multiple csv files with same name in 10 different subdirectory

问题 我在每个目录中有 10 个具有相同文件名的不同子目录(每个目录 20 个文件),第 0 列是每个文件中的索引列。 例如 **strong text**DIRECTORY A - data_20170101_k.csv - data_20170102_k.csv - data_20170102_k.csv - data_20170103_k.csv - data_20170104_k.csv - data_20170105_k.csv ..... ..... - data_20170120_k.csv **DIRECTORY B** - data_20170101_k.csv - data_20170102_k.csv - data_20170102_k.csv - data_20170103_k.csv - data_20170104_k.csv - data_20170105_k.csv ..... ..... - data_20170120_k.csv **DIRECTORY C** - data_20170101_k.csv - data_20170102_k.csv - data_20170102_k.csv - data_20170103_k.csv - data_20170104_k.csv - data_20170105_k.csv ..... ..... -

2022-05-16 23:09:04    分类:技术分享    python   csv   pandas

Pandas DataFrame Read Skipping line XXX: expected X fields, saw Y

问题 我无法弄清楚我尝试加载的 csv 文件有什么问题: 我收到如下错误消息: b'Skipping line 2120260: expected 6 fields, saw 8\n' 但是当我查看这些线条时,它们对我来说看起来不错。 见下文——(我将在每个制表符 \t 后按回车键以使其更易于阅读)。 第 2,120,260 行(失败): ['user_000104\t 2005-09-12T06:25:50Z\t a019a8cf-2601-4a81-b3c3-7b279a873713\t Anne Clark\t 8f8e6bc0-c3c0-4062-875a-773a1de6206f\t Empty Me'] 第 9,000 行(未失败): ['user_000001\t 2008-06-15T17:28:31Z\t a3031680-c359-458f-a641-70ccbaec6a74\t Steve Reich\t 2991db42-3b19-4344-a340-605ac3fbd7e9\t Drumming: Part Iv'] 如果有人想自己尝试一下,请下载: http://www.dtic.upf.edu/~ocelma/MusicRecommendationDataset/lastfm-1K.html 并运行: inpFile2 = pd.read_csv

2022-05-16 22:29:04    分类:技术分享    python   csv   pandas

Python pandas load csv ANSI Format as UTF-8

问题 我想在 Jupyter Notebooks 中加载一个带有熊猫的 CSV 文件,其中包含 ä、ö、ü、ß 等字符。 当我用 Notepad++ 打开 csv 文件时,这里有一个示例行,它会导致 ANSI 格式出现问题: Empf„nger;Empf„ngerStadt;Empf„ngerStraáe;Empf„ngerHausnr.;Empf„ngerPLZ;Empf„ngerLand Receiver 的正确 UTF-8 结果应该是:Receiver 现在,当我在 Windows 上使用以下代码在 Python 3.6 pandas 中加载 CSV 数据时: df_a = pd.read_csv('file.csv',sep=';',encoding='utf-8') 我收到错误消息: UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe1 in position xy: invalid continuation byte 位置“xy”是导致错误消息的字符出现的位置 当我使用 ansi 格式加载我的 csv 文件时,它可以工作,但显示的变音符号不正确。 示例代码: df_a = pd.read_csv('afile.csv',sep=';',encoding='ANSI') 收件人表示为:收件人 注意:我尝试在

2022-05-16 20:59:04    分类:技术分享    python   csv   pandas   decode

delete specific rows from csv using pandas

问题 我有一个格式如下所示的 csv 文件: 我编写了以下代码来读取文件并随机删除转向值为 0 的行。我只想保留转向值为 0 的行的 10%。 df = pd.read_csv(filename, header=None, names = ["center", "left", "right", "steering", "throttle", 'break', 'speed']) df = df.drop(df.query('steering==0').sample(frac=0.90).index) 但是,我收到以下错误: df = df.drop(df.query('steering==0').sample(frac=0.90).index) locs = rs.choice(axis_length, size=n, replace=replace, p=weights) 文件“mtrand.pyx”,第 1104 行,在 mtrand.RandomState.choice (numpy/random/mtrand/mtrand.c:17062) ValueError: a 必须大于 0 你们能帮帮我吗? 回答1 使用@andrew_reece 的代码构建的示例 DataFrame In [9]: df Out[9]: center left right steering

2022-05-16 18:48:03    分类:技术分享    python-3.x   csv   pandas   numpy

How can you get CSV instead of JSON from the HTTP API of InfluxDB?

问题 我想在商业智能的上下文中使用 influxdb:ETL,连接来自其他数据库的数据,创建实时仪表板。 目前,我们正在使用标准的 BI 工具,例如 QLIK 或 Microsoft PowerBI。 根据文档,应该使用 HTTP API 进行查询(https://docs.influxdata.com/influxdb/v1.2/guides/querying_data/)我的问题是 API 的输出似乎只是 JSON。 这意味着每个分析师首先必须弄清楚如何将 JSON 转换为表格格式,然后再加入其他数据等。 是否可以告诉 API 生成类似 csv 的表格输出? 你有建议使用哪些工具来制作好的仪表板吗? 我尝试了 grafana,但在加入其他数据时似乎达不到要求。 回答1 $ curl -G 'http://localhost:8086/query' --data-urlencode "db=my_db" --data-urlencode "q=SELECT * FROM \"cpu\"" -H "Accept: application/csv" name,tags,time,host,region,value cpu,,1493031640435991638,serverA,us_west,0.64 回答2 您可以使用jq将 JSON 输出转换为 CSV,如下所示,这还允许您获取

2022-05-16 17:44:04    分类:技术分享    json   csv   business-intelligence   influxdb

Google Analytics API into CSV

问题 我正在尝试为我的 Google Analytics 帐户构建一个 API,以将数据导出为 CSV。 我的身份验证代码正常工作,但我现在正在努力以我想要的格式打印数据。 我暂时只拉维度国家、维度城市、度量会话。 (但是当我开始工作时这些会改变。)现在,它打印: Date Range(0) ga:sessions: 2 ga:country:United States ga:city:Los Angeles ... 但是,我想把它排成一行: date Range sessions country city 0 2 USA Los Angeles ... 我需要使用 Python 中的哪些代码? 下面是我所拥有的。 def initialize_analyticsreporting(): parser = argparse.ArgumentParser( formatter_class=argparse.RawDescriptionHelpFormatter, parents=[tools.argparser]) flags = parser.parse_args([]) http = credentials.authorize(httplib2.Http()) service = build('analytics', 'v4', http=http

2022-05-16 17:08:26    分类:技术分享    python   csv   google-analytics   google-api-python-client

How to convert a tab delimited text file to a csv file in Python

问题 我有以下问题: 我想将制表符分隔的文本文件转换为 csv 文件。 文本文件是我想用于情绪分析的 SentiWS 字典( https://github.com/MechLabEngineering/Tatort-Analyzer-ME/tree/master/SentiWS_v1.8c )。 我用来执行此操作的代码如下: txt_file = r"SentiWS_v1.8c_Positive.txt" csv_file = r"NewProcessedDoc.csv" in_txt = csv.reader(open(txt_file, "r"), delimiter = '\t') out_csv = csv.writer(open(csv_file, 'w')) out_csv.writerows(in_txt) 此代码将所有内容写在一行中,但我需要按照文件本身的正常预期将数据分为三行。 每个数据下还有一个空行,我不知道为什么。 我希望数据采用这种形式: 第 1行第 2 行 第 3行 字数据字 字数据字 代替 第 1 行 字、数据、字 字、数据、字 谁能帮我? 回答1 import pandas 它将制表符分隔符文本文件转换为数据框 dataframe = pandas.read_csv("SentiWS_v1.8c_Positive.txt",delimiter="\t"

2022-05-16 09:41:11    分类:技术分享    python-3.x   csv