4个Python数据读取的常见错误

栏目:茶油

更新时间:2021-05-10

浏览: 86316

4个Python数据读取的常见错误

产品简介

read_csv()是python数据分析包在pandas里面用于成倍较高的函数之一。

产品介绍

本文摘要:read_csv()是python数据分析包在pandas里面用于成倍较高的函数之一。

KOKapp

read_csv()是python数据分析包在pandas里面用于成倍较高的函数之一。它还包括的参数差不多20个,有可能一开始不一定必须原始告诉每个参数起到。

不过,随着用于的了解,实际数据环境越发简单,处置的数据上亿行后,就不会经常出现这样那样的问题,这样劝说我们反过头来再行去解读某些参数的起到。今天,总结平时用于read_csv(),常常遇上的几个问题。

KOKapp官网下载

1、UnicodeDecodeErrorread_csv配置文件读取文件的编码格式为:utf-8,如果读取文件无法被utf-8编码,就不会报上面的错误。可是我们怎么告诉读取文件的编码格式呢?今天,为大家讲解一个这方面的包在:chardet,它能回到文件的编码格式。用于前再行用pipinstallchardet,加装一下。

接手里这样撰写回到编码格式,file为读取的文件名称。#提供文件编码类型defget_encoding(file):#二进制方式加载,提供字节数据,检测类型withopen(file,'rb')asf:returnchardet.detect(f.read())['encoding']通过charadet包在分析出有文件的编码格式后,不管用于python原生的open,read,还是pandas的read_csv,都可以起源于给参数encoding.2、sep分隔符少见文件的分隔符,比如,,csv文件配置文件为逗号,不过常用的大数据库,比如hive,有时不会用于分隔符为,这时候就必须调整参数sep.这类错误较为好解决问题。3、加载文件时遇上和列数不对应的行,此时不会报错特别是在在读取文件为上亿行的,慢读过时,忽然附上这个拢,此行解析出有的字段个数与之前行列数不给定。

KOKapp官网下载

此时,必须调整一个参数:error_bad_lines为false,意思是忽视此行。pandas.read_csv(***,error_bad_lines=False)实际项目,读取的文件数据环境比我们预期的简单。假设我们的数据文件配置文件分隔符为逗号,然后如果某行的某个单元格给定为:'山东省,潍坊市,青州市'就光这一个单元格,就不会解析出有多列,报错那也是大自然的,这就拒绝我们在读取之前对数据作好充份的清除。

4、EOFinsidestringstartingatline错误这个错误在读取文件时,常常也不会经常出现。这类错误必须改动quoting参数。df=pd.read_csv(csvfile,quoting=csv.QUOTE_NONE)配置文件给定为0,遇上错误时,可以根据文档调整。quoting:intorcsv.QUOTE_*instance,default0Controlfieldquotingbehaviorpercsv.QUOTE_*constants.UseoneofQUOTE_MINIMAL(0),QUOTE_ALL(1),QUOTE_NONNUMERIC(2)orQUOTE_NONE(3).更加多少见加载错误,青睐大家facebook。


本文关键词:KOKapp,KOKapp官网下载

本文来源:KOKapp-www.txj360.com