본문 바로가기
Study/Data전처리 및 통계

Pandas(1)

by 왕방개 2024. 2. 7.

Pandas 의 자료구조

1)pandas

=>데이터 분석을 위한 고수준의 자료 구조와 데이터 분석 도구를 제공하는 패키지

=>제공하는 자료구조

Series:열이 1개인 자료구조

DataFrame:열이 1개 이상인 자료구조

 

2)Series

=>Index와 Value 1개를 가지는 자료구조

=>생성

Seires(데이터,index=None,dtype=None,copy=False)

데이터는 python의 list,set, dict 와 numpy의 ndarray가 가능

index는 데이터를 가르키는 이름으로 list 나 set 그리고 ndarray 를 대입하면 0부터 시작하는 숫자 인덱스가 자동생성되고 dict를 설정하면 key가 index가 됩니다.

index 옵션에 직접 인덱스를 대입해서 생성이 가능

dype은 데이터 1개의 자료형으로 설정하지 않으면 pandas가 추론하고 직접 설명하면 자료형으로 생성

Series는 numpy의 1차원 배열과 동일한 구조입니다

copy는 True로 설정하면 데이터를 복제해서 생성하고 false 를 설정하면 참조를 가져와서 생성

=> index와 values 속성

index 속성을 호출하면 인덱스를 numpy의 ndarray로 리턴하고 values 속성을 호출하면 값들을 numpy의 ndarray로 리턴

 

딥러닝은 기본적으로 numpy의 ndarray을 가지고 수행하는데 가지고 있는 데이터가 pandas의 자료구조이면 values 속성이면 values 속성을 호출해서 numpy의 ndarray를 가지고 수행합니다.

index 속성을 이용해서 직접 인덱스 설정이 가능

 

=>하나의 데이터를 접근

시리즈[인덱스]를 이용

=>numpy와 동일한 형태로 연산을 수행하고 numpy의 함수 사용 가능

numpy의 1차원 배열과 Series의 차이는 index의 여부

x는 복제하는게아니라 데이터의 참조를 가져옴.따라서 x의 데이터를 변경하면 원본인 price의 데이터도 수정. y는 의데이터를 변경해도 원본인 price의 데이터를 변경되지 않은것

 

=>Series와 Series의 연산은 인덱스를 기준으로 합니다

동일한 인덱스가 없으면 연산을 수행하지 못합니다

 

3)DataFrame

=>인덱스를 가진 테이블 형태의 자료구조

=>관계형 데이터베이스의 테이블과 유사하지만 인덱스를 직접 설정할 수 잇다는 것이 다른 점입니다.

=>직접 생성하는 경우는 dict를 이용하는 경우가 많은데 dict의 키가 컬럼(열)의 이름이 되고 값이 셀의 실제값이 됩니다.

=>index를 직접 설정하지 않으면 0부터 연속되는 숫자로 인덱스가 만들어지고 index 속성을 이용해서 인덱스를 직접 설정하는 것이 가능합니다.

=>생성할때 columns 옵션에 리스트를 대입하면 컬럼의 이름을 직접 설정하는 것도 가능합니다.

=>head와 tail함수를 이용해서 앞에서 또는 뒤에서 몇개의 데이터를 추출할 수 있습니다.

매개변수가 없으면 5개를 가져옵니다.데이터를 가져올 때 데이터를 제대로 가져왔는지 확인할때 많이 사용

=>info()는 데이터프레임의 개요를 리턴

4 entries와 4 non-null을 통해 결측치가 있는지 확인

 

'Study > Data전처리 및 통계' 카테고리의 다른 글

Pandas(4)  (0) 2024.02.14
Pandas(3)  (0) 2024.02.13
Pandas(2)  (0) 2024.02.08
Numpy(2)  (0) 2024.02.07
Numpy(1)  (2) 2024.02.06