본문 바로가기

Study96

Pandas(2) **Pandas 를 이용한 데이터 수집 1.클립보드의 내용을 읽어오기 =>pd.read_clipboard() 2.자주 사용하는 dataset scikit-learn이나 seaborn에서 제공하는 데이터셋 load_digits() load_boston() load_iris() load_diabetes()등등 존재함 =>UCI 머신러닝 저장소:https://archive.ics.uci.edu/ml/index.php =>kaggle:https://www.kaggle.com =>데이콘:dacon.io 3.텍스트 파일의 데이터 읽기 =>텍스트 파일을 읽을 떄는 파일의 포맷과 인코딩 방식을 확인할 필요가 있음 =.인코딩 방식:utf-8,euc-kr.cp949(ms949-윈도우 한글 기본 포맷) 가 한글에 적용 1).. 2024. 2. 8.
Pandas(1) Pandas 의 자료구조 1)pandas =>데이터 분석을 위한 고수준의 자료 구조와 데이터 분석 도구를 제공하는 패키지 =>제공하는 자료구조 Series:열이 1개인 자료구조 DataFrame:열이 1개 이상인 자료구조 2)Series =>Index와 Value 1개를 가지는 자료구조 =>생성 Seires(데이터,index=None,dtype=None,copy=False) 데이터는 python의 list,set, dict 와 numpy의 ndarray가 가능 index는 데이터를 가르키는 이름으로 list 나 set 그리고 ndarray 를 대입하면 0부터 시작하는 숫자 인덱스가 자동생성되고 dict를 설정하면 key가 index가 됩니다. index 옵션에 직접 인덱스를 대입해서 생성이 가능 dype.. 2024. 2. 7.
Numpy(2) 1.연산 1)포함 여부를 판단하는 연산 =>in: 데이터가 포함되어 있으면 True 아니면 False =>not in:데이터가 포함되어 있지 않으면 True 아니면 False 2)배열의 모든 요소에 함수를 적용 =>과정 numpy.vectorize(함수)을 이용해서 벡터화된 함수를 생성 벡터화된 함수에 numpy 의 배열을 대입하면 함수의 결과를 다시 배열로 만들어서 리턴합니다. =>함수는 반드시 리턴해야합니다 =>list에서 사용하는 map 함수와 동일한 작업을 수행합니다 3)배열의 전치와 축변경 =>전치는 행과 열을 반전시키는 것 =>축 변경은 3차원 이상에서 데이터의 축의 순서를 바꾸는 것 =>머신러닝 등을 할 때 data augmentaion 이나 다양한 패턴을 찾고자 할 때 사용 =>행렬은 T라.. 2024. 2. 7.
Numpy(1) 0.데이터 분석 주요 패키지 numpy:선형대수, 배열 패키지 pandas: 데이터 프레임을 자료형을 패키지 matplotlib:기본적인 그래프 그리기 차트 패키지 seaborn:통계용 시각화 패키지 statsmodels:통계 및 회귀 분석 시계열 분석 패키지 scipy:미분 적분 패키지 sympy:미분 적분 패키지 pgmpy:확률 관련 패키지 scikit-learn:머신러닝용 모델 패키지 keras&tensorflow&pytorch:딥러닝 패키지 제품을 만들떄는 tensorflow 학습용은 pytorch 구글은 tensorflow로 안드로이드나 브라우저에서 만드는 패키지를 사용 가능 그냥 공부용은 pytorch가 더 효율적 **numpy 1.특징 =>Python 에서 고성능의 과학적 계산(선형대수)를 .. 2024. 2. 6.
Tableau(4) 1.기울기 차트 1)개요 =>하나의 기간이나 상태로부터 다른 기간이나 상태로 값이 변화하는 것을 출력하는 차트 =>2개의 기간을 이용하면 기울기 차트라고 하고 여러개의 기간을 이용하면 범프 차트라고 부르는 경우가 많습니다. 2)Superstore.csv 파일의 데이터를 이용해서 2015년 부터 2016년까지 West 지역 내 각 주(State)의 판매 순위 변화 출력 =>Superstore.csv 파일을 불러오기 =>시트에서 판매 순위 생성 - 계산된 필드 생성 Rank(Sum([Sales])) =>열에 [Order Date]필드를 배치 =>필터에 [Order Date]을 배치하고 2개의 년도만 선택 =>필터에 [Region]를 배치하고 West만 선택 =>State을 마크 선반의 텍스트 카드에 배치 =.. 2024. 2. 6.
tableau(3) 1,분포시각화 1)Scatter chart (산점도, 산포도, 원 그래프) 2)BoxPlot Chart =>개요 분포에 통계적 맥락을 추가한 차트 =>의사별 대기시간을 산포도로 만들고, 박스 플롯을 추가 데이터는 Hospital Visits.csv 파일 이용 마크 유형을 원(Scatter)을 선택 Department Type을 행 선반에 배치 산점도는 근본적으로 숫자 필드여야됩니다. 2개의 날짜 차이를 필드로 생성 : Time_diff 계산식- DATEDIFF('day',[Date of Admit],[Date of Discharge])' Time_diff 필드를 열 선반에 배치하고 세부 메뉴를 선택해서 평균으로 측정값을 변경 Doctor 필드를 세부 정보 카드에 배치 여기까지 수행하면 가로 방향으로 시간.. 2024. 2. 2.