Study103 Pandas(3) **데이터 수집 1.검색어를 입력받아서 신문 기사를 스크램핑해서 파일에 저장하기 1) 필요한 패키지 =>request:검색어가 한글이라면 인코딩을 하기 위해서 =>requests:웹의 문자열을 읽어오기 위한 패키지, 기본 패키지가 아니라 설치 해야함 =>beautifulsoup:HTML 문자열에서 원하는 데이터를 추출하기 위해서 필요한 패키지, 기본 패키지가 아니라서 설치를 해야함 2)URL확인 https://www.donga.com/news/search?query=%EC%9C%A0%EC%9E%AC%EC%84%9D&sorting=1&check_news=91&search_date=1&v1=&v2=&more=1 =>query:검색어 =>sorting,check_news,search_date 3)URL 확인을.. 2024. 2. 13. Pandas(2) **Pandas 를 이용한 데이터 수집 1.클립보드의 내용을 읽어오기 =>pd.read_clipboard() 2.자주 사용하는 dataset scikit-learn이나 seaborn에서 제공하는 데이터셋 load_digits() load_boston() load_iris() load_diabetes()등등 존재함 =>UCI 머신러닝 저장소:https://archive.ics.uci.edu/ml/index.php =>kaggle:https://www.kaggle.com =>데이콘:dacon.io 3.텍스트 파일의 데이터 읽기 =>텍스트 파일을 읽을 떄는 파일의 포맷과 인코딩 방식을 확인할 필요가 있음 =.인코딩 방식:utf-8,euc-kr.cp949(ms949-윈도우 한글 기본 포맷) 가 한글에 적용 1).. 2024. 2. 8. Pandas(1) Pandas 의 자료구조 1)pandas =>데이터 분석을 위한 고수준의 자료 구조와 데이터 분석 도구를 제공하는 패키지 =>제공하는 자료구조 Series:열이 1개인 자료구조 DataFrame:열이 1개 이상인 자료구조 2)Series =>Index와 Value 1개를 가지는 자료구조 =>생성 Seires(데이터,index=None,dtype=None,copy=False) 데이터는 python의 list,set, dict 와 numpy의 ndarray가 가능 index는 데이터를 가르키는 이름으로 list 나 set 그리고 ndarray 를 대입하면 0부터 시작하는 숫자 인덱스가 자동생성되고 dict를 설정하면 key가 index가 됩니다. index 옵션에 직접 인덱스를 대입해서 생성이 가능 dype.. 2024. 2. 7. Numpy(2) 1.연산 1)포함 여부를 판단하는 연산 =>in: 데이터가 포함되어 있으면 True 아니면 False =>not in:데이터가 포함되어 있지 않으면 True 아니면 False 2)배열의 모든 요소에 함수를 적용 =>과정 numpy.vectorize(함수)을 이용해서 벡터화된 함수를 생성 벡터화된 함수에 numpy 의 배열을 대입하면 함수의 결과를 다시 배열로 만들어서 리턴합니다. =>함수는 반드시 리턴해야합니다 =>list에서 사용하는 map 함수와 동일한 작업을 수행합니다 3)배열의 전치와 축변경 =>전치는 행과 열을 반전시키는 것 =>축 변경은 3차원 이상에서 데이터의 축의 순서를 바꾸는 것 =>머신러닝 등을 할 때 data augmentaion 이나 다양한 패턴을 찾고자 할 때 사용 =>행렬은 T라.. 2024. 2. 7. Numpy(1) 0.데이터 분석 주요 패키지 numpy:선형대수, 배열 패키지 pandas: 데이터 프레임을 자료형을 패키지 matplotlib:기본적인 그래프 그리기 차트 패키지 seaborn:통계용 시각화 패키지 statsmodels:통계 및 회귀 분석 시계열 분석 패키지 scipy:미분 적분 패키지 sympy:미분 적분 패키지 pgmpy:확률 관련 패키지 scikit-learn:머신러닝용 모델 패키지 keras&tensorflow&pytorch:딥러닝 패키지 제품을 만들떄는 tensorflow 학습용은 pytorch 구글은 tensorflow로 안드로이드나 브라우저에서 만드는 패키지를 사용 가능 그냥 공부용은 pytorch가 더 효율적 **numpy 1.특징 =>Python 에서 고성능의 과학적 계산(선형대수)를 .. 2024. 2. 6. Tableau(4) 1.기울기 차트 1)개요 =>하나의 기간이나 상태로부터 다른 기간이나 상태로 값이 변화하는 것을 출력하는 차트 =>2개의 기간을 이용하면 기울기 차트라고 하고 여러개의 기간을 이용하면 범프 차트라고 부르는 경우가 많습니다. 2)Superstore.csv 파일의 데이터를 이용해서 2015년 부터 2016년까지 West 지역 내 각 주(State)의 판매 순위 변화 출력 =>Superstore.csv 파일을 불러오기 =>시트에서 판매 순위 생성 - 계산된 필드 생성 Rank(Sum([Sales])) =>열에 [Order Date]필드를 배치 =>필터에 [Order Date]을 배치하고 2개의 년도만 선택 =>필터에 [Region]를 배치하고 West만 선택 =>State을 마크 선반의 텍스트 카드에 배치 =.. 2024. 2. 6. 이전 1 ··· 10 11 12 13 14 15 16 ··· 18 다음