메타코드의 "파이썬 입문 데이터분석 프로젝트 만들기" 강의를 수강하면서 공부한 내용을 정리한 글입니다.
1. 구글 드라이브 코랩에 연결하는 법
from google.colab import drive
drive.mount('/content/drive')
코드를 실행하면 구글 드라이브에 연동이 된다.
아래의 블로그를 참고하면 좋을듯하다.
https://jimmy-ai.tistory.com/14
2. Pandas로 csv 데이터 불러오기
import pandas as pd
df = pd.read_csv("path/file.csv")
type(df)
#위와같이 입력하면 pandas.core.frame.DataFrame 으로 출력
위와 같이 입력하면 path 경로의 file.csv 파일이 불러와진다.
3. Tabular Data
Tabular Data란?
- Tabular Data란 엑셀 파일 형식이나 관계형 데이터베이스의 테이블에 담을 수 있는 행과 열로 표현이 가능한 데이터
강의에서 어떤 식으로 구성되어 있는지 이해하기 쉽게 그림으로 보여주셨다.
df.shape : 행, 열 수 표시
(행, 열)
df.columns : 열 이름 나열
Index(["컬럼1", "컬럼2", ... , "컬럼n"], dtype = "object")
df.values : 데이터를 배열로 반환
[1, 2, 3, 4],
[2, 4, 6, 8],
...
df.index : 행 인덱스 반환
RangeIndex(start=0, stop=100, step=1)
4. Data Type
1. 범주형 데이터 : 제한된 수의 범주로 나눌 수 있는 데이터. ex) 성별, 혈액형, 학년 등.
2. 수치 데이터 : 수치로 표현되며 계산이 가능한 데이터
- 이진 데이터 : 0과 1로 구성된 데이터 ex) 합격 여부, 물품 구매 여부 (경우에 따라 범주형 데이터로 분류될 수 있음)
- 비율 데이터 : 값들 사이의 비율 비교가 가능한 데이터 ex) 키, 몸무게, 가격 등
5. DataFrame 조사
df.head() : 처음 5줄 출력(괄호안에 숫자 개수만큼 출력)
df.tail() : 마지막 5줄 출력(괄호안에 숫자 개수만큼 출력)
df.info() : 열 정보, 데이터 타입 요약
df.describe() : 숫자형 열 통계 요약
6. Column 선택, 추가 및 Column 명 변경
#단일 column 선택
df.age
df["age"]
#df["age"] 방식 말고 df.age 라고도 사용 가능한데 df["age"] 형태가 제일 안정적임
#다중 column 선택
df[["age", "name"]] #대괄호 2개 중요!
#column 추가
df["col1_plus_col2"] = df.col1 + df.col2
# column명 변경
df.rename(columns = {"col1" : "new_col1", "col2" : "new_col2"}, inploace = True)
7. Series
DataFrame에서 하나의 column만 선택하면 series이다.
type(df.col1)
# 결과 : pandas.core.series.Series
#max, min, sum, mean으로 기본 집계 가능
df.col1.unique() : 중복 없는 값들 나열
[1, 2, 3, 4, 5, ...]
df.col1.nunique() : 중복 없는 값들 수 세기
df.col1.value_counts() : 각 value에 해당되는 값들의 개수 출력
8. nlargest(), nsmallest()
# nlargest 다중 나열
df.col1.nlargest(10) #시리즈의 가장 큰 값을 기준으로 10개 출력
df.nlargest(10, ["col1", "col2"]) # col1을 기준으로 먼저 큰 값을 나열하고 col1이 같은 값이면 col2 나열 시작
매 강의 후에 항상 Exercise를 통해 다시 한번 복습을 할 수 있었고 덕분에 기억에 잘 남는 것 같았다.
'데이터 공부 정리' 카테고리의 다른 글
[데이터분석 공부] 파이썬 입문 데이터분석 프로젝트 만들기 - 2. 데이터 전처리 3 (with 메타코드M) (0) | 2024.02.25 |
---|---|
[데이터분석 공부] 파이썬 입문 데이터분석 프로젝트 만들기 - 2. 데이터 전처리 2 (with 메타코드M) (0) | 2024.02.19 |
[데이터분석 공부] 파이썬 입문 데이터분석 프로젝트 만들기 - 1. 파이썬 기본 문법 (with 메타코드M) (0) | 2024.02.13 |
[빅데이터분석기사 필기] 메타코드M 빅데이터분석기사 필기 공부 3과목 -분석모형 설계 & 데이터분할 (0) | 2024.01.27 |
[빅데이터분석기사 필기] 메타코드M 빅데이터분석기사 필기 공부(Orientation) (0) | 2024.01.20 |