반응형

Python 377

[Sklearn] 파이썬 로지스틱 회귀분석 예제(사이킷런 유방암 데이터셋)

파이썬 사이킷런 로지스틱 회귀분석 이번 글에서는 사이킷런의 유방암 데이터셋을 활용하여, 로지스틱 회귀 모델을 학습시켜보고, 성능 평가까지 진행하는 예제를 간단히 살펴보도록 하겠습니다. 사이킷런 유방암 데이터셋 불러오기 유방암 데이터셋을 불러오고, 데이터프레임으로 만드는 예시 코드입니다. 총 30가지 종류의 feature가 있지만, 여기서는 대표적으로 4가지 feature만 사용하여 로지스틱 모델 학습을 진행해보도록 하겠습니다. import pandas as pd from sklearn import datasets # 유방암 데이터셋 로드 data = datasets.load_breast_cancer() df = pd.DataFrame(data.data, columns = data.feature_names..

Python/Sklearn 2022.01.12

파이썬 초간단 주식 정보 크롤링 예제 : BeautifulSoup(bs4) 이용

파이썬 네이버 주식 정보 크롤링 예시 이번 포스팅에서는 BeautifulSoup 모듈을 활용하여 매우 간단하게 네이버 주식 사이트의 정보를 크롤링해보는 예제를 다루어보도록 하겠습니다. 먼저 네이버 금융의 국내증시 사이트에 접속을 해보도록 하겠습니다. 금융 정보에 대한 굉장히 많은 정보가 있는데요. 여기서는 이 중 현재 코스피의 수치와 등락률을 대상으로 크롤링을 진행해보는 예제를 다루어보도록 하겠습니다. 참고로, 여기서는 크롬 브라우저를 기준으로 설명을 진행해보도록 하겠습니다. (다른 브라우저들도 방법은 대체로 비슷합니다.) 개발자 도구를 열어 크롤링 준비 크롤링을 위하여 F12를 눌러 개발자 도구를 켠 뒤, 아래 그림의 파란색으로 표시한 부분의 화살표 모양 버튼을 클릭하여 크롤링 준비를 마치겠습니다. B..

Python/Crawling 2022.01.12

[Pandas] 데이터프레임 열 타입 확인 : df.info(), df.dtypes

파이썬 데이터프레임 컬럼 자료형 확인 : df.info(), df.dtypes 데이터프레임의 각 열에 대해서 타입 및 결측값 개수를 한눈에 확인해볼 수 있는 df.info() 함수에 대해서 소개해드리겠습니다. 또한, 타입만 확인하는 경우의 df.dtypes 속성도 같이 다루어보겠습니다. 데이터프레임 열 타입, 결측값 개수 확인 : df.info() 메소드 예시 데이터프레임으로 캐글의 타이타닉 데이터셋을 아래와 같이 불러오도록 하겠습니다. import pandas as pd df = pd.read_csv('train.csv') df 총 12개의 열로 구성된 데이터프레임이며, 행의 개수는 891개였습니다. df.info() 함수를 통하여 각 컬럼의 정보를 확인해보겠습니다. 인덱스 정보, 메모리 사용량 등 세..

Python/Pandas 2022.01.11

[Pandas] 파이썬 csv, tsv 파일 읽기, 내보내기 : read_csv, to_csv

파이썬 판다스에서 csv파일로 데이터프레임 만들기 용량에 대한 효율이 좋아 데이터프레임을 저장하고 불러올 때 많이 사용하는 csv파일을 읽어오고 저장할 수 있는 판다스의 read_csv, to_csv 함수의 사용법에 대하여 많이 사용되는 기능 위주로 살펴보도록 하겠습니다. 먼저, 다음과 같은 간단한 내용이 student.csv 파일로 저장되어있다고 가정해보겠습니다. 이 파일을 메모장으로 열게되면 다음과 같이 콤마(,)로 각 내용이 구분되어 있습니다. csv 파일 읽어오기 함수 : pd.read_csv pd.read_csv 함수의 가장 기본적인 사용법은 csv 파일의 디렉토리를 input으로 지정해주시면 기본 옵션으로 파일을 읽어와 데이터프레임을 만들어 줍니다. 디렉토리는 작업중인 파이썬 파일을 기준으로 ..

Python/Pandas 2022.01.11

[Numpy] 넘파이 어레이(배열) 인덱싱, 슬라이싱 총정리

파이썬 numpy array 인덱싱과 슬라이싱 파이썬 넘파이 어레이(배열)의 인덱싱, 슬라이싱 과정에 대해서 살펴보고, 몇 가지 중요한 특징과 예제를 정리해보는 시간을 가져보겠습니다. 아래의 간단한 2차원 array를 대상으로 예제를 설명하겠습니다. import numpy as np a = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12], [13, 14, 15, 16]]) 넘파이 어레이 인덱싱 인덱싱은 원소 1개만을 골라 추출하는 과정을 일컫습니다. 0번부터 인덱스가 시작함에 주의하며, axis마다 원하는 원소의 좌표를 순서대로 지정해주시면 됩니다. 뒤 쪽부터 인덱스를 가져오는 -1, -2, ...의 인덱싱도 리스트처럼 지원합니다. 예를 들어, 두 번째 행..

Python/Numpy 2022.01.10

[Pandas] 파이썬 데이터프레임 행 삭제, 열 삭제(drop 함수)

파이썬 판다스 행, 열 삭제 함수 : drop 파이썬에서 데이터프레임을 다룰 때, 원하는 행이나 열을 쉽게 삭제할 수 있는 drop 함수의 사용법을 살펴보겠습니다. 이 글은 판다스의 drop 메소드 공식 document의 내용을 바탕으로 작성되었습니다. 데이터프레임 행 삭제 방법 먼저, 아래와 같은 간단한 예시 데이터프레임이 있다고 가정해보겠습니다. import pandas as pd a = {'col1' : [1, 3, 5, 7, 9], 'col2' : ['a', 'b', 'c', 'd', 'e'], 'col3' : [10, 9, 8, 7, 6]} df = pd.DataFrame(a) print(df) col1 col2 col3 0 1 a 10 1 3 b 9 2 5 c 8 3 7 d 7 4 9 e 6 ..

Python/Pandas 2022.01.10

[Numpy] 파이썬 리스트를 어레이로, 어레이를 리스트로 변환(tolist 함수)

파이썬 list to array와 numpy array to list 방법 파이썬의 리스트 자료형을 넘파이 배열로 바꾸거나 numpy array에서 list 자료형으로 바꾸는 방법에 대해서 간단히 정리해보도록 하겠습니다. 파이썬 list를 numpy array로 바꾸기 : np.array 함수 리스트를 넘파이 어레이로 만드는 방법은 np.array 함수를 이용하면 됩니다. 단, 다차원 array에서는 내부 배열 간 원소 개수가 같아야 하기에, 해당 조건이 위배되는 경우에는 내부 원소는 list 형태로 잔류하게 됩니다. import numpy as np a = [1.5, 3.7, 4.4, 9.2] b = [[1, 3, 5], [2, 4, 6]] c = [[1], [2, 3], [4, 5, 6]] np.ar..

Python/Numpy 2022.01.09

[Numpy] 파이썬 리스트 vs 넘파이 어레이(배열) 차이

파이썬 list와 numpy array 차이 비교 이번 시간에는 얼핏 비슷해 보이지만 완전히 기능이 다른 파이썬의 리스트와 넘파이 어레이의 차이를 간단히 비교해보도록 하겠습니다. 파이썬 리스트 vs 어레이 차이 1 : 선언 조건 리스트는 숫자형, 문자열 등 모든 자료를 타입을 보존하여 가질 수 있습니다. (여러 가지 자료형 허용) 반면, 넘파이 어레이는 숫자형과 문자열이 섞이면 모두 문자열로 전환됩니다. (한 가지 자료형만 허용) import numpy as np a = [1, 3, 5, 'a', 'b'] # 1, 3, 5는 숫자형, 'a', 'b'는 문자열 b = np.array([1, 3, 5, 'a', 'b']) # '1', '3', '5', 'a', 'b'의 문자열로 전환 2차원 이상의 배열 구조..

Python/Numpy 2022.01.09

[Pandas] 리스트, 딕셔너리 자료형을 데이터프레임, Series로 바꾸기

파이썬 리스트, 딕셔너리에서 DataFrame, Series 변환 파이썬의 리스트, 딕셔너리 자료형에서 시리즈 혹은 데이터프레임 자료형으로 변환하는 경우들의 예시 코드와 결과에 대해 간단히 정리해보도록 하겠습니다. 리스트를 시리즈로 변환(list to Series) 리스트를 Series로 설정하는 과정은 pd.Series 함수에 해당 리스트를 input으로 넣어주면 간단하게 수행됩니다. import pandas as pd a = [10, 30, 20, 40] pd.Series(a) # 결과 0 10 1 30 2 20 3 40 dtype: int64 기본적으로 인덱스는 0, 1, 2, 3, ... 형태로 지정되나, index 인자로 인덱스를 원하는대로 설정하는 것도 가능합니다. a = [10, 30, 20..

Python/Pandas 2022.01.08

[Matplotlib] 파이썬 선 그래프 색상, 점선, 마커, 여러 개 : plt.plot

파이썬 plt 선 그리기 방법 정리 : plt.plot 함수 안녕하세요. 이번 글에서는 파이썬 matplotlib에서 선 그래프를 그려보고, 색상, 굵기, 선 스타일, 마커 등의 속성을 지정하는 방법, 그리고 여러 개의 선을 겹쳐서 그리는 방법을 살펴보겠습니다. matplotlib의 가장 기본적인 그래프 함수라고도 볼 수 있는 plt.plot 함수는 x, y축 좌표들의 목록(리스트, pd.Series 등)을 input으로 받아 그래프를 그릴 수 있게 해줍니다. 참고로, 각 축을 숫자가 아닌 범례로 지정하는 것도 가능하며, 임의의 두 좌표를 잇는 선도 얼마든지 그릴 수 있습니다. import matplotlib.pyplot as plt x = ['a', 'b', 'c', 'd'] y = [6, 9, 8, ..

Python/Matplotlib 2022.01.07
반응형