반응형

분류 전체보기 502

[Pandas] 파이썬 판다스 isin 함수 및 not isin 조건 사용 방법

Python pandas isin / not isin 파이썬의 판다스 라이브러리에서 특정 목록 중에 있는 값들을 조회하고 싶은 경우 유용하게 사용할 수 있는 함수인 isin과 isin 함수의 반대 조건에 대한 사용 방법을 정리해보도록 하겠습니다. 이해를 돕기 위해서 다음과 같은 간단한 데이터프레임 df를 예시로 들어 설명하겠습니다. import pandas as pd a = {"반" : [1, 1, 2, 2, 3, 3], "이름" : ["가", "나", "다", "라", "마", "바"], "학점" : ["A", "B", "B", "C", "A", "D"]} df = pd.DataFrame(a) df isin 함수 사용법 isin 함수는 df[열 이름].isin(목록 리스트) 형태로 사용해주시면 됩니다...

Python/Pandas 2022.09.18

[Sklearn] 파이썬 ROC 커브, AUC 면적 구하기 예제

Python scikit-learn ROC curve, AUC 파이썬에서 사이킷런을 활용하여 이진 분류 문제의 ROC 커브를 그려보고 AUC 값을 구해보는 방법을 간단한 예제를 통해 알아보도록 하겠습니다. 데이터셋 로드 및 전처리 이번 예제에서는 사이킷런에서 제공하는 기본 데이터셋인 breast cancer 분류 데이터셋을 활용해보겠습니다. 먼저, 아래의 코드로 target class에 대한 정보(0 또는 1이며, 악성/양성 종양 여부 의미)를 포함한 데이터셋을 데이터프레임 형태로 불러오겠습니다. import pandas as pd from sklearn import datasets # 유방암 데이터셋 로드 data = datasets.load_breast_cancer() df = pd.DataFrame..

Python/Sklearn 2022.09.16

[R] "파일 이름, 디렉터리 이름 또는 볼륨 레이블 구문이 잘못되었습니다" 해결 방법

개요 윈도우에서 R을 이용한 프로그래밍 도중 아래와 같은 경고 메시지가 등장하며 실행이 제대로되지 않는 문제가 있었습니다. Warning message: In normalizePath(path.expand(path), winslash, mustWork) : path[1]="C:/Users/???/Documents": 파일 이름, 디렉터리 이름 또는 볼륨 레이블 구문이 잘못되었습니다 원인 제 PC의 사용자 폴더 이름에 한글이 포함되어있었는데, 한글 디렉토리에 오류를 발생시키는 R Studio의 특성에 따라 라이브러리 호출 시 해당 폴더에 접근하는 과정에서 발생하는 오류인 것으로 추측되었습니다. 따라서, 한글이 포함되지 않은 디렉토리로 라이브러리를 저장해서 접근하도록 만들어줘야 합니다. 해결법 C:/Prog..

R 2022.09.13

파이썬에서 다른 py 파일의 변수 값을 가져오는 방법

파이썬에서 다른 파일에서 선언했던 변수를 그대로 호출하고 싶은 경우가 있습니다. 결론부터 말하면, 변수도 함수나 클래스를 가져올 때처럼 import 혹은 from ~ import로 똑같이 가져올 수 있습니다. 예시를 하나 들어서 이해를 도와드려보도록 하겠습니다. 아래와 같은 my_file.py 파일이 있다고 가정해보겠습니다. a = 3 b = 5 c = a + b a -= 3 최종 실행 결과는 a = 0, b = 5, c = 8이 저장되어 있음을 참고해주세요. import로 다른 파일 변수 참조 먼저, import 형태로 해당 py 파일을 모듈로 가져와 보겠습니다. 모듈 호출 후, 모듈명.변수명 형태로 변수들을 가져올 수 있습니다. import my_file # my_file.py 내의 변수들 참조 ne..

[Pytorch] 파이토치 과적합 방지(Early Stopping) 구현 방법 정리

파이토치 학습 과정에서 각 epoch가 끝나는 시점에서 validation loss 혹은 validation accuracy 등의 성능 지표를 측정하여 과적합이 의심되는 특정 시점을 넘어가는 경우 조기에 학습을 종료하는 early stopping 기능을 구현하는 방법들을 정리해보도록 하겠습니다. 1. 직접 구현 각 epoch가 끝나는 시점마다 evaluation을 진행 후, 성능 개선 여부를 감시하는 식의 코드를 간단하게 구현해볼 수 있습니다. 예시 pseudo-code의 형태는 다음과 같습니다. best_loss = 10 ** 9 # 매우 큰 값으로 초기값 가정 patience_limit = 3 # 몇 번의 epoch까지 지켜볼지를 결정 patience_check = 0 # 현재 몇 epoch 연속으로..

Python/Pytorch 2022.09.08

[R] 행 이름(인덱스) 지정, 초기화 방법

R에서 행 이름 부분인 인덱스를 원하는 벡터나 특정 열로 설정하는 방법과 원래의 숫자 순서로 초기화하는 방법에 대하여 간략하게 요약하여 설명해보도록 하겠습니다. 예시로, 아래와 같은 데이터프레임이 df라는 변수에 있다고 가정해보도록 하겠습니다. > df 이름 국어 수학 영어 1 AAA 80 90 100 2 BBB 90 75 85 3 CCC 95 80 80 4 DDD 85 95 90 R 행 이름 변경(인덱스 설정) 벡터로 행 이름 지정하기 rownames(df) rownames(df) df 이름 국어 수학 영어 가 AAA 80 90 100 나 BBB 90 75 85 다 CCC 95 80 80 라 DDD 85 95 90 특정 열로 행 이름 지정하기 rownames(df) rownames(df) df 이름 국..

R 2022.09.06

[R] 행 추출 및 열 추출 방법 정리(특정 위치, 특정 조건)

R의 데이터프레임, tibble 등의 자료형에서 원하는 위치 혹은 조건을 만족하는 행 / 열만을 가져오는 방법들을 총정리해보도록 하겠습니다. 우선, 아래와 같은 데이터가 df라는 변수에 저장되어 있다고 가정해보고 해당 데이터에서 행 및 열 추출을 여러 가지 방법으로 진행해보도록 하겠습니다. 참고 : 아래 설명에 df로 등장하는 부분들에 데이터가 저장된 변수 이름을 대입하시면 됩니다. R 위치 기준 행 / 열 추출 행 1개 가져오기 df[위치 번호, ] 형태(쉼표 필수)로 해당 위치의 행 1개만을 추출해낼 수 있습니다. 첫 번째 행을 가져오는 예시 코드 및 결과는 다음과 같습니다. > df[1,] # A tibble: 1 × 4 이름 국어 수학 영어 1 AAA 80 90 100 행 여러 개 가져오기 여러 ..

R 2022.09.05

[R] 열 이름 추출 / 변경(전체 컬럼 동시에, 특정 컬럼만)

R에서 데이터프레임의 열(column) 이름을 확인하는 방법과 컬럼명을 바꾸는 방법에 대하여 정리해보도록 하겠습니다. 먼저, 아래와 같은 score.xlsx 엑셀 파일이 있다고 가정해보겠습니다. 아래 코드를 통하여 엑셀 파일을 R에서 열어줍니다. > library(readxl) > df = read_excel("score.xlsx") 위에서 열었던 df 변수의 내용을 확인해보면 아래와 같이 나타날 것입니다. 이제 위 데이터프레임 df에 대하여 열 이름 조회 및 변경을 진행해보겠습니다. R 데이터프레임 컬럼 이름 확인 names(데이터프레임명) 혹은 colnames(데이터프레임명) 코드를 통하여 컬럼명을 쉽게 추출할 수 있습니다. > names(df) [1] "이름" "국어" "수학" "영어" > coln..

R 2022.09.05

CLS 토큰이란? / 파이썬 BERT CLS 임베딩 벡터 추출 예제

[CLS] 토큰이란? BERT, RoBERTa 등의 언어 모델에서 문장 토큰들이 인코딩된 결과를 활용하는 것이 유용한 경우가 많은데 가장 첫 위치에 문장 공통 토큰인 [CLS]를 두어 해당 위치의 임베딩 결과를 대표 임베딩으로 주로 사용하게 되었습니다. BERT-base 크기의 모델의 경우 토큰 길이는 512이고 각 토큰 위치에서의 임베딩 결과는 768 차원 벡터로, 문장 input 1개에 대한 총 output 텐서의 shape는 512 * 768이 됩니다. 이 중 가장 앞 위치의 768 차원 벡터를 가져와 해당 문장의 대표 임베딩 결과로 활용하는 것이고, 흔히 NLP 관련 논문에서 CLS 토큰 임베딩으로 일컫는 것이 바로 이것입니다. CLS 임베딩 벡터 추출 코드 예제 먼저, BERT-base 모델을 ..

Python/NLP Code 2022.09.03

R 설치 및 R Studio 설치 방법 과정 요약(윈도우 기준)

Windows R / R Studio Install 윈도우 환경을 기준으로 R 및 R 스튜디오를 까는 방법의 과정들을 간단 명료하게 요약하여 설명해보도록 하겠습니다. R 설치 방법 1. 먼저, https://cran.r-project.org/ 사이트에 접속해줍니다. 2. 위 사진의 붉은색 박스 부분 중 현재 운영체제에 맞는 버전을 선택합니다. (여기서는 Windows를 선택해보겠습니다.) 3. 가장 위의 base 버전 다운로드 링크를 클릭하여 들어가줍니다. 4. 가장 위의 다운로드 링크를 들어가면 설치 exe 파일 다운로드가 시작됩니다. (수 초 ~ 수 분 가량이 소요될 수 있습니다.) 5. 다운이 완료된 exe 파일을 실행해준 뒤, 원하는 언어를 설정해줍니다. 6. 위 사진의 1~8에 해당하는 과정으로..

R 2022.09.01
반응형