KNIME(나임)으로 데이터를 불러어고 데이터를 전처리하는 과정을 살펴보도록 하겠습니다.
전처리 과정은 일반적인 코딩인 Python과 다른 코딩방법을 사용합니다.
또한 코딩 한줄이 아닌 노드(Node)를 활용하여 데이터를 불러오게 됩니다.
일반적인 코딩보다 훨씬 쉬우니 잘 따라오시길 바랍니다.
우선 데이터를 수집하도록 하겠습니다.
데이터는 '국토교통부 실거래가'를 활용하도록 하겠습니다. (링크: http://rtdown.molit.go.kr/)
일자는 20220501 ~ 20220531, 아파트, 서울특별시의 강남구를 선택하였습니다.
이제 이 데이터를 활용하여 데이터불러오기, 전처리를 진행하도록 하겠습니다.
(하단에 실습용 데이터를 업로드 해두었으니 활용하시면 됩니다)
1. workflow 생성
우선 앞장에서 포스팅 한 것을 기반으로 새로운 workflow를 생성해주도록 합니다.
workflow 이름은 'PRICE_v_0'으로 지정해주었습니다.
이렇게 빈 화면인 'workflow'가 생성되었습니다.
2. CVS reader 노드 불러오기
이제 노드를 불러보도록 하겠습니다.
Node repository에 'CSV Reader'를 입력해줍니다.
노드가 확인되면 더블클릭하여 노드모니터에 옮겨줍니다.
옮겨졌으면 빨간색 불과 느낌표가 뜹니다. 이건, 지금 데이터가 없어서 실행되지 않는다는 뜻 입니다.
이제 데이터를 불러오도록 하겠습니다.
3. 데이터 불러오기
'CSV Reader' 노드를 더블클릭 해주면 설정할 수 있는 창이 뜹니다.
이제 설정해주도록 하겠습니다.
설정은 매우 간단합니다.
'Browse'에 파일의 경로와 파일을 선택해주면 자동적으로 데이터가 insert 되고, OK를 눌러줍니다.
나임 모니터에 이제 노란색 불이 들어왔습니다.
실행 버튼을 눌러주거나, 'F7'을 눌러서 실행해줍니다.
이제 노란색 불에서 초록색 불로 들어왔고, 노드 모니터에는 데이터가 출력된 것이 확인되었습니다.
자세히 데이터를 들여다보겠습니다.
4. 데이터 확인하기
'CSV Reader' 노드에 마우스 우클릭 -> File Table을 눌러줍니다.
데이터를 확인할 수 있습니다.
오른쪽 상단에 'Spec-Columns'를 눌러 상세 column과 dtype(데이터타입)을 확인하도록 하겠습니다.
15개의 column과 column type을 확인 할 수 있습니다.
다음 포스팅에서는 필요없는 column을 지우고, column 명을 바꾸는 작업을 진행하도록 하겠습니다.
: 실습을 위해 상단의 '아파트실거래가' 데이터를 PC에 저장하여 사용해주시길 바랍니다.
'KNIME' 카테고리의 다른 글
[KNIME] 워크플로우 생성, 워크플로우 그룹 생성, KNIME 사용법, KNIME 강의 (0) | 2022.04.13 |
---|---|
[KNIME] KNIME(나임) 활용, 프로그램 사용법, 나임 화면 구성 / 나임 활용 (0) | 2022.04.13 |
[KNIME] 데이터 분석, 보고 및 통합 플랫폼 설명, NKIME 설치 및 다운로드 / 나임 설치 / 나임이란? (0) | 2022.04.07 |