1월 24일 오후 13:30 ~ 15:12
KNIME 이전 버전 설치
-> 1주차 KNIME 설치 최신 버전 4.7.0은 DB nodes가 없었기 때문에 한 단계 낮은 버전인 4.6.4를 downgrade 설치한다.
https://www.knime.com/downloads
기본정보를 입력한다.
그러면 최신 버전을 설치할 수 있는데 맨 하단에
if you are interested in a previous version of KNIME Analytics Platform, please click here을 누른다.
이유를 고르고 Access Previous Versions을 클릭한다.
그러면 원하는 버전이 스크롤되며 설치하면 된다.
* 1주차에 했던 4.7.0 파일은 OPEN이 불가능하다. -> 파일 불러오기 시에 최신버전 업데이트를 요청
File -> Install KNIME Extensions..를 들어가서 ERLWOOD를 검색한다.
ERLWOOD란?
전세계적으로 약물 설계의 효율성을 향상시키기 위해서 KNIME을 무료로 제공한다.
이 기능에는 인증된 파일 공유 및 기타 유틸리티 코드로 작업하기 위한 노드와 의학 및 계산 화학에 중점을 둔 제약 연구를 위한 노드가 포함된다. 노드는 일반적으로 SAR 데이터 조작 및 해석에 중점을 두지만 일반적인 2D/3D 산점도 Viewer도 포함된다.
ERLWOOD를 검색해서 2개의 파일을 다운로드 한다.
* 이미 설치된 상태이기 때문에 Hide items that are already installed 체크를 해제했다.
이제 Linear Regression (선형 회귀) 실습을 해보자.
File -> New -> New KNIME Workflow 클릭 -> 제목을 넣는다. Linear Practice
1. CSV Reader 노드로 -> F6 -> train.csv -> F7을 불러온다.
2. Statistics -> F6 -> Include에 x, y를 넣는다.
Statistics의 View : Statistics View로 확인할 수 있다.
● 통계자료 보기
● Node : Statistics
3. Line plot -> F6 -> F7 -> Interactive View : Line View
● 선도표 보기
● Node : Line plot
* 선도표는 직선 세그먼트로 연결된 마커라는 이름의 일련의 데이터 지점으로 정보를 표시하는 차트의 일종이다 수많은 분야에서 일반화된 기본적인 유형의 차트이다. 선도표는 시간 간격에 따라 데이터의 경향을 시각화하기 위해 종종 사용되는
데 이를 시계열이라고 하며, 이에 따라 선은 시간 순서에 따라 표현되기도 한다.
4. Scatter plot -> F6 -> F7 -> Interactive View : Scatter Plot
● 산점도 보기
● Node : Scatter plot
* 산점도는 직교 좌표계를 이용해 좌표상의 점들을 표시함으로써 두 개 변수 간의 관계를 나타내는 그래프 방법이다. 도표 위에 두 변수 x와 y의 값이 만나는 지점을 표시한 그림. 이 그림을 통해 두 변수 사이의 관계를 알 수 있다.
5. Linear Regression Learner -> F6 -> F7
● 선형 회귀 학습하기
● Node : Linear Regression Learner
* 통계학에서 선형 회귀는 종속 변수 y와 한 개 이상의 독립 변수 x와의 선형 상관 관계를 모델링하는 회귀분석 기법이다. 한 개의 설명 변수에 기반한 경우에는 단순 선형 회귀, 둘 이상의 설명 변수에 기반한 경우에는 다중 선형 회귀라고 한다.
값을 예측하는 것이 목적일 경우, 선형 회귀를 사용해 데이터에 적합한 예측 모형을 개발한다. 개발한 선형 회귀식을 사용해 y가 없는 x값에 대해 y를 예측하기 위해 사용할 수 있다.
View : Linear Regression Result View
View : Linear Regression Scatterplot View
6. CSV Reader 노드로 -> F6 -> test.csv -> F7을 불러온다.
* 보통 파일 하나에 partion을 나눠서 분석을 하는데 이처럼 학습파일과 테스트파일을 분리해서 돌릴 수 있다.
7. Regression Predictor -> F6 -> F7
Custom prediction column name을 체크한다. 새로운 예측 컬럼 생성
● 회귀 예측하기
● Node : Regression Predictor
* 회귀 모형을 사용하여 반응을 예측한다. 노드를 Regression node 및 일부 test 데이터에 연결해야 한다. test 데이터에 학습자 모형에서 사용하는 열이 포함된 경우에만 실행할 수 있다. 이 노드는 각 행에 대한 예측이 포함된 입력 테이블에 새 열을 추가한다.
Linear Regression Learner 노드 또는 Polynomial Regression Learner 노드를 사용하여 회귀 모형을 만들 수 있다.