Processing math: 100%
๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ

AI & ML

[ML] Linear Regression, ์„ ํ˜•ํšŒ๊ท€

๐Ÿ’ก Linear Regression

Linear Regression, ์„ ํ˜•ํšŒ๊ท€๋Š” Supervised learning(์ง€๋„ํ•™์Šต) ๋ฐฉ๋ฒ• ์ค‘ ํ•˜๋‚˜๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ€์žฅ ์ž˜ ๋Œ€๋ณ€ํ•˜๋Š” ํ•˜๋‚˜์˜ ์ง์„ ์„ ์ฐพ๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋‹ค.

์ž„์˜์˜ data์— ๋Œ€ํ•œ ์„ ํ˜• ํšŒ๊ท€ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ž. ์•„๋ž˜ ๊ทธ๋ฆผ์—์„œ ์ ๋“ค์€ data, ํŒŒ๋ž€ ์ง์„ ์€ data๋“ค์„ ๊ฐ€์žฅ ์ž˜ ํ‘œํ˜„ํ•˜๋Š” ์ง์„ ์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค.

์ด์ฒ˜๋Ÿผ ์„ ํ˜•ํšŒ๊ท€๋Š” x์™€ y์˜ ๊ด€๊ณ„๋ฅผ ๋ณด์—ฌ์ฃผ๋Š” ๊ฒƒ์œผ๋กœ x๋Š” ๋…๋ฆฝ ๋ณ€์ˆ˜, y๋ฅผ ์ข…์† ๋ณ€์ˆ˜๋ผ๊ณ  ํ•œ๋‹ค.

Hypothesis

์„ ํ˜•ํšŒ๊ท€๋ฅผ ํ†ตํ•ด ์ง์„ ์„ ์œ ์ถ”ํ•ด๋‚ด๊ธฐ ์œ„ํ•ด ์„ธ์šฐ๋Š” ์‹์„ Hypothesis, ๊ฐ€์„ค์ด๋ผ๊ณ  ํ•œ๋‹ค.

๊ฐ€์„ค์€ H(x)=W(x)+b์˜ ํ˜•ํƒœ์ด๋ฉฐ, ์ด๋•Œ W๋Š” Weight(๊ฐ€์ค‘์น˜), b๋Š” bias(ํŽธํ–ฅ)์ด๋‹ค.

Cost Function

์„ ํ˜•ํšŒ๊ท€์—์„œ ๋ชจ๋ธ๊ณผ ์‹ค์ œ ๋ฐ์ดํ„ฐ ๊ฐ„์˜ ์ฐจ์ด๋ฅผ ์ธก์ •ํ•˜๊ธฐ ์œ„ํ•ด Cost function(๋น„์šฉํ•จ์ˆ˜)๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค. ๋น„์šฉํ•จ์ˆ˜๋Š” ์ตœ์†Œ์ œ๊ณฑ๋ฒ•์„ ์‚ฌ์šฉํ•˜๋Š”๋ฐ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์‹์„ ์‚ฌ์šฉํ•œ๋‹ค.
cost(W,b)=1mฮฃmi=1(H(xi)โˆ’yi)2
์ˆ˜์‹์„ ๋ณด๋ฉด ๋น„์šฉํ•จ์ˆ˜๋Š” error ์ œ๊ณฑ์˜ ํ‰๊ท ๊ฐ’์ž„์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค. ์ด cost๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ Hypothesis๋ฅผ ์กฐ์ •ํ•˜๊ฒŒ ๋˜๊ณ  training data๋ฅผ fittingํ•˜๋Š” ์ด ๊ณผ์ •์ด learning์ธ ๊ฒƒ์ด๋‹ค.

Gradient Descent

์„ ํ˜•ํšŒ๊ท€์—์„œ์˜ ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•์€ ์‰ฝ๊ฒŒ ๋งํ•ด cost function์˜ ๊ธฐ์šธ๊ธฐ ํฌ๊ธฐ(์ ˆ๋Œ“๊ฐ’)์ด ์ž‘์•„์ง€๋Š” ๋ฐฉํ–ฅ์œผ๋กœ Hypothesis๋ฅผ ์กฐ์ •ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์ฆ‰ cost๊ฐ€ ์ž‘์•„์ง€๋Š” ๋ฐฉํ–ฅ์œผ๋กœ Weight์™€ bias๋ฅผ ์กฐ์ •ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•์€ ๋Œ€์ƒ์ด Convex Function์ธ ๊ฒฝ์šฐ ์ •ํ™•ํ•œ ๊ฐ’์„ ๋„์ถœํ•ด๋‚ผ ์ˆ˜ ์žˆ๋‹ค. Convex function์€ local minimum๊ณผ global minimum ๊ฐ™์€ function์ด๊ณ  cost function์˜ ๊ฒฝ์šฐ ์ด์ฐจ ๊ณก๋ฉด์ด๊ธฐ์— Convex function์— ํ•ด๋‹นํ•œ๋‹ค.



๋งŒ์•ฝ Convex function์— ํ•ด๋‹นํ•˜์ง€ ์•Š์„ ๊ฒฝ์šฐ ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ• ํŠน์„ฑ์ƒ ์ž„์˜์˜ ์œ„์น˜์—์„œ ์‹œ์ž‘ํ•˜๊ธฐ ๋•Œ๋ฌธ์— local minimun์„ ๋ฐ˜ํ™˜ํ•˜๋Š” ๊ฒฐ๊ณผ๋ฅผ ๋‚ณ์„ ์ˆ˜ ์žˆ๋‹ค. ์•„๋ž˜ ๊ทธ๋ฆผ์ฒ˜๋Ÿผ local minimum์ด global minimum๊ณผ ์ผ์น˜ํ•˜์ง€ ์•Š์„ ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— cost๊ฐ€ ์ตœ์†Œ๋ผ๋Š” ๋ณด์žฅ์ด ์—†๋Š” ๊ฒƒ์ด๋‹ค.



Weight๊ฐ’์„ ์กฐ์ •ํ•˜๋Š” ์‹์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

W:=Wโˆ’ฮฑ1mฮฃmi=1(W(xi)โˆ’yi)2




์„ ํ˜•ํšŒ๊ท€๋Š” ๋…๋ฆฝ ๋ณ€์ˆ˜์˜ ์ˆ˜์— ๋”ฐ๋ผ Simple Linear Regression(๋‹จ์ˆœ ์„ ํ˜•ํšŒ๊ท€)๊ณผ Multi-variable Linear Regression(๋‹ค์ค‘ ์„ ํ˜•ํšŒ๊ท€)์œผ๋กœ ๋‚˜๋‰œ๋‹ค.

Simple Linear Regression

๋‹จ์ˆœ ์„ ํ˜•ํšŒ๊ท€๋Š” ๋…๋ฆฝ ๋ณ€์ˆ˜ x๊ฐ€ ํ•˜๋‚˜์ธ ์„ ํ˜•ํšŒ๊ท€๋กœ ์•ž์„œ ์„ค๋ช…ํ•œ Hypothesis์™€ Cost function์„ ๊ฐ–๋Š”๋‹ค.

Multi-variable Linear Regression

๋‹ค์ค‘ ์„ ํ˜•ํšŒ๊ท€๋Š” ๋…๋ฆฝ ๋ณ€์ˆ˜๊ฐ€ ์—ฌ๋Ÿฌ๊ฐœ์ธ ์„ ํ˜•ํšŒ๊ท€๋กœ Hypothesis ๊ณ„์‚ฐ์„ ์œ„ํ•ด Matrix๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.
H(X)=XW+b
์ด๋•Œ XW๋กœ ํ‘œํ˜„ํ•˜๋Š” ์ด์œ ๋Š” ๋…๋ฆฝ ๋ณ€์ˆ˜์™€ weight๋ฅผ ํ–‰๋ ฌ๊ณฑ์œผ๋กœ ํ‘œํ˜„ํ•˜๊ธฐ ์œ„ํ•จ์ด๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์•„๋ž˜์™€ ๊ฐ™์ด 3๊ฐœ์˜ ๋…๋ฆฝ ๋ณ€์ˆ˜๋ฅผ ๊ฐ€์ง€๊ณ  ๊ทธ์— ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ๊ฐ€ 5๊ฐœ ์ฃผ์–ด์ง„ ๊ฒฝ์šฐ ํ–‰๋ ฌ๊ณฑ์œผ๋กœ ํ‘œํ˜„ํ•˜๋ฉด ์‰ฝ๊ฒŒ ๊ณ„์‚ฐ์ด ๊ฐ€๋Šฅํ•˜๊ฒŒ ๋œ๋‹ค.

'AI & ML' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€