๐ RAG ์ฑ๋ฅ ํ๊ฐ ์งํ: ์์ ๋ฏธ๊ณ ๋ ค ์งํ(Rank-Unaware) - Precision, Recall, F1-Score
RAG์ ์ฑ๋ฅ์ ํ๊ฐํ๋ ๊ฒ์ ๋งค์ฐ ์ค์ํฉ๋๋ค. ํนํ ๊ฒ์๋ ๊ฒฐ๊ณผ์ ์์๋ฅผ ๊ณ ๋ คํ์ง ์๊ณ ๋จ์ํ '์ผ๋ง๋ ๊ด๋ จ ์๋ ํญ๋ชฉ์ ์ ์ฐพ์๋๋๊ฐ'๋ฅผ ํ๊ฐํ๋ ๊ธฐ๋ณธ์ ์ธ ์งํ๋ก Precision(์ ๋ฐ๋), Recall(์ฌํ์จ), ๊ทธ๋ฆฌ๊ณ ์ด ๋์ ์กฐํ ํ๊ท ์ธ F1-Score๊ฐ ๋๋ฆฌ ์ฌ์ฉ๋ฉ๋๋ค. ์ด ๋ ธํธ์์๋ ๊ฐ ์งํ์ ์ ์, ์๋ฏธ, ๊ณ์ฐ ๋ฐฉ๋ฒ, ๊ทธ๋ฆฌ๊ณ ์ฅ๋จ์ ์ ์์ธํ ์ดํด๋ณด๊ฒ ์ต๋๋ค. ๐ค
1. ์ ์-์ค๋ช -์์
Precision (์ ๋ฐ๋) ๐ฏ
- ์ ์: Precision์ ๊ฒ์ ์์คํ ์ด '๊ด๋ จ ์๋ค'๊ณ ํ๋จํ์ฌ ์ฌ์ฉ์์๊ฒ ์ ์ํ ๊ฒฐ๊ณผ๋ฌผ๋ค ์ค์์, ์ค์ ๋ก ์ฌ์ฉ์์ ์๊ตฌ์ ๊ด๋ จ ์๋ ํญ๋ชฉ์ ๋น์จ์ ์ธก์ ํ๋ ์งํ์ ๋๋ค. Positive Predictive Value (PPV)๋ผ๊ณ ๋ ๋ถ๋ฆฝ๋๋ค.
- ์ค๋ช : Precision์ ๊ฒ์ ๊ฒฐ๊ณผ์ '์ ํ์ฑ' ์ ์ด์ ์ ๋ง์ถฅ๋๋ค. ์ฆ, "๊ฐ์ ธ์จ ๊ฒฐ๊ณผ๋ค์ด ์ผ๋ง๋ ์ธ๋ชจ ์๋๊ฐ?"๋ผ๋ ์ง๋ฌธ์ ๋ตํฉ๋๋ค. Precision์ด ๋๋ค๋ ๊ฒ์ ๊ฒ์ ๊ฒฐ๊ณผ์ ๊ด๋ จ ์๋ ์ ๋ณด(์ฐ๋ ๊ธฐ ์ ๋ณด)๊ฐ ์ ๋ค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ์คํธ ๋ฉ์ผ ๋ถ๋ฅ๊ธฐ์์ Precision์ด ๋๋ค๋ฉด, ์ผ๋ฐ ๋ฉ์ผ์ ์คํธ ๋ฉ์ผ๋ก ์๋ชป ๋ถ๋ฅํ๋ ๊ฒฝ์ฐ๊ฐ ์ ๋ค๋ ๋ป์ ๋๋ค. ์ ๋ณด ๊ฒ์์์๋ ์ฌ์ฉ์๊ฐ ๊ด๋ จ ์๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ ๊ฒ์ ์ต์ํํ๊ณ ์ถ์ ๋ ์ค์ํ ์งํ๊ฐ ๋ฉ๋๋ค.
- ์์: ๋ํ์์ด '๋ฅ๋ฌ๋' ๊ด๋ จ ์ต์ ๋ ผ๋ฌธ์ ์ฐพ๊ธฐ ์ํด ๊ต๋ด ๋์๊ด ๋ฐ์ดํฐ๋ฒ ์ด์ค๋ฅผ ๊ฒ์ํ๋ค๊ณ ๊ฐ์ ํด ๋ด ์๋ค. ๐ง ์์คํ ์ด ์ด 20๊ฐ์ ๋ ผ๋ฌธ์ ๊ฒ์ ๊ฒฐ๊ณผ๋ก ๋ณด์ฌ์ฃผ์๊ณ (Retrieved Content), ์ด ์ค 15๊ฐ์ ๋ ผ๋ฌธ์ด ์ค์ ๋ก '๋ฅ๋ฌ๋'๊ณผ ์ง์ ์ ์ผ๋ก ๊ด๋ จ๋ ์ ํจํ ๋ ผ๋ฌธ(Relevant)์ด์๋ค๋ฉด, Precision์ 15/20 = 0.75 (75%)๊ฐ ๋ฉ๋๋ค. ์ด๋ ๊ฒ์ ๊ฒฐ๊ณผ์ 75%๊ฐ ์ฌ์ฉ์๊ฐ ์ํ๋ ์ ๋ณด์๋ค๋ ์๋ฏธ์ด๋ฉฐ, ๋๋จธ์ง 25%๋ ๊ฒ์์ด์ ๊ด๋ จ ์๊ฑฐ๋ ์ค๋๋ ๋ ผ๋ฌธ ๋ฑ ์ํ์ง ์๋ ๊ฒฐ๊ณผ์์ ์ ์์ต๋๋ค.
(์ฌ๊ธฐ์ TP: True Positive - ๊ด๋ จ ์๋ ํญ๋ชฉ์ ๊ด๋ จ ์๋ค๊ณ ์์ธก, FP: False Positive - ๊ด๋ จ ์๋ ํญ๋ชฉ์ ๊ด๋ จ ์๋ค๊ณ ์์ธก)
Recall (์ฌํ์จ) ๐
- ์ ์: Recall์ ์ค์ ์ ์ฒด ๊ด๋ จ ์๋ ํญ๋ชฉ๋ค ์ค์์, ๊ฒ์ ์์คํ ์ด '๊ด๋ จ ์๋ค'๊ณ ํ๋จํ์ฌ ์ฌ์ฉ์์๊ฒ ์ค์ ๋ก ์ฐพ์๋ด ์ ์ํ ํญ๋ชฉ์ ๋น์จ์ ์ธก์ ํ๋ ์งํ์ ๋๋ค. Sensitivity(๋ฏผ๊ฐ๋) ๋๋ Hit Rate๋ผ๊ณ ๋ ๋ถ๋ฆฝ๋๋ค.
- ์ค๋ช : Recall์ ๊ฒ์ ์์คํ ์ด ๊ด๋ จ ์๋ ์ ๋ณด๋ฅผ '์ผ๋ง๋ ๋น ์ง์์ด' ์ฐพ์๋ด๋ ๋ฅ๋ ฅ์ ์ด์ ์ ๋ง์ถฅ๋๋ค. ์ฆ, "์ฐพ์์ผ ํ ๊ฒ๋ค์ ์ผ๋ง๋ ๋์น์ง ์๊ณ ์ฐพ์๋๋๊ฐ?"๋ผ๋ ์ง๋ฌธ์ ๋ตํฉ๋๋ค. Recall์ด ๋๋ค๋ ๊ฒ์ ์ค์ ๊ด๋ จ ์๋ ์ ๋ณด๋ค ์ค ๋๋ถ๋ถ์ ๊ฒ์ ๊ฒฐ๊ณผ๋ก ํฌํจํ๋ค๋ ์๋ฏธ์ ๋๋ค. ์๋ฅผ ๋ค์ด, ์ ์ง๋จ ๋ชจ๋ธ์์ Recall์ด ๋๋ค๋ ๊ฒ์ ์ค์ ์ ํ์๋ฅผ ๋์น์ง ์๊ณ '์์ฑ'์ผ๋ก ์ง๋จํ๋ ๋น์จ์ด ๋๋ค๋ ๋ป์ ๋๋ค (False Negative๊ฐ ์ ์). ์ ๋ณด ๊ฒ์์์๋ ์ฌ์ฉ์๊ฐ ๊ฐ๋ฅํ ๋ชจ๋ ๊ด๋ จ ์ ๋ณด๋ฅผ ํ์ธํด์ผ ํ ๋ ์ค์ํ ์งํ๊ฐ ๋ฉ๋๋ค.
- ์์: ์์ '๋ฅ๋ฌ๋' ๋ ผ๋ฌธ ๊ฒ์ ์์์์, ์ค์ ๋ก ๊ต๋ด ๋ฐ์ดํฐ๋ฒ ์ด์ค์ '๋ฅ๋ฌ๋'๊ณผ ๊ด๋ จ๋ ๋ ผ๋ฌธ์ด ์ด 50๊ฐ ์กด์ฌ(Ground Truth)ํ๋ค๊ณ ๊ฐ์ ํด ๋ด ์๋ค. ๐ ์์คํ ์ด ๊ฒ์ ๊ฒฐ๊ณผ๋ก ์ ์ํ 20๊ฐ ์ค ๊ด๋ จ ์๋ ๋ ผ๋ฌธ์ 15๊ฐ์์ต๋๋ค (TP=15). ์ด ๊ฒฝ์ฐ Recall์ 15/50 = 0.3 (30%)์ด ๋ฉ๋๋ค. ์ด๋ ์์คํ ์ด ์ฐพ์์ผ ํ ๊ด๋ จ ๋ ผ๋ฌธ 50๊ฐ ์ค 30%์ธ 15๊ฐ๋ง ์ฐพ์๋๊ณ , ๋๋จธ์ง 70% (35๊ฐ)๋ ๊ฒ์ ๊ฒฐ๊ณผ์ ํฌํจ์ํค์ง ๋ชปํ๊ณ ๋์ณค๋ค๋ ์๋ฏธ์ ๋๋ค.
(์ฌ๊ธฐ์ FN: False Negative - ๊ด๋ จ ์๋ ํญ๋ชฉ์ ๊ด๋ จ ์๋ค๊ณ ์์ธกํ์ฌ ๋์นจ)
F1-Score (F1 ์ ์) โ๏ธ
- ์ ์: F1-Score๋ Precision๊ณผ Recall์ ์กฐํ ํ๊ท (Harmonic Mean) ์ ๋๋ค. ๋ ์งํ์ ๊ท ํ์ ๊ณ ๋ คํ์ฌ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๋์ ์ซ์๋ก ๋ํ๋ ๋๋ค.
- ์ค๋ช : Precision๊ณผ Recall์ ์ข ์ข trade-off ๊ด๊ณ์ ์์ต๋๋ค. ์ฆ, Precision์ ๋์ด๋ ค๊ณ ํ๋ฉด Recall์ด ๋ฎ์์ง๊ณ , Recall์ ๋์ด๋ ค๊ณ ํ๋ฉด Precision์ด ๋ฎ์์ง๋ ๊ฒฝํฅ์ด ์์ต๋๋ค. F1-Score๋ ์ด ๋ ์งํ ์ค ์ด๋ ํ์ชฝ์ ์น์ฐ์น์ง ์๊ณ , ๋ ๋ชจ๋๋ฅผ ์ข ํฉ์ ์ผ๋ก ๊ณ ๋ คํ์ฌ ์ฑ๋ฅ์ ํ๊ฐํ๊ณ ์ ํ ๋ ์ ์ฉํฉ๋๋ค. F1-Score๋ 0๊ณผ 1 ์ฌ์ด์ ๊ฐ์ ๊ฐ์ง๋ฉฐ, 1์ ๊ฐ๊น์ธ์๋ก ์ฑ๋ฅ์ด ์ข๋ค๊ณ ํด์ํฉ๋๋ค. ์กฐํ ํ๊ท ์ ์ฐ์ ํ๊ท ๊ณผ ๋ฌ๋ฆฌ, ๋ ๊ฐ ์ค ์์ ๊ฐ์ ๋ ํฐ ์ํฅ์ ๋ฐ๊ธฐ ๋๋ฌธ์ ์ด๋ ํ ์งํ๋ผ๋ ๊ทน๋จ์ ์ผ๋ก ๋ฎ์ผ๋ฉด F1-Score ์ญ์ ๋ฎ์์ง๋ ํน์ง์ด ์์ต๋๋ค.
- ์์: ์ '๋ฅ๋ฌ๋' ๋
ผ๋ฌธ ๊ฒ์ ์์์์ Precision = 0.75 ์ด๊ณ Recall = 0.3 ์ด์์ต๋๋ค. ์ด ๊ฒฝ์ฐ F1-Score๋
(42.8%) ์ ๋๋ค. ์ด ๊ฐ์ Precision๊ณผ Recall์ ์ข ํฉ์ ์ผ๋ก ๊ณ ๋ คํ์ ๋ ์์คํ ์ ์ฑ๋ฅ์ ๋ํ๋ ๋๋ค. ๋ง์ฝ Precision๋ง ๋๊ฑฐ๋ Recall๋ง ๋์๋ค๋ฉด F1-Score๋ ์ด๋ณด๋ค ๋ฎ๊ฒ ๋์ฌ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๊ฒ์ ๊ฒฐ๊ณผ๋ฅผ ๋งค์ฐ ์๊ฒฉํ๊ฒ ํํฐ๋งํ์ฌ ๊ด๋ จ์ฑ์ด ํ์คํ 1๊ฐ์ ๋ ผ๋ฌธ๋ง ๋ณด์ฌ์คฌ๋ค๋ฉด (TP=1, FP=0), Precision์ 1.0 (100%)์ด์ง๋ง, Recall์ 1/50=0.02 (2%)๊ฐ ๋์ด F1-Score๋ ์ฝ 0.039๊ฐ ๋ฉ๋๋ค. ๋ฐ๋๋ก ๋ชจ๋ ๋ ผ๋ฌธ(์: 1000๊ฐ)์ ๋ค ๋ณด์ฌ์ฃผ๊ณ ๊ทธ ์์ 50๊ฐ ๊ด๋ จ ๋ ผ๋ฌธ์ด ํฌํจ๋์๋ค๋ฉด (TP=50, FP=950), Recall์ 50/50 = 1.0 (100%)์ด์ง๋ง, Precision์ 50/1000 = 0.05 (5%)๊ฐ ๋์ด F1-Score๋ ์ฝ 0.095๊ฐ ๋ฉ๋๋ค.
2. ๋น๊ต ๋ฐ ๋์กฐ: Precision vs Recall ๐ค
ํน์ง | Precision (์ ๋ฐ๋) | Recall (์ฌํ์จ) |
---|---|---|
์ด์ | ๊ฒ์ ๊ฒฐ๊ณผ์ ์ง (Quality) | ๊ฒ์ ๊ฒฐ๊ณผ์ ์ (Quantity / Coverage) |
์ง๋ฌธ | "์ฐพ์์จ ๊ฒฐ๊ณผ ์ค ์ผ๋ง๋ ์ ํํ๊ฐ?" | "์ฐพ์์ผ ํ ๊ฒ๋ค์ ์ผ๋ง๋ ๋ง์ด ์ฐพ์์๋๊ฐ?" |
๋ชฉํ | False Positive (FP) ์ต์ํ: ๊ด๋ จ ์๋ ๊ฒ์ ๊ฑธ๋ฌ๋ด๊ธฐ | False Negative (FN) ์ต์ํ: ๊ด๋ จ ์๋ ๊ฒ์ ๋์น์ง ์๊ธฐ |
๋์ ๋ ์ข์ | - ์คํธ ๋ฉ์ผ ํํฐ๋ง (์ผ๋ฐ ๋ฉ์ผ์ ์คํธ์ผ๋ก ์๋ชป ๋ถ๋ฅํ๋ฉด ์ ๋จ) - ๊ฒ์ ๊ด๊ณ (๊ด๋ จ ์๋ ์ฌ์ฉ์์๊ฒ ๊ด๊ณ ๋ ธ์ถ ์ต์ํ) - ์ถ์ฒ ์์คํ (์ฌ์ฉ์๊ฐ ์ซ์ดํ ๋งํ ์์ดํ ์ถ์ฒ ์ต์ํ) |
- ์ ์ง๋จ (์ค์ ํ์๋ฅผ ๋์น๋ฉด ์น๋ช
์ ) - ๋ฒ๋ฅ ๋ฌธ์ ๊ฒ์ (๊ด๋ จ ํ๋ก๋ฅผ ํ๋๋ผ๋ ๋์น๋ฉด ์ ๋จ) - ๋ณด์ ์์คํ (์นจ์ ์๋๋ฅผ ๋์น๋ฉด ์ ๋จ) |
Trade-off | Recall๊ณผ ๋ฐ๋น๋ก ๊ด๊ณ์ธ ๊ฒฝ์ฐ๊ฐ ๋ง์ | Precision๊ณผ ๋ฐ๋น๋ก ๊ด๊ณ์ธ ๊ฒฝ์ฐ๊ฐ ๋ง์ |
Precision๊ณผ Recall์ ์ํธ ๋ณด์์ ์ธ ์งํ์ด๋ฉฐ, ์ด๋ค ๊ฒ์ ๋ ์ค์ํ๊ฒ ์๊ฐํ ์ง๋ ์ ํ๋ฆฌ์ผ์ด์ ์ ๋ชฉ์ ๊ณผ ์ํฉ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋๋ค. ์๋ฅผ ๋ค์ด, ์ฌ์ฉ์์๊ฒ ๋งค์ฐ ์ ํํ ์์์ ์ ๋ณด๋ง ์ ๊ณตํ๋ ๊ฒ์ด ์ค์ํ๋ค๋ฉด Precision์ ์ฐ์ ์ํด์ผ ํฉ๋๋ค (์: ๊ตฌ๊ธ ๊ฒ์ ์ฒซ ํ์ด์ง ๊ฒฐ๊ณผ). ๋ฐ๋ฉด, ์ ์ฌ์ ์ผ๋ก ๊ด๋ จ๋ ๋ชจ๋ ์ ๋ณด๋ฅผ ๋น ์ง์์ด ์ฐพ๋ ๊ฒ์ด ์ค์ํ๋ค๋ฉด Recall์ ์ฐ์ ์ํด์ผ ํฉ๋๋ค (์: ํนํ ๊ฒ์, ์๋ฃ ์ง๋จ ๋ณด์กฐ). F1-Score๋ ์ด ๋ ๊ฐ์ง๋ฅผ ๊ท ํ ์๊ฒ ํ๊ฐํ๊ณ ์ถ์ ๋ ์ฌ์ฉํฉ๋๋ค.
3. ์ง๋ฌธ-๋ต๋ณ (Q&A) โ
- Q1: Precision๊ณผ Recall ์ค ํ๋๋ง ์ฌ์ฉํ๋ฉด ์ ์ ๋๋์?
- A: ๊ฒ์ ์์คํ ์ ์ฑ๋ฅ์ ํ์ชฝ ์ธก๋ฉด์์๋ง ๋ณด๊ฒ ๋์ด ์ ์ฒด์ ์ธ ์ฑ๋ฅ์ ์คํดํ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๊ด๋ จ์ฑ์ด ๋งค์ฐ ๋์ ๋จ ํ๋์ ๋ฌธ์๋ง ๊ฒ์ ๊ฒฐ๊ณผ๋ก ๋ณด์ฌ์ฃผ๋ ์์คํ ์ Precision์ 100%์ผ ์ ์์ง๋ง, ๋ค๋ฅธ ์๋ง์ ๊ด๋ จ ๋ฌธ์๋ฅผ ๋์ณ Recall์ ๋งค์ฐ ๋ฎ์ ์ ์์ต๋๋ค. ๐ฅ ๋ฐ๋๋ก, ๋ฐ์ดํฐ๋ฒ ์ด์ค์ ๋ชจ๋ ๋ฌธ์๋ฅผ ๊ฒ์ ๊ฒฐ๊ณผ๋ก ๋ณด์ฌ์ฃผ๋ ์์คํ ์ Recall์ 100%๊ฐ ๋๊ฒ ์ง๋ง, ๊ด๋ จ ์๋ ๋ฌธ์๊ฐ ๋๋ฌด ๋ง์ Precision์ ๋งค์ฐ ๋ฎ์ ์ฌ์ฉ์์๊ฒ ์ ์ฉํ์ง ์์ ๊ฒ์ ๋๋ค. ๋ฐ๋ผ์ ๋ ์งํ๋ฅผ ํจ๊ป ๋ณด๊ฑฐ๋ F1-Score ๊ฐ์ ์ข ํฉ์ ์ธ ์งํ๋ฅผ ์ฌ์ฉํด์ผ ์์คํ ์ฑ๋ฅ์ ๊ท ํ ์๊ฒ ํ๊ฐํ ์ ์์ต๋๋ค. ๐
- Q2: F1-Score๋ ํญ์ ์ต๊ณ ์ ์ฑ๋ฅ ํ๊ฐ ์งํ์ธ๊ฐ์?
- A: F1-Score๋ Precision๊ณผ Recall์ ๋์ผํ ๊ฐ์ค์น(๋ฒ ํ=1)๋ฅผ ๋ถ์ฌํ์ฌ ์กฐํ ํ๊ท ์ ๊ณ์ฐํฉ๋๋ค. ํ์ง๋ง ๋ชจ๋ ์ํฉ์์ ๋ ์งํ์ ์ค์๋๊ฐ ๊ฐ์ ๊ฒ์ ์๋๋๋ค. ๐ค ์๋ฅผ ๋ค์ด, ์น๋ช
์ ์ธ ์ง๋ณ ์ง๋จ์์๋ Recall(๋์น์ง ์๋ ๊ฒ)์ด Precision(์ ์์ธ์ ํ์๋ก ์ค์งํ๋ ๊ฒ)๋ณด๋ค ํจ์ฌ ์ค์ํ ์ ์์ต๋๋ค. ์ด๋ฐ ๊ฒฝ์ฐ์๋ Recall์ ๋ ๋์ ๊ฐ์ค์น๋ฅผ ์ฃผ๋ F-beta Score (
)๋ฅผ ์ฌ์ฉํ๊ธฐ๋ ํฉ๋๋ค. ๋ฒ ํ(ฮฒ) ๊ฐ์ด 1๋ณด๋ค ํฌ๋ฉด Recall์, 1๋ณด๋ค ์์ผ๋ฉด Precision์ ๋ ์ค์ํ๊ฒ ์๊ฐํ๋ ๊ฒ์ ๋๋ค. ๋ฐ๋ผ์ F1-Score๊ฐ ์ ์ฉํ๊ธด ํ์ง๋ง, ํน์ ๋๋ฉ์ธ์ด๋ ๋ฌธ์ ์ํฉ์ ๋ฐ๋ผ ๋ค๋ฅธ ์งํ๊ฐ ๋ ์ ํฉํ ์ ์์ต๋๋ค. โ
- A: F1-Score๋ Precision๊ณผ Recall์ ๋์ผํ ๊ฐ์ค์น(๋ฒ ํ=1)๋ฅผ ๋ถ์ฌํ์ฌ ์กฐํ ํ๊ท ์ ๊ณ์ฐํฉ๋๋ค. ํ์ง๋ง ๋ชจ๋ ์ํฉ์์ ๋ ์งํ์ ์ค์๋๊ฐ ๊ฐ์ ๊ฒ์ ์๋๋๋ค. ๐ค ์๋ฅผ ๋ค์ด, ์น๋ช
์ ์ธ ์ง๋ณ ์ง๋จ์์๋ Recall(๋์น์ง ์๋ ๊ฒ)์ด Precision(์ ์์ธ์ ํ์๋ก ์ค์งํ๋ ๊ฒ)๋ณด๋ค ํจ์ฌ ์ค์ํ ์ ์์ต๋๋ค. ์ด๋ฐ ๊ฒฝ์ฐ์๋ Recall์ ๋ ๋์ ๊ฐ์ค์น๋ฅผ ์ฃผ๋ F-beta Score (
- Q3: ์ด ์งํ๋ค์ด '์์ ๋ฏธ๊ณ ๋ ค(Rank-Unaware)'๋ผ๋ ๊ฒ์ ๋ฌด์จ ์๋ฏธ์ด๋ฉฐ, ์ด๋ค ํ๊ณ๊ฐ ์๋์?
- A: Precision, Recall, F1-Score๋ ๊ฒ์๋ ์์ดํ ๋ค์ ์์๋ฅผ ์ ํ ๊ณ ๋ คํ์ง ์์ต๋๋ค. ๐ โโ๏ธ ์ฆ, ๊ฒ์ ๊ฒฐ๊ณผ ๋ชฉ๋ก์์ ๊ด๋ จ ์๋ ๋ฌธ์๊ฐ ์ฒซ ๋ฒ์งธ์ ๋ํ๋๋ ๋ง์ง๋ง์ ๋ํ๋๋ ๋์ผํ๊ฒ ์ทจ๊ธํฉ๋๋ค. ํ์ง๋ง ์ค์ ์น ๊ฒ์์ด๋ ์ถ์ฒ ์์คํ ์์๋ ์ฌ์ฉ์๊ฐ ์์ ๋ช ๊ฐ์ ๊ฒฐ๊ณผ์ ํจ์ฌ ๋ ์ฃผ๋ชฉํ๊ธฐ ๋๋ฌธ์ ์์๊ฐ ๋งค์ฐ ์ค์ํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ๊ด๋ จ ๋ฌธ์ 10๊ฐ ์ค 5๊ฐ๋ฅผ ์ฐพ์์ ๋(Recall=50%), ๊ทธ 5๊ฐ๊ฐ ๋ชจ๋ ์์ 5๊ฐ ๊ฒฐ๊ณผ์ ์๋ ๊ฒฝ์ฐ์ ํ์ 5๊ฐ ๊ฒฐ๊ณผ์ ์๋ ๊ฒฝ์ฐ๋ ์ฌ์ฉ์ ๋ง์กฑ๋ ์ธก๋ฉด์์ ํฐ ์ฐจ์ด๊ฐ ์์ต๋๋ค. ์ด๋ฌํ ์์์ ์ค์์ฑ์ ๋ฐ์ํ๊ธฐ ์ํด์๋ MAP (Mean Average Precision), NDCG (Normalized Discounted Cumulative Gain) ์ ๊ฐ์ ์์ ๊ณ ๋ ค(Rank-Aware) ์งํ๋ฅผ ์ถ๊ฐ๋ก ์ฌ์ฉํด์ผ ํฉ๋๋ค. ๐
์ฐธ๊ณ ์๋ฃ:
- ๋ถ๋ฅ์ฑ๋ฅํ๊ฐ์งํ - Precision(์ ๋ฐ๋), Recall(์ฌํ์จ) and Accuracy(์ ํ๋)
- Introduction to Information Retrieval - Chapter 8: Evaluation in information retrieval (Stanford University) - (Precision, Recall, F1 ๋ฑ์ ๊ฐ๋ ์ ๊น์ด ์๊ฒ ๋ค๋ฃจ๋ ๊ณ ์ ์ ์ธ ์๋ฃ)
๊ด๋ จ ๋
ธํธ:
์ ๋ณด ๊ฒ์ ์ฑ๋ฅ ํ๊ฐ: ์์ ๊ณ ๋ ค ์งํ (MAP, NDCG)
Precision-Recall Curve์ Average Precision (AP)
๊ธฐ๊ณ ํ์ต ๋ถ๋ฅ ๋ชจ๋ธ ํ๊ฐ ์งํ (Accuracy, Confusion Matrix)
ROC Curve์ AUC: ์ด์ง ๋ถ๋ฅ ์ฑ๋ฅ ์๊ฐํ ๋ฐ ํ๊ฐ
F-beta Score: Precision๊ณผ Recall ๊ฐ์ค์น ์กฐ์ ํ๊ธฐ
์ ๋ณด ๊ฒ์ ์์คํ
๊ฐ๋ก
์ถ์ฒ ์์คํ
์ ํ๊ฐ ์งํ
False Positive์ False Negative์ ์ค์์ฑ ๋น๊ต
๊ฒ์ ์์ง ์ต์ ํ(SEO)์ ๊ฒ์ ํ์ง
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM) ๊ธฐ๋ฐ ๊ฒ์ ์์คํ
ํ๊ฐ
๐ท๏ธ: ์ ๋ณด ๊ฒ์, Evaluation Metrics, Precision, Recall, F1-Score, ๊ธฐ๊ณ ํ์ต, ๋ฐ์ดํฐ ๊ณผํ, ์ฑ๋ฅ ํ๊ฐ, ์์ ๋ฏธ๊ณ ๋ ค ์งํ