์นดํ ๊ณ ๋ฆฌ ์์ [AI] ๋น์ ํ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ๊ฐ์ ์ ๋ฆฌ ๋ฏธ๋ก๊ทธ 2025. 12. 9. 06:57 ๐ ๋น์ ํ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ๊ฐ์ ์ ๋ฆฌ 1๏ธโฃ ์ด๋ฏธ์ง·ํ ์คํธ·์ค๋์ค ๋ฐ์ดํฐ์ ํน์ง ๐ผ๏ธ ์ด๋ฏธ์ง(Image) ๊ณ ์ฐจ์ ๋ฐ์ดํฐ(ํฝ์ ์๊ฐ ๋ง์) ๊ณต๊ฐ์ ๊ตฌ์กฐ(ํฝ์ ๊ฐ ์์น ๊ด๊ณ) ์กด์ฌ ์กฐ๋ช ·๊ฐ๋ ๋ฑ ํ๊ฒฝ ์ํฅ ํผ ํ์ผ ์ฉ๋ ํผ ๐ ํ ์คํธ(Text) ๋ฌธ์ฅ ๊ตฌ์กฐ ์ผ์ ํ์ง ์์ ๋จ์ด ์์·๋ฌธ๋งฅ ์ ๋ณด ์ค์ ์ธ์ด์ ์๋ฏธ·๊ฐ์ ํฌํจ ์คํ·์ค๋ณต·์ด๋ชจ์ง ๋ฑ ๋ ธ์ด์ฆ ๋ง์ ์ซ์ํ(์๋ฒ ๋ฉ)๊ฐ ํ์ ๐ง ์ค๋์ค(Audio) ์๊ฐ ํ๋ฆ์ด ์ค์ํ ์๊ณ์ด ๋ฐ์ดํฐ ์ฃผํ์ ์ ๋ณด ํฌํจ ์์, ๋ น์ ํ๊ฒฝ ์ํฅ ํผ ๊ธธ์ด๊ฐ ์ ๊ฐ๊ฐ → ํจ๋ฉ ํ์ ์คํํธ๋ผ ๋ณํ ๋ฑ ์ถ๊ฐ ์ฒ๋ฆฌ ์์ฃผ ํ์ 2๏ธโฃ ์ ์ฒ๋ฆฌ ๋ฐฉ์ ์ฐจ์ด ๐ผ๏ธ ์ด๋ฏธ์ง ์ ์ฒ๋ฆฌ ์ ๊ทํ(ํฝ์ 0~1 ์ค์ผ์ผ๋ง) ๋ฆฌ์ฌ์ด์ฆ๋ก ์ ๋ ฅ ํฌ๊ธฐ ํต์ผ ๋ฐ์ดํฐ ์ฆ๊ฐ(ํ์ ·์๋ฅด๊ธฐ·๋ฐ๊ธฐ ๋ณ๊ฒฝ ๋ฑ) ์์ ๋ณํ(RGB → grayscale ๋ฑ) ๐ ํ ์คํธ ์ ์ฒ๋ฆฌ ํ ํฐํ(๋จ์ด·๋ฌธ์·์๋ธ์๋ ๋ถ๋ฆฌ) ์ ๊ทํ(์๋ฌธ์ํ, ๋ถ์ฉ์ด ์ ๊ฑฐ ๋ฑ) ํํ์ ๋ถ์(ํ๊ตญ์ด) ๋ฒกํฐํ/์๋ฒ ๋ฉ(Word2Vec, BERT ๋ฑ) ๐ง ์ค๋์ค ์ ์ฒ๋ฆฌ ์ํ๋ง ๋ ์ดํธ ํต์ผ(์: 16kHz) ์ ๊ทํ(์๋ ๋ณด์ ) ์ก์ ์ ๊ฑฐ(Denoising) ํ๋ ์ ๋ถํ (25ms ๋ฑ) ์คํํธ๋ก๊ทธ๋จ ๋ณํ 3๏ธโฃ ๊ธฐ์ด์ ์ธ ํน์ง ์ถ์ถ ๊ธฐ๋ฒ ๐ผ๏ธ ์ด๋ฏธ์ง ํน์ง ์ถ์ถ SIFT : ํคํฌ์ธํธ·๊ธฐ์ ์ ์ถ์ถ HOG : ์ฃ์ง(๋ฐฉํฅ) ๊ธฐ๋ฐ ํน์ง CNN : ๊ณ์ธต์ ์ผ๋ก ํจํด·๊ฐ์ฒด ํน์ง ํ์ต ๐ ํ ์คํธ ํน์ง ์ถ์ถ Bag-of-Words (BoW) TF-IDF Word Embedding (Word2Vec, GloVe) Contextual Embedding (BERT ๋ฑ) ๐ง ์ค๋์ค ํน์ง ์ถ์ถ MFCC : ์์ฑ ๋ํ ํน์ง Spectrogram / Mel-Spectrogram Pitch, Energy, Zero-crossing Rate(ZCR) โจ ์์ฝ ํ ๊ตฌ๋ถ ํน์ง ์ ์ฒ๋ฆฌ ํน์ง ์ถ์ถ ์ด๋ฏธ์ง ๊ณ ์ฐจ์·๊ณต๊ฐ ๊ตฌ์กฐ ์ ๊ทํ, ๋ฆฌ์ฌ์ด์ฆ, ์ฆ๊ฐ SIFT, HOG, CNN ํ ์คํธ ๋ฌธ๋งฅ·์ธ์ด ์๋ฏธ ์ค์ ํ ํฐํ, ์ ๊ทํ, ์๋ฒ ๋ฉ BoW, TF-IDF, Word2Vec, BERT ์ค๋์ค ์๊ณ์ด·์ฃผํ์ ์ ๋ณด ์ํ๋ง, ๋ ธ์ด์ฆ ์ ๊ฑฐ, ์คํํธ๋ก๊ทธ๋จ MFCC, ์คํํธ๋ก๊ทธ๋จ ๊ณต์ ํ๊ธฐ ๊ฒ์๊ธ ๊ด๋ฆฌ MI_Log