Semantic Caching Analysis
Semantic Caching ์ฌ์ธต ๋ถ์
์๋ฏธ ๊ธฐ๋ฐ ์๋ต ์ฌ์ฌ์ฉ ยท ์๋ฒ ๋ฉ ์ ์ฌ๋ ยท ์๊ณ๊ฐ ํธ๋ ์ด๋์คํ ยท GPTCache ยท ๋ค์ธต ์บ์ ยท ํ๋ฆฌํฝ์ค ์บ์ฑ๊ณผ์ ๋๋น
์๋งจํฑ ์บ์ฑ(semantic caching)์ ์๋ฏธ๊ฐ ๋น์ทํ ์ง๋ฌธ์ ๋ํด ์ด์ ์ ์์ฑํ ์๋ต ์์ฒด๋ฅผ ์ฌ์ฌ์ฉํด LLM ํธ์ถ์ ์ค์ด๋ ๊ธฐ๋ฒ์ ๋๋ค. ์ ํํ ๋ฌธ์์ด์ด ์ผ์นํด์ผ ํ๋ ๊ธฐ์กด ์บ์์ ๋ฌ๋ฆฌ, ์ง๋ฌธ์ ์๋ฒ ๋ฉํด ์๋ฏธ์ ์ ์ฌ๋๋ก ๋งค์นญํ๋ฏ๋ก ํํ๋ง ๋ค๋ฅธ ๊ฐ์ ์ง๋ฌธ("ํ๋ถ ์ ์ฑ ์ด ๋ญ๊ฐ์?" vs "์ด๋ป๊ฒ ๋ฐํํ๋์?")์ ํ ๋ฒ์ ์์ฑ์ผ๋ก ์ฒ๋ฆฌํฉ๋๋ค.
๋ค๋ง ํ๋ฆฌํฝ์ค ์บ์ฑ์ด ์ ํํ ๊ฐ์ ํ ํฐ์ KV๋ฅผ ๋ฌด์์ค ์ฌ์ฌ์ฉํ๋ ๊ฒ๊ณผ ๋ฌ๋ฆฌ, ์๋งจํฑ ์บ์ฑ์ ๊ทผ์ฌ์ ์ด๋ผ ํ๋ฆฐ ๋ต์ ๋ฐํํ ์ํ์ด ์์ต๋๋ค. ๊ทธ๋์ ์๊ณ๊ฐ ๊ด๋ฆฌ, ๋ฌดํจํ, ์ปจํ ์คํธ ๋ถ๋ฆฌ๊ฐ ํต์ฌ์ด๋ฉฐ, FAQยท๊ณ ๊ฐ์ง์ยท๋ฐ๋ณต ์ง์๊ฐ ๋ง์ ์ํฌ๋ก๋์์ ํนํ ์ ์ฉํฉ๋๋ค.
1. ํต์ฌ ์์ด๋์ด - ์๋ฏธ๊ฐ ๋น์ทํ ์ง๋ฌธ์ ์๋ต์ ์ฌ์ฌ์ฉ
ํ๋ก๋์ LLM ์๋น์ค์์๋ ๊ฐ์ ์๋์ ์ง๋ฌธ์ด ํํ๋ง ๋ฐ๋์ด ๋ฐ๋ณต๋ฉ๋๋ค. ์์งํ๊ฒ๋ ๋งค๋ฒ LLM์ ํธ์ถํด ๊ฐ์ ๋ต์ ๋ค์ ์์ฑํ์ง๋ง, ๊ทธ๊ฒ์ ๋ญ๋น์ ๋๋ค. ์๋งจํฑ ์บ์ฑ์ ์ง๋ฌธ์ ์๋ฏธ๊ฐ ์ถฉ๋ถํ ๋น์ทํ๋ฉด ์ ์ฅ๋ ์๋ต์ ๊ทธ๋๋ก ๋ฐํํฉ๋๋ค.
๊ทธ๋ฆผ 1. ๊ฐ์ ์๋ยท๋ค๋ฅธ ํํ โ ๊ฐ์ ๋ต, ๊ทธ๋ฆฌ๊ณ ์๋ฒ ๋ฉโ์ ์ฌ๋ ๊ฒ์โhit/miss ํ๋ฆ
์๋งจํฑ ์บ์ฑ๊ณผ ํ๋ฆฌํฝ์ค ์บ์ฑ
-
๋์ - ์ง๋ฌธ์ ์๋ฒ ๋ฉํด ์บ์๋ ์ง๋ฌธ ์๋ฒ ๋ฉ๋ค๊ณผ ์ฝ์ฌ์ธ ์ ์ฌ๋๋ฅผ ๋น๊ตํ๊ณ , ์๊ณ๊ฐ์ ๋์ผ๋ฉด ๊ทธ ์๋ต์ ๋ฐํํฉ๋๋ค. ์บ์ ํํธ ์ LLM์ ์์ ํธ์ถํ์ง ์์ผ๋ฏ๋ก ์ง์ฐ๊ณผ ๋น์ฉ์ ํจ๊ป ์ค์ ๋๋ค.
-
์ธํ๋ผ - RAG์ ๊ฐ์ ๊ตฌ์ฑ์์(์๋ฒ ๋ฉ ๋ชจ๋ธ + ๋ฒกํฐ DB + ANN ๊ฒ์)๋ฅผ ์๋๋ค. GPTCache๋ ์๋ฒ ๋ฉ ํจ์, ๋ฐ์ดํฐ ์ ์ฅ์, ์ ์ฌ๋ ํ๊ฐ ๋ชจ๋์ ์กฐํฉํด ์ด๋ฐ ํ๋ฆ์ ๊ตฌ์ฑํฉ๋๋ค.
-
ํ๋ฆฌํฝ์ค ์บ์ฑ๊ณผ์ ๊ฒฐ์ ์ ์ฐจ์ด - ํ๋ฆฌํฝ์ค ์บ์ฑ์ ์ ํํ ๊ฐ์ ํ ํฐ์ KV๋ฅผ ์ฌ์ฌ์ฉํด ๋ฌด์์ค์ด๊ณ KV ๋ ๋ฒจ์์ ๋์ํฉ๋๋ค. ์๋งจํฑ ์บ์ฑ์ ์๋ฏธ๊ฐ ๋น์ทํ ์ง๋ฌธ์ ์๋ต์ ์ฌ์ฌ์ฉํด ๊ทผ์ฌ์ ์ด๊ณ ์๋ต ๋ ๋ฒจ์์ ๋์ํฉ๋๋ค.
| ๋ฐฉ์ | ๋งค์นญ ๊ธฐ์ค | ์ฌ์ฌ์ฉ ๋์ | ์ฅ์ | ์ฃผ์์ |
|---|---|---|---|---|
| ์ ํ ๋ฌธ์์ด ์บ์ | ์ ๋ ฅ ๋ฌธ์์ด ๋์ผ | ์๋ต | ๋จ์ํ๊ณ ์์ ํจ | ํํ์ด ์กฐ๊ธ๋ง ๋ฌ๋ผ๋ ๋ฏธ์ค |
| ํ๋ฆฌํฝ์ค ์บ์ฑ | ๋์ผ ํ ํฐ ํ๋ฆฌํฝ์ค | KV | ๋ฌด์์ค, TTFT ์ ๊ฐ | ํ ํ ํฐ๋ง ๋ฌ๋ผ๋ ๋ฏธ์ค |
| ์๋งจํฑ ์บ์ฑ | ์๋ฒ ๋ฉ ์ ์ฌ๋ | ์๋ต | ํํ์ด ๋ฌ๋ผ๋ ์ฌ์ฌ์ฉ | ์คํ ์ํ, ๋ฌดํจํ ํ์ |
2. ๋์ ๋ฉ์ปค๋์ฆ - ๊ตฌ์ฑ์์์ hit/miss ์ฌ์ดํด
์๋งจํฑ ์บ์๋ ์ ํ๋ฆฌ์ผ์ด์ ๊ณผ LLM ์ฌ์ด์ ์์นํฉ๋๋ค. ๋ชจ๋ ์ง๋ฌธ์ด ๋จผ์ ์บ์๋ฅผ ๊ฑฐ์น๊ณ , ์ถฉ๋ถํ ์ ์ฌํ ํญ๋ชฉ์ด ์์ผ๋ฉด ์๋ต์ ๋ฐํํ๋ฉฐ, ์์ผ๋ฉด LLM์ ํธ์ถํ๊ณ ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ์บ์์ ์ ์ฅํฉ๋๋ค.
๊ทธ๋ฆผ 2. ์บ์ ๋ฏธ์ค/ํํธ ์ฌ์ดํด๊ณผ ๋ค ๊ฐ์ง ๊ตฌ์ฑ์์
์๋งจํฑ ์บ์ ์กฐํ (GPTCache ๊ฐ๋ )
def query(q):
e = embed(q)
hit, score = vector_store.search(e)
if score >= tau:
return hit.response
r = llm(q)
vector_store.add(e, r)
return r
๋ค ๊ฐ์ง ๊ตฌ์ฑ์์
-
์๋ฒ ๋ฉ ๋ชจ๋ธ - ์ง๋ฌธ์ ์๋ฏธ๋ฅผ ๋ด์ ๋ฒกํฐ๋ก ๋ณํํฉ๋๋ค. ์๋ฏธ๋ฅผ ์ ๋๋ก ๋ชป ์ก์ผ๋ฉด ๊ฒ์์ด ๋ ธ์ด์ฆ๊ฐ ๋์ด ์๋ฑํ ์๋ต์ ๋ฐํํ๋ฏ๋ก, ์บ์ ํ์ง์ ์ข์ฐํ๋ ํต์ฌ์ ๋๋ค.
-
๋ฒกํฐ ์ ์ฅ์ - ์๋ฒ ๋ฉ์ ๋ณด๊ดํ๊ณ ANN(HNSW ๋ฑ)์ผ๋ก ๋น ๋ฅธ ์ ์ฌ๋ ๊ฒ์์ ํฉ๋๋ค.
-
์ ์ฌ๋ ํ๊ฐ์ ์๊ณ๊ฐ - ์ฝ์ฌ์ธ ์ ์ฌ๋๊ฐ ์๊ณ๊ฐ ฯ ์ด์์ด๋ฉด ํํธ๋ก ํ์ ํฉ๋๋ค. GPTCache๋ ๊ฑฐ๋ฆฌ ๊ธฐ๋ฐ, ๋ชจ๋ธ ๊ธฐ๋ฐ, ์ ํ ์ผ์นํ ์ ์ฌ๋ ํ๊ฐ๋ฅผ ์กฐํฉํ ์ ์์ต๋๋ค.
-
์บ์ ์ ์ฅ์ - ์ง๋ฌธ-์๋ต ์์ ๋ณด๊ดํ๊ณ (Redis ๋ฑ) ์ถ์ถ์ ๊ด๋ฆฌํฉ๋๋ค. GPTCache์ Redis ๊ธฐ๋ฐ ์๋งจํฑ ์บ์๊ฐ ๋ํ์ ์ด๋ฉฐ, ๋ชจ๋์์ด๋ผ ๊ฐ ์์๋ฅผ ๊ต์ฒดํ ์ ์์ต๋๋ค.
| ๊ตฌ์ฑ ์์ | ์ญํ |
|---|---|
| ์๋ฒ ๋ฉ ๋ชจ๋ธ | ์ง๋ฌธ์ ์๋ฏธ ๋ฒกํฐ๋ก ๋ณํ |
| ๋ฒกํฐ ์ ์ฅ์ | ์๋ฒ ๋ฉ์ ๋ณด๊ดํ๊ณ ANN ๊ฒ์ ์ํ |
| ์ ์ฌ๋ ํ๊ฐ | ์ง๋ฌธ๊ณผ ์บ์ ํญ๋ชฉ์ ๊ฑฐ๋ฆฌ/์ ์ฌ๋ ํ์ |
| ์บ์ ์ ์ฅ์ | ์ง๋ฌธ-์๋ต ์๊ณผ ๋ฉํ๋ฐ์ดํฐ ๋ณด๊ด |
3. ํต์ฌ ํธ๋ ์ด๋์คํ - ์ ์ฌ๋ ์๊ณ๊ฐ
์๋งจํฑ ์บ์ฑ์ ๋ชจ๋ ๊ฒ์ ์ ์ฌ๋ ์๊ณ๊ฐ ฯ๋ก ๊ท๊ฒฐ๋ฉ๋๋ค. ์ด ๊ฐ์ด ์ ๊ฐ๊ณผ ์ํ ์ฌ์ด์ ์ฌ๋ผ์ด๋์ด๋ฉฐ, ํ๋ฆฌํฝ์ค ์บ์ฑ๊ณผ ๊ฐ์ฅ ๋ค๋ฅธ ์ง์ ์ด๊ธฐ๋ ํฉ๋๋ค. GPTCache ์๊ฐ ์๋ฃ๋ hit ratio, latency, recall์ ํจ๊ป ๋ณด๋ฉฐ ์ด ๊ท ํ์ ๋ง์ถฅ๋๋ค.
๊ทธ๋ฆผ 3. ์๊ณ๊ฐ ์ฌ๋ผ์ด๋, ์คํ ์ํ, ์ ๋ฐ๋ vs ์ฌํ์จ
์๊ณ๊ฐ์ ์๋ฉด
-
ฯ๊ฐ ๋ฎ์ผ๋ฉด - hit์จ๊ณผ ๋น์ฉ ์ ๊ฐ์ ์ฌ๋ผ๊ฐ์ง๋ง, ์๋ฏธ๋ง ๋น์ทํ๊ณ ๋ต์ ๋ฌ๋ผ์ผ ํ ์ง๋ฌธ์ ๊ฐ์ ๋ต์ ๋ฐํํ๋ ์คํ(false positive)์ด ๋์ด๋ฉ๋๋ค.
-
ฯ๊ฐ ๋์ผ๋ฉด - ์ ๋ฐ๋(์์ )๋ ์ฌ๋ผ๊ฐ์ง๋ง ํจ๋ฌํ๋ ์ด์ฆ๋ฅผ ๋์ณ hit์จ์ด ๋จ์ด์ง๋๋ค(false negative, ์ฌ์ค์ ์ ํ ์ผ์น์ ๊ทผ์ ).
-
์คํ์ด ๊ฐ์ฅ ์น๋ช ์ - ์ฌ์ฉ์๋ 'ํ๋ถ ์ ์ฑ '๊ณผ 'ํ๋ถ ์์ ๊ธฐ๊ฐ'์ ๋ค๋ฅธ ๋ต์ ๊ธฐ๋ํ๋ฏ๋ก, ํ๋ฆฐ ๋ต์ด ๋๊ฐ๋ฉด ๋ฐ๋ก ์์์ฑ๋๋ค. ๊ทธ๋์ ๊ณ ์ํ FAQ๋ ์ ๋ฐ๋๋ฅผ, ๋ฏธ์ค๊ฐ ๋จ์ง ๋น์ฉ์ธ ๊ฒ์ํ ์ง์๋ ์ฌํ์จ์ ๋ ์ค์ํฉ๋๋ค.
4. ํ๊ณ์ ์ด์ - ๋ฌดํจํยท์ปจํ ์คํธยท๋๋ฆฌํํธ
์๋งจํฑ ์บ์๋ ๊ฒฐ์ ์ ์ถ๋ ฅ์ด ์๋๋ผ ๋ชจ๋ธ์ด ์์ฑํ ๋ต์ ์ ์ฅํ๋ฏ๋ก, ์๊ฐยท๋งฅ๋ฝ์ ๋ฐ๋ผ ์ ํจ์ฑ์ด ๋ณํฉ๋๋ค. ๊ทธ๋์ '์ค์ ํ๊ณ ์๋' ๋ฐฉ์์ด ์๋๋ผ ์ง์์ ์ธ ๊ด๋ฆฌ๊ฐ ํ์ํฉ๋๋ค.
๊ทธ๋ฆผ 4. ๋ค ๊ฐ์ง ์คํจ ๋ชจ๋์ ๋ฌดํจํ ์ ๋ต
์คํจ ๋ชจ๋
| ์คํจ ๋ชจ๋ | ์ค๋ช |
|---|---|
| ์คํ(false positive) | ์๋ฏธ๋ง ๋น์ทํ ์ง๋ฌธ์ ๊ฐ์ ๋ต์ ๋ฐํํด ์ค๋ต์ด ๋๊ฐ |
| staleness(๋ ธํํ) | ์ธ์์ด ๋ฐ๋์ด ์บ์๋ ๋ต์ด ๋ ์ด์ ๋ง์ง ์์ |
| ์ปจํ ์คํธยท๊ฐ์ธํ | ๊ฐ์ ์ง๋ฌธ๋ ์ฌ์ฉ์ยท์ธ์ ยท๋งฅ๋ฝ์ ๋ฐ๋ผ ๋ต์ด ๋ฌ๋ผ์ผ ํจ |
| ์๋ฒ ๋ฉ ๋๋ฆฌํํธ | ์๋ฒ ๋ฉ ๋ชจ๋ธ ๊ฐฑ์ ์ ์ ์ฌ๋ ์ ์๊ฐ ๋ฐ๋์ด hit์จ์ด ํ๋ค๋ฆผ |
๋ฌดํจํ ์ ๋ต
-
TTL(์๊ฐ ๋ง๋ฃ) - ์ฝํ ์ธ ์๋ช ์ ๋ง์ถฐ ์ฐจ๋ฑ ์ค์ ํฉ๋๋ค(๋ด์ค ์์๊ฐ, FAQ ์์ผ ๋ฑ).
-
์ด๋ฒคํธ ๊ธฐ๋ฐ - ์๋ณธ ์ฝํ ์ธ ๊ฐ ๊ฐฑ์ ๋๋ฉด ๊ด๋ จ ์บ์๋ฅผ ๋ฌดํจํํฉ๋๋ค.
-
staleness ํ์ง - ์ฃผ๊ธฐ์ ์ผ๋ก ์ฌ์ง์ํด ์บ์๋ ๋ต์ ์ ํ์ฑ์ ์ ๊ฒํฉ๋๋ค.
-
์ค์ฝํ ๋ถ๋ฆฌ - ์์คํ ํ๋กฌํํธยท๋ชจ๋ธยท์ฌ์ฉ์ ์ ํ๋ณ๋ก ์บ์ ๋ฒํท์ ๋๋ ์๋ชป๋ ๊ต์ฐจ ๋งค์นญ์ ๋ง์ต๋๋ค. ํ์ ์ด ๋ฎ์ ํญ๋ชฉ์ ์บ์ํ์ง ์๊ณ LLM์ ํธ์ถํด ์ฐ์ํ ์ ํ๋ฅผ ํํฉ๋๋ค.
5. ๋ค์ธต ์บ์์์์ ์์น์ ํจ๊ณผ
๊ทธ๋ฆผ 5. ๋ค์ธต ์บ์(์ ํ ํด์โ์๋งจํฑโํ๋ฆฌํฝ์คโ์ถ๋ก )์ ๋ณด๊ณ ๋ ํจ๊ณผ
๋ค์ธต ์บ์์์์ ์์น
ํ๋ก๋์ ์๋น์ ์ฌ๋ฌ ์บ์ ๊ณ์ธต์ ๋ก๋๋ค. ์์ฒญ์ ์ ํ ํด์ ๋งค์นญ(๋ฐ์ดํธ ๋์ผ) โ ์๋งจํฑ ์บ์(์๋ฏธ ์ ์ฌยท์๋ต ์ฌ์ฌ์ฉ) โ ํ๋ฆฌํฝ์ค ์บ์(KV ์ฌ์ฌ์ฉ) โ ์ ์ฒด ์ถ๋ก ์ ์์ผ๋ก ๊ฑฐ์น๋ฉฐ, ์ ๊ณ์ธต์์ ๋ง์์๋ก ์ ๊ฐ์ด ํฝ๋๋ค. ์๋งจํฑ ์บ์ฑ๊ณผ ํ๋ฆฌํฝ์ค ์บ์ฑ์ ์ง๊ตยท์๋ณด์ ์ด์ด์, ํจ๊ป ์์ผ๋ฉด ๋ฐ๋ณต ํธ๋ํฝ์ ๋จ๊ณ์ ์ผ๋ก ํก์ํฉ๋๋ค.
| ๊ณ์ธต | ๋ง๋ ๋์ | ํจ๊ณผ |
|---|---|---|
| ์ ํ ํด์ | ์์ ๋์ผ ์์ฒญ | ์๋ต์ ์ฆ์ ์ฌ์ฌ์ฉ |
| ์๋งจํฑ ์บ์ | ์๋ฏธ ์ ์ฌ ์์ฒญ | LLM ํธ์ถ ์์ฒด๋ฅผ ์๋ต |
| ํ๋ฆฌํฝ์ค ์บ์ | ๋์ผ ํ๋ฆฌํฝ์ค | KV ์ฌ์ฌ์ฉ |
| ์ ์ฒด ์ถ๋ก | ์๋ก์ด ์์ฒญ | ์ ์ ์์ฑ |
๋ณด๊ณ ๋ ํจ๊ณผ
| ์ถ์ฒ | ํจ๊ณผ |
|---|---|
| GPTCache README | LLM API ๋น์ฉ์ 10x ์ค์ด๊ณ ์๋๋ฅผ 100x ๋์ด๋ ๋ชฉํ๋ฅผ ์ ์ |
| MeanCache: User-Centric Semantic Caching for LLM Web Services | contextual query์์ F-score +17%, precision +20%, storage -83%, decision time -11% |
6. ์ฅ๋จ์
์ฅ์
-
๋ฐ๋ณต ์ง์๊ฐ ๋ง์ FAQ, ๊ณ ๊ฐ์ง์, ๋ด๋ถ ์ง์ ๊ฒ์์์ LLM ํธ์ถ ์์ฒด๋ฅผ ์๋ตํด ๋น์ฉ๊ณผ ์ง์ฐ์ ํจ๊ป ์ค์ผ ์ ์์ต๋๋ค.
-
์ ํ ๋ฌธ์์ด ์บ์๋ณด๋ค hit ๋ฒ์๊ฐ ๋์ด, ํํ์ด ์กฐ๊ธ์ฉ ๋ค๋ฅธ ํจ๋ฌํ๋ ์ด์ฆ ์์ฒญ๋ ํ ๋ฒ์ ์๋ต์ผ๋ก ํก์ํ ์ ์์ต๋๋ค.
-
์๋ฒ ๋ฉ, ๋ฒกํฐ ์ ์ฅ์, Redis ๊ฐ์ ์บ์ ์ ์ฅ์๋ฅผ ์กฐํฉํ๋ฏ๋ก RAG ์ธํ๋ผ๋ฅผ ์ด๋ฏธ ์ด์ํ๋ ํ์ ๊ธฐ์กด ๊ตฌ์ฑ์์๋ฅผ ์ฌ์ฌ์ฉํ๊ธฐ ์ฝ์ต๋๋ค.
๋จ์
-
ํ๋ฆฌํฝ์ค ์บ์ฑ๊ณผ ๋ฌ๋ฆฌ ๊ทผ์ฌ์ ํ์ ์ด๋ฏ๋ก false positive๊ฐ ๋๋ฉด ์์ ์๋ชป๋ ๋ต์ ๊ทธ๋๋ก ์ฌ์ฌ์ฉํ ์ ์์ต๋๋ค.
-
TTL, ์ด๋ฒคํธ ๊ธฐ๋ฐ ๋ฌดํจํ, ์ฌ์ฉ์/์ธ์ ์ค์ฝํ ๋ถ๋ฆฌ, ์๋ฒ ๋ฉ ๋ชจ๋ธ ๋ฒ์ ๊ด๋ฆฌ ๊ฐ์ ์ด์ ๊ท์น์ด ์์ผ๋ฉด ํ์ง์ด ๋น ๋ฅด๊ฒ ํ๋ค๋ฆฝ๋๋ค.
-
๋ฏธ์ค๊ฐ ๋๋๋ผ๋ ์๋ฒ ๋ฉ ์์ฑ๊ณผ ๋ฒกํฐ ๊ฒ์ ์ค๋ฒํค๋๋ ๋จ์ผ๋ฏ๋ก, ๋ฐ๋ณต์ฑ์ด ๋ฎ์ ์ํฌ๋ก๋์์๋ ์ด๋์ด ์์ ์ ์์ต๋๋ค.
7. ๊ด๋ จ ๊ธฐ์
| ์๋ฃ | ํต์ฌ |
|---|---|
| Prefix Caching Analysis | ๋ฌด์์ค KV ์ฌ์ฌ์ฉ๊ณผ์ ๋๋น |
| RAG Analysis | ๊ฒ์ ๊ธฐ๋ฐ ์๋ต ํ๋ฆ, ์๋งจํฑ ์บ์์ ๊ฒฐํฉ ๊ฐ๋ฅ |
| GPTCache | ์๋ฒ ๋ฉ, ๋ฒกํฐ ์ ์ฅ์, ์ ์ฌ๋ ํ๊ฐ, ์บ์ ์ ์ฅ์๋ฅผ ๋ชจ๋์์ผ๋ก ์กฐํฉํ๋ ๋ํ ๊ตฌํ |
| Redis LangCache | Redis ๋ฒกํฐ ๊ฒ์ ๊ธฐ๋ฐ ์๋งจํฑ ์บ์ ๊ตฌ์ฑ ์์ |
| MeanCache | ์ฌ์ฉ์ ์ค์ฌ ์๋งจํฑ ์บ์, ์ปจํ ์คํธ ์ฒด์ธ๊ณผ federated learning ํ์ฉ |
- GPTCache README: https://github.com/zilliztech/GPTCache
- Redis LangCache overview: https://redis.io/blog/what-is-semantic-caching/
- MeanCache paper: https://arxiv.org/abs/2403.02694
8. ํต์ฌ ์ ๋ฆฌ
์๋งจํฑ ์บ์ฑ์ ์๋ฏธ๊ฐ ๋น์ทํ ์ง๋ฌธ์ ์๋ต์ ์ฌ์ฌ์ฉํด LLM ํธ์ถ์ ์ค์ด๋ ๊ทผ์ฌ์ ๊ธฐ๋ฒ์ ๋๋ค. GPTCache์ฒ๋ผ ์๋ฒ ๋ฉ, ๋ฒกํฐ ์ ์ฅ์, ์ ์ฌ๋ ํ๊ฐ, ์บ์ ์ ์ฅ์๋ฅผ ์กฐํฉํด ๋์ํ๋ฉฐ, ํต์ฌ ๋ค์ด์ผ์ ์ ์ฌ๋ ์๊ณ๊ฐ ฯ์ ๋๋ค.
ํ๋ฆฌํฝ์ค ์บ์ฑ๊ณผ๋ ์๋ต vs KV, ๊ทผ์ฌ vs ๋ฌด์์ค๋ก ๋ค๋ฅด์ง๋ง ๋ฐ๋ณต ํธ๋ํฝ์ ๋จ๊ณ์ ์ผ๋ก ํก์ํ๋ค๋ ์ ์์ ์๋ณด์ ์ ๋๋ค. ๋ค๋ง ์ค๋ต๊ณผ ๋ ธํํ, ๊ฐ์ธํ ์ถฉ๋์ ๋ง๊ธฐ ์ํด TTL, ์ด๋ฒคํธ ๊ธฐ๋ฐ ๋ฌดํจํ, ์ค์ฝํ ๋ถ๋ฆฌ๊ฐ ํ์ํฉ๋๋ค.