1:1 νμ ν΅μ νκ²½(webRTC)μμ μ€μκ° μ§μ€λ νμ λ° νμ λ΄μ© μμ½ κΈ°λ₯μ΄ ν΅ν©λμ΄ λνλλ μμ€ν
μ ν μ€λͺ
- 1:1 νμ ν΅μ νκ²½(webRTC)μμ μ€μκ° μ§μ€λ νμ λ° νμ λ΄μ© μμ½ κΈ°λ₯μ΄ ν΅ν©λμ΄ λνλλ μμ€ν
κΈ°μ μ€ν
- μ€μκ° μ§μ€λ νμ
- GazeTracking : eye tracker
- 68 face landmarks : head angle tracker
- STT
- OpenAI Whisper Model : Speach to Text translation
- GPT 3.5-turbo Model : Script Summarization
- WEB νκ²½
- Streamlit
- Streamlit-webrtc
Eye Tracker
- GazeTracking μ€νμμ€λ₯Ό νμ©νμ¬ λλμμ μμΉλ₯Ό νμ νκ³ μ μμ ν°μ λΉμ¨μ νμ ν©λλ€. μ΄λ₯Ό ν΅ν΄ λλμκ° μ λ©΄/μΌμͺ½/μ€λ₯Έμͺ½ μ€ μ΄λ κ³³μ λ°λΌλ³΄λμ§ μΆμ ν©λλ€. μΌμ λΉμ¨ μ΄μ λλμκ° λ²μ΄λλ©΄ κ²½κ³ νμλ₯Ό λμλλ€.
Head Angle Tracker
- 68 face landmarks μ€ μ½ λλΆλΆκ³Ό μΌκ΅΄μ μΌμͺ½, μ€λ₯Έμͺ½ μ μ κ°κ° μ΄μ΄ κ°λ‘ μ μ 그립λλ€. κ°λ‘ μ μ κΈΈμ΄ μ°¨μ΄κ° μΌμ λΉμ¨μ λμ΄κ°λ©΄ κ³ κ°λ₯Ό λλ¦¬κ³ μ£Όμ μ§μ€μ΄ ν©μ΄μ§ κ²μΌλ‘ νλ¨ν©λλ€. μΌμ λΉμ¨ μ΄μ κ³ κ°κ° λμκ°λ©΄ κ²½κ³ νμλ₯Ό λμλλ€.
Audio Real-time Recording
- Realtime StreamingμΌλ‘ νμ λ΄μ©μ λ Ήμν©λλ€. 40μ΄μ ν λ²μ© νμ λ΄μ© μμ½ ν¨μλ₯Ό νΈμΆν©λλ€. ThreadingμΌλ‘ λ Ήμκ³Ό νμ λ΄μ© μμ½μ λ³λ ¬λ‘ μ§νλ©λλ€.
STT (Speach to Text)
- OpenAI Whisper Modelλ‘ 40μ΄ λΆλμ μμ± νμΌμ ν μ€νΈλ‘ λ³νν©λλ€.
Summarization
- ν μ€νΈλ‘ λ³νν νμ λ΄μ©μ GPT λͺ¨λΈλ‘ μμ½ν©λλ€. μ΄μ νμ λ΄μ©λ μ°Έκ³ νμ¬ μμ½ν©λλ€.
Output Recording
- μμ½ νμΌμ ν μ€νΈ νμΌμ κΈ°λ‘ν©λλ€.
- Whisper Model μ±λ₯ ν₯μ λ°©μ : Whisper-Jax λͺ¨λΈ μ°κ΅¬ || OpenAI Whisper API μ¬μ©
- Streamlit-webrtc λ€νΈμν¬ μ°κ²°
- STT λͺ¨λΈ APIλ‘ λ³κ²½ (μ λ£)