맨 아래에 영상있음
나문희불여일견
선영상 후읽기 ㄱㄱ
-------------------------------------------------------------------------
총겜하는데
아시아섭에서 공방돌리면
팀원으로 중국인 걸리는게 97%정도되서
한국인 디코가서 겜하기 귀찮을 때 쓰려고
이것저것 엮어서 만들어봄

설국열차 보고 아이디어 얻어서 따라해봄
설정을 중국어로 해서 그렇지
사실 영어도 되고 다른 언어도 됨

윈도우11에 라이브캡션이라고 있음
현재 사운드 스트림의 소리를 인식해서 원하는 언어의 문자로 띄워주는 기능임
중국어(번체)로 띄워주도록 윈도우 언어팩 받고 설정함
만약에 게임에서
게임사운드랑 보이스채팅사운드를
서로 다른 사운드스트림으로 분리하는 옵션이 있으면
그걸 활용하면 인식률이 더욱 좋아짐
윈도우에서 그렇게 사운드를 분리하려면
보이스미터 같은 사운드 믹싱 프로그램 등으로 가능함

포토샵에서 이미지 다룰 때
레이어로 나뉘어있지만
사람이 눈으로 볼때는 한장의 사진처럼 보이잖슴

그거랑 똑같이 사운드도
보이스미터같은 프로그램으로
여러 레이어(스트림)으로 나뉘지만
사람의 귀로 들을 때는 하나로 들리는 것처럼 할 수 있음
시판 노트북 중에 코파일럿+ 인증받은 PC들은
원래 라이브캡션에서 한국어로 자동번역까지 됨
근데 나는 그런 인증따위없는 조립컴이라서
아래 프로그램을 수소문해서 찾음

https://github.com/SakiRinn/LiveCaptions-Translator
LiveCaption Translator라는 프로그램임
윈도우11의 라이브캡션 기능이 작동하면
그걸 토대로 알아서 설정한 목적언어로 번역해주는 오픈소스 프로그램임

실시간 녹음기 프로그램같은거라고 보면됨
번역하고자하는 사운드가 재생되는 같은 사운드스트림으로 지정해주면됨
사진처럼
크롬과 LiveCaption Translator를 같은 사운드 스트림으로 맞춰주면
저 사운드스트림에서 나는 소리만 인식함
그러니까 크롬으로 유투브보는 소리만 인식
번역방식은 설정하기에 따라서 구글, 딥엘, LLM기반 AI 서비스 등 등 있는데
구글 제외하면
일정 토큰 이상 사용하면 유료요금제 써야되서
한무꽁짜인 구글로 쓰는 중
그 중 Ollama라는 방식은
LLM AI 모델을 본인 PC에 다운로드하고 직접 PC 자원으로 AI 모델 돌리는건데
제일 구린 모델도 렘 8기가 정도 소모한다고 함
따라서 게임용으로는 부적합
무료이면서 PC 자원 소모 안하면서 Ollama 방식으로하려면
보이스미터 같은 사운드믹싱 프로그램 활용해서 투컴으로 돌려야할 듯
보이스미터로
같은 공유기 환경 내 내부 네트워크망에서
사운드를 네트워크를 통해서 PC 간 전송시키는거임
내부네트워크 간 전송이라서 거의 무지연이라고 보면됨
서브컴에서 메인컴의 사운드를 보이스미터 네트워크로 받아오고
서브컴에서 Ollama LLM AI돌리고
결과물 한국어TTS를 다시 메인컴으로 보이스미터 네트워크로 전송
하는 방안이 생각나는데 일단은 구글로 쓰기로했으니까 보류
그래서 번역퀄 좇구려도 일단 구글로 쓰고있는데
알아먹을 정도는 되는 듯함
유투브로 중국어 음성 영상 돌려서 테스트해보면
문장 길이가 길어질수록 문맥 파악이 잘되는지 번역퀄이 좋아지고
총겜 공방 중국인 팀원이 말하는
중국어 음성 보이스채팅은
보통 게임 브리핑하는거라서 짧막 짧막한 단어위주로 말하기 때문에
좀 번역이 난해한 감이 있음
그래도 대강 알아는 들음
오버레이 모드도 지원해서
원모니터에서 게임화면 위에 오버레이 띄우고 그거 기반으로 가능
오버레이 안먹히는 게임은
어쩔 수 없이 듀얼모니터에 저 프로그램 띄워놔야함
그런 게임은 듀얼모니터 필수



LiveCaption Translator 프로그램의
번역된 한글 문장 프롬프트를
주기적으로 읽어서
윈도우11 한국어 TTS 혜미로 말하게해주는
오토핫키 스크립트임
LiveCaption Translator 프로그램에서
실시간으로 한글 문장이 번역되는데
중국어 음성이 끝나기 전까지는
계속 번역된 한글 문장이 업데이트되면서 바뀜
당신을 -> 당신을 봅니다 -> 당신을 뵙습니다 -> 당신을 오랜만에 뵙습니다
이런식으로 말끝나기 전까지는 실시간으로 바뀜
따라서 문장이 완성되었다를 판별하기 위해서
OCR한 텍스트가 1초 동안 변동이 없으면 TTS를 발동시킴
NirCmd라는 프로그램으로 모니터의 특정 부분을 캡쳐해서 이미지파일로 저장하고
Tesseract OCR이라는 프로그램으로 캡쳐한 이미지파일을 텍스트로 읽음
오토핫키에서 윈도우 파워쉘을 호출해서
문자열을 정제하고
이전 시행의 문자열과 비교해서 중복되는 부분 버리고
최종적으로 문장을 만들어서
윈도우11의 한국어 TTS 혜미로 읽도록 명령함
1문장 당 1파워쉘 호출이고
연속적으로 파워쉘 호출이 되서 쌓일 수 있음
현재 파워쉘의 TTS가 종료되기 전까지는
다른 파워쉘의 TTS는 대기 상태에 있음
파워쉘 호출될 때마다 프로세스ID를 오토핫키 내의 큐에 넣어서
현재 실행 중인 것과 예약된 파워쉘의 TTS들을 관리함
이 오토핫키 내의 큐를 활용해서
가끔 OCR 찐빠로 이상한 문장이 TTS로 출력될때가 있으면
사운드 공해를 방지하기위해서
단축키를 통해서 수동으로 TTS를 종료시킬 수 있음
나는 눌러서말하기키 2번 연속 따닥 눌르면
파워쉘TTS 강제종료 시키기로 해둠
그냥 한번 영상으로 보는게 빠를듯
유투브 영상 안보이면
모바일웹말고
데스크탑버전웹으로 ㄱㄱ
지금은 코드 좀 최적화해서
영상보다 지연시간 2초정도 더 줄인상태임
ㅍㅌㅊ??
댓글 영역
획득법
① NFT 발행
작성한 게시물을 NFT로 발행하면 일주일 동안 사용할 수 있습니다. (최초 1회)
② NFT 구매
다른 이용자의 NFT를 구매하면 한 달 동안 사용할 수 있습니다. (구매 시마다 갱신)
사용법
디시콘에서지갑연결시 바로 사용 가능합니다.