Openais Whisper를 사용하여 오디오 파일을 전사하고 발병하는 방법
Whisper는 OpenAi의 최첨단 음성 인식 시스템으로 웹에서 수집 한 680,000 시간의 다국어 및 멀티 태스킹 감독 데이터에 대해 교육을 받았습니다. 이 크고 다양한 데이터 세트는 악센트, 배경 소음 및 기술 언어에 대한 견고성을 향상시킵니다. 또한 여러 언어로 전사 할 수있을뿐만 아니라 해당 언어에서 영어로 번역 할 수 있습니다. OpenAi는 음성 인식을 활용하는 유용한 응용 프로그램을 구축하기위한 토대 역할을하기 위해 모델과 코드를 발표했습니다.
그러나 Whisper의 큰 단점 중 하나는 대화에서 누가 말하는지 말할 수 없다는 것입니다. 대화를 분석 할 때 문제가됩니다. 이것은 제기가 발생하는 곳입니다. 일기는 대화에서 말하는 사람을 식별하는 과정입니다.
이 튜토리얼에서는 스피커를 식별하는 방법을 배우고 Whisper의 전사와 일치하는 방법을 배우게됩니다. 우리는 pyannote-audio
사용하여이를 달성 할 것입니다. 시작합시다!
먼저 오디오 파일을 준비해야합니다. Lex Fridmans Podcast의 첫 20 분을 Yann Download와 함께 사용할 것입니다. 비디오를 다운로드하고 오디오를 추출하려면 yt-dlp
패키지를 사용합니다.
! pip install -U yt-dlp
또한 FFMPEG 설치가 필요합니다
! wget -O - -q https://github.com/yt-dlp/FFmpeg-Builds/releases/download/latest/ffmpeg-master-latest-linux64-gpl.tar.xz | xz -qdc | tar -x
이제 명령 줄을 통해 실제 다운로드 및 오디오 추출을 수행 할 수 있습니다.
! yt-dlp -xv --ffmpeg-location ffmpeg-master-latest-linux64-gpl/bin --audio-format wav -o download.wav -- https://youtu.be/SGzMElJ11Cc
이제 작업 디렉토리에 download.wav
파일이 있습니다. 오디오의 첫 20 분을 자르자. 몇 줄의 코드로 Pydub 패키지를 사용할 수 있습니다.
! pip install pydub
from pydub import AudioSegment
t1 = 0 * 1000 # works in milliseconds
t2 = 20 * 60 * 1000
newAudio = AudioSegment . from_wav ( "download.wav" )
a = newAudio [ t1 : t2 ]
a . export ( "audio.wav" , format = "wav" )
audio.wav
는 이제 오디오 파일의 첫 20 분입니다.
pyannote.audio
는 스피커 제기를 위해 Python으로 작성된 오픈 소스 툴킷입니다. Pytorch Machine Learning 프레임 워크를 기반으로하는이 제품은 스피커 기업 파이프 라인을 구축하기 위해 결합하고 공동으로 최적화 할 수있는 훈련 가능한 엔드 투 엔드 신경 구성 블록 세트를 제공합니다. pyannote.audio
또한 음성 활동 감지, 스피커 세분화, 중첩 된 음성 감지, 스피커 임베드가 대부분의 최첨단 성능에 도달하기위한 광범위한 도메인을 포함하는 사전 취사 모델과 파이프 라인과 함께 제공됩니다.
Pyannote를 설치하고 비디오 오디오에서 실행하여 발기를 생성합니다.
! pip install pyannote.audio
from pyannote . audio import Pipeline
pipeline = Pipeline . from_pretrained ( 'pyannote/speaker-diarization' )
DEMO_FILE = { 'uri' : 'blabal' , 'audio' : 'audio.wav' }
dz = pipeline ( DEMO_FILE )
with open ( "diarization.txt" , "w" ) as text_file :
text_file . write ( str ( dz ))
이것을 인쇄하여 어떻게 생겼는지 확인하십시오.
print(*list(dz.itertracks(yield_label = True))[:10], sep="n")
출력 :
(<Segment(2.03344, 36.8128)>, 0, 'SPEAKER_00')
(<Segment(38.1122, 51.3759)>, 0, 'SPEAKER_00')
(<Segment(51.8653, 90.2053)>, 1, 'SPEAKER_01')
(<Segment(91.2853, 92.9391)>, 1, 'SPEAKER_01')
(<Segment(94.8628, 116.497)>, 0, 'SPEAKER_00')
(<Segment(116.497, 124.124)>, 1, 'SPEAKER_01')
(<Segment(124.192, 151.597)>, 1, 'SPEAKER_01')
(<Segment(152.018, 179.12)>, 1, 'SPEAKER_01')
(<Segment(180.318, 194.037)>, 1, 'SPEAKER_01')
(<Segment(195.016, 207.385)>, 0, 'SPEAKER_00')
이것은 이미 꽤 좋아 보이지만 데이터를 조금 정리합시다.
def millisec ( timeStr ):
spl = timeStr . split ( ":" )
s = ( int )(( int ( spl [ 0 ]) * 60 * 60 + int ( spl [ 1 ]) * 60 + float ( spl [ 2 ]) ) * 1000 )
return s
import re
dz = open ( 'diarization.txt' ). read (). splitlines ()
dzList = []
for l in dz :
start , end = tuple ( re . findall ( '[0-9]+:[0-9]+:[0-9]+.[0-9]+' , string = l ))
start = millisec ( start ) - spacermilli
end = millisec ( end ) - spacermilli
lex = not re . findall ( 'SPEAKER_01' , string = l )
dzList . append ([ start , end , lex ])
print ( * dzList [: 10 ], sep = ' n ' )
[33, 34812, True]
[36112, 49375, True]
[49865, 88205, False]
[89285, 90939, False]
[92862, 114496, True]
[114496, 122124, False]
[122191, 149596, False]
[150018, 177119, False]
[178317, 192037, False]
[193015, 205385, True]
이제 목록에 설상 데이터가 있습니다. 처음 두 숫자는 스피커 세그먼트의 시작 및 종료 시간입니다. 세 번째 숫자는 스피커가 LEX인지 아닌지 알려주는 부울입니다.
다음으로, 우리는 스페이서를 구분 기자로 제시에 따라 오디오 세그먼트를 첨부 할 것입니다.
from pydub import AudioSegment
import re
sounds = spacer
segments = []
dz = open ( 'diarization.txt' ). read (). splitlines ()
for l in dz :
start , end = tuple ( re . findall ( '[0-9]+:[0-9]+:[0-9]+.[0-9]+' , string = l ))
start = int ( millisec ( start )) #milliseconds
end = int ( millisec ( end )) #milliseconds
segments . append ( len ( sounds ))
sounds = sounds . append ( audio [ start : end ], crossfade = 0 )
sounds = sounds . append ( spacer , crossfade = 0 )
sounds . export ( "dz.wav" , format = "wav" ) #Exports to a wav file in the current path.
print ( segments [: 8 ])
[2000, 38779, 54042, 94382, 98036, 121670, 131297, 160702]
다음으로 Whisper를 사용하여 오디오 파일의 다른 세그먼트를 전사합니다. 중요 : pyannote.audio와의 버전이 오류가 발생합니다. 우리의 해결 방법은 먼저 Pyannote를 실행 한 다음 속삭이는 것입니다. 오류를 안전하게 무시할 수 있습니다.
열린 AI Whisper 설치.
! pip install git+https://github.com/openai/whisper.git
준비된 오디오 파일에서 열린 AI 속삭임을 실행합니다. 전사를 파일에 씁니다. 모델 크기를 필요에 맞게 조정할 수 있습니다. GitHub의 모델 카드에서 모든 모델을 찾을 수 있습니다.
! whisper dz.wav --language en --model base
[00:00.000 --> 00:04.720] The following is a conversation with Yann LeCun,
[00:04.720 --> 00:06.560] his second time on the podcast.
[00:06.560 --> 00:11.160] He is the chief AI scientist at Meta, formerly Facebook,
[00:11.160 --> 00:15.040] professor at NYU, touring award winner,
[00:15.040 --> 00:17.600] one of the seminal figures in the history
[00:17.600 --> 00:20.460] of machine learning and artificial intelligence,
...
.VTT 파일로 작업하려면 WebVTT-PY 라이브러리를 설치해야합니다.
! pip install -U webvtt-py
데이터를 살펴 보겠습니다.
import webvtt
captions = [[( int )( millisec ( caption . start )), ( int )( millisec ( caption . end )), caption . text ] for caption in webvtt . read ( 'dz.wav.vtt' )]
print ( * captions [: 8 ], sep = ' n ' )
[0, 4720, 'The following is a conversation with Yann LeCun,']
[4720, 6560, 'his second time on the podcast.']
[6560, 11160, 'He is the chief AI scientist at Meta, formerly Facebook,']
[11160, 15040, 'professor at NYU, touring award winner,']
[15040, 17600, 'one of the seminal figures in the history']
[17600, 20460, 'of machine learning and artificial intelligence,']
[20460, 23940, 'and someone who is brilliant and opinionated']
[23940, 25400, 'in the best kind of way,']
...
다음으로, 우리는 각 전사 선을 일부 확산과 일치시키고 HTML 파일을 생성하여 모든 것을 표시합니다. 올바른 타이밍을 얻으려면 제기 세그먼트가없는 원래 오디오의 부품을 처리해야합니다. 우리는 오디오의 각 세그먼트에 대한 새로운 DIV를 추가합니다.
# we need this fore our HTML file (basicly just some styling)
preS = '<!DOCTYPE html>n<html lang="en">n <head>n <meta charset="UTF-8">n <meta name="viewport" content="width=device-width, initial-scale=1.0">n <meta http-equiv="X-UA-Compatible" content="ie=edge">n <title>Lexicap</title>n <style>n body {n font-family: sans-serif;n font-size: 18px;n color: #111;n padding: 0 0 1em 0;n }n .l {n color: #050;n }n .s {n display: inline-block;n }n .e {n display: inline-block;n }n .t {n display: inline-block;n }n #player {nttposition: sticky;ntttop: 20px;nttfloat: right;nt}n </style>n </head>n <body>n <h2>Yann LeCun: Dark Matter of Intelligence and Self-Supervised Learning | Lex Fridman Podcast #258</h2>n <div id="player"></div>n <script>n var tag = document.createElement('script');n tag.src = "https://www.youtube.com/iframe_api";n var firstScriptTag = document.getElementsByTagName('script')[0];n firstScriptTag.parentNode.insertBefore(tag, firstScriptTag);n var player;n function onYouTubeIframeAPIReady() {n player = new YT.Player('player', {n height: '210',n width: '340',n videoId: 'SGzMElJ11Cc',n });n }n function setCurrentTime(timepoint) {n player.seekTo(timepoint);n player.playVideo();n }n </script><br>n'
postS = 't</body>n</html>'
from datetime import timedelta
html = list(preS)
for i in range(len(segments)):
idx = 0
for idx in range(len(captions)):
if captions[idx][0] >= (segments[i] - spacermilli):
break;
while (idx < (len(captions))) and ((i == len(segments) - 1) or (captions[idx][1] < segments[i+1])):
c = captions[idx]
start = dzList[i][0] + (c[0] -segments[i])
if start < 0:
start = 0
idx += 1
start = start / 1000.0
startStr = '{0:02d}:{1:02d}:{2:02.2f}'.format((int)(start // 3600),
(int)(start % 3600 // 60),
start % 60)
html.append('ttt<div class="c">n')
html.append(f'tttt<a class="l" href="#{startStr}" id="{startStr}">link</a> |n')
html.append(f'tttt<div class="s"><a href="javascript:void(0);" onclick=setCurrentTime({int(start)})>{startStr}</a></div>n')
html.append(f'tttt<div class="t">{"[Lex]" if dzList[i][2] else "[Yann]"} {c[2]}</div>n')
html.append('ttt</div>nn')
html.append(postS)
s = "".join(html)
with open("lexicap.html", "w") as text_file:
text_file.write(s)
print(s)
Lablab Discord에서, 우리는이 저장소와 인공 지능과 관련된 다른 많은 주제에 대해 논의합니다! 다가오는 인공 지능 Hackathons 이벤트