조디악 표시로 호환성을 찾으십시오
언론인을 위한 최고의 자동 전사 도구
기술 및 도구

Siri는 이제 막 6살이 되었습니다. 알렉사는 이제 막 세 살이 되었습니다. 전화로 앨버커키의 날씨를 물어보고 거실의 플라스틱 실린더에 워싱턴 포스트를 소리 내어 읽도록 할 수 있다면 왜 우리는 여전히 인터뷰를 손으로 필사하고 있습니까?
글쎄, 우리는 정말로 그럴 필요가 없다는 것이 밝혀졌습니다. 자동 필사 도구가 출시된 지 얼마 되지 않아 마침내 개선되고 있습니다. 이제 오디오나 비디오를 사이트에 업로드하고 상당히 포괄적인 대본을 받는 데 몇 분과 몇 달러가 걸립니다.
그러나 모든 도구와 마찬가지로 일부 도구는 다른 도구보다 낫습니다. 우리는 다음을 포함하여 저널리스트를 대상으로 하는 가장 인기 있는 전사 도구 8개를 테스트(또는 테스트 - 더 자세한 내용은 나중에)했습니다. 드래곤 받아쓰기 , 해피 스크라이브 , o기록하다 , 기록적으로 , 신부님 , 소닉스 , 트린트 그리고 유튜브. 우리는 다양한 실제 시나리오를 통해 각 도구를 실행하여 각 도구가 저널리스트의 일반적인 사용에 대해 어떻게 작동하는지 실험했습니다.
어떤 도구도 완벽하지는 않았지만 하나는 범주에서 다른 도구를 능가했습니다.
우리의 선택
정확성, 기능 및 사용 편의성이 결합된 Trint는 저널리스트를 위한 자동 전사를 위한 최고의 선택입니다. 가장 정확하고 기능이 풍부하거나 가장 저렴한 도구는 아니었지만 대본 편집 도구와 저널리스트의 워크플로에 좀 더 매끄럽게 맞출 수 있는 기능은 경쟁업체를 압도하는 데 도움이 됩니다. 그 이유를 계속 읽으십시오.
실험
보시다시피 이러한 도구의 정확도는 낮습니다. 그것은 우리가 그들을 혼란스럽게 하기 위해 최선을 다했기 때문입니다.
첫째, 다양한 사람, 목소리 및 억양을 반영하기 위해 4명의 참가자와 함께 샘플 오디오를 녹음했습니다. 여기에는 다음이 포함되었습니다.
- 알렉시오스 만차리스 , Poynter 교수 및 International Fact-Checking Network 이사는 로마 출신으로 자신을 '영국식, 이탈리아식 및 이상한 미국식 억양이 섞인 재미있는 단어'를 가지고 있다고 말했습니다.
- 달콤한 꽃다발 , 9월에 멕시코시티에서 포인터로 온 International Fact-Checking Network의 프로그램 관리자
- 크리스틴 헤어 , 녹음에서 자신의 목소리를 들을 때 '약간 계곡 소녀 같다'고 생각하는 Poynter의 기자
- 나, 그리고 Kristen은 내가 '버팔로 억양'을 가지고 있다고 말했지만, 내 생각에 중얼거리고 너무 빨리 말하고 단어의 일부를 건너뛰는 경향은 필사하기가 더 어려울 것입니다. 반사.)
Kristen은 Google 행아웃/YouTube Live( 공개: Google News Lab의 보조금이 내 직책에 부분적으로 자금을 지원합니다. ), 대부분의 자동 전사 도구는 공개적으로 경고합니다. 전화 또는 영상 채팅의 오디오는 일반적으로 처리하기 어려운 것 같습니다.
알고리즘을 더욱 고문하기 위해 우리는 평소보다 훨씬 빠른 속도로 구절을 읽습니다. Dulce와 Alexios는 다양한 외국어(이탈리아어, 스페인어, 프랑스어, 그리스어)를 구사했으며 가능한 한 많은 고유 명사를 발음했습니다(Apalachicola , Michael Oreskes와 여러 그리스 섬, 몇 가지만 들자면 Urban Dictionary(a 합성어 Paul Manafort의 말과 그의 법적 상황을 묘사하는 조잡한 단어) 그리고 약간의 빈도로 서로에 대해 이야기했습니다.
우리는 Poynter의 웨비나 스튜디오에서 14분 동안의 테스트를 녹음했고 머리 위에서 적어도 한 대의 시끄러운 비행기 소리(몇 블록 떨어진 곳에 공항이 있음), 긴급 차량 및 Kristen의 전화 소리에 방해를 받았습니다.
우리는 세 가지 방법으로 오디오를 녹음했습니다.
- 와 줌 H4nPro 우리 사이에 놓인 핸드헬드 마이크
- 내 iPhone 6S Plus에서 Recordly 앱을 사용하여 녹화하고 Zoom 옆에
- Kristen이 우리와 합류한 방식인 비공개 YouTube Live로
그런 다음 각 도구에 오디오를 업로드하고 각 도구가 필사하는 데 걸리는 시간을 추적했습니다. Microsoft Word를 사용하여 결과 스크립트를 정규화하여 타임스탬프를 제거하고 화자 이름이 일치하는지 확인했습니다. 컨트롤로서 나는 오디오를 직접(oTranscribe를 사용하여) 전사한 다음 전체 정확성을 확인하기 위해 여러 번 들었습니다. 또한 알고리즘이 아닌 인간의 필사기를 사용하는 유료 서비스인 Rev를 사용하여 누적되는 방식을 확인했습니다.
다양한 문서 비교 도구를 테스트하여 어떤 것이 가장 효과가 좋은지 확인하고 카피스케이프 가장 건전한 옵션으로. 도구 및 서비스에서 생성된 스크립트를 oTranscribe로 생성한 100% 정확한 스크립트와 비교했습니다.
몇 가지 추가 참고 사항:
- Zoom의 오디오는 최고의 품질로 입증되었으므로 대부분의 테스트에 이를 사용했습니다. Recordly 앱은 다른 소스에서 녹음된 오디오를 허용하지 않는 것 같으므로 이 프로세스의 한 가지 예외입니다. 또한 Zoom 오디오를 YouTube에 업로드하지 않고 대신 YouTube 라이브 녹음의 오디오에 의존했습니다. 사과와 오렌지 비교는 이 실험을 과학적이라기보다는 저널리스트가 실제 세계에서 이러한 도구를 실제로 사용하는 방법에 더 가깝도록 만듭니다.
- 인기 있는 도구이지만 iOS 11에서 작동하지 않는 Dragon Dictation을 테스트할 수 없었습니다. 개발자가 이 문제를 수정하면 이 리뷰를 업데이트하겠습니다.
- 우리는 테스트하기 전에 이러한 회사 중 어느 곳에도 연락하지 않았기 때문에 성적표에 대한 특별한 처리나 백엔드 피날링이 없었습니다. Trint, Sonix 및 Recordly는 신규 사용자에게 제한된 무료 시간을 제공하므로 실험을 위해 이를 활용했습니다. 우리는 Happy Scribe에 비 기자 동료의 신용 카드를 사용했으며 과거에 설립자와 통신 한 적이 있기 때문에 Pointer에 대해 언급하지 않았습니다. 그리고 우리는 Rev의 인간 전사에 대해 전액을 지불했습니다. YouTube의 자막 서비스와 oTranscribe는 항상 무료입니다.
- 이 리뷰에 포함되지 않은 훨씬 더 많은 자동 전사 도구가 있습니다. 우리는 언론인들이 우리에게 질문한 것들에 초점을 맞추려고 노력했습니다. 불공정하게 건너뛰었다고 생각되는 경우 알려주시면 리뷰를 업데이트하겠습니다.
성적표 품질(수상작: Happy Scribe)
우리가 테스트한 하나의 인간 필사 서비스가 자동 필사본을 크게 앞섰기 때문에 인공 지능 반란에 대해 우려하는 사람들이 준비할 시간이 적어도 몇 년은 더 있는 것 같습니다.
Rev는 82%의 정확도 등급을 받았으며, 번역가는 대부분 외국어(정확히 말하면 별도의 서비스임), 고유 명사 몇 개, 혼선, 속어 몇 개, 중얼거림을 파악하는 데 실패했습니다. 다른 도구에서도 이러한 부분이 대부분 누락되었지만 Rev의 인간 필사자는 나중에 수정하는 데 유용한 자리 표시자인 '[inaudible]' 및 '[crosstalk]' 및 '[foreign language]'와 같은 항목을 최소한 언급했습니다.
누락된 비트가 있더라도 Rev 스크립트는 완전히 읽을 수 있고 일관성이 있습니다. 초기 대화에 참석하지 않았다면 읽기만 해도 우리가 이야기한 내용의 핵심을 알 수 있습니다.
다음으로 가장 정확한 전사는 YouTube였습니다. 비디오 호스팅 사이트는 72% 정확도의 YouTube 라이브 비디오 캡션을 자동으로 생성했습니다. 그러나 전체 품질이 10%만 떨어지더라도 YouTube는 구두점이나 화자 세분화를 제공하지 않기 때문에 스크립트는 Rev의 것보다 훨씬 덜 가독성이 높습니다. 캡션은 방대한 텍스트 블록으로 존재합니다. 오디오와 페어링하지 않으면 대화에 참여하지 않은 사람이 우리 대화를 이해하는 것이 거의 불가능합니다.
YouTube 제품에는 다른 단점이 있지만 기능에 대해 이야기할 때 이에 대해 이야기하겠습니다.
Happy Scribe는 우리 실험에서 62%의 정확도로 가장 정확한 비인간 전용 전사 도구임이 입증되었습니다. 이 도구는 업로드 페이지에서 '무거운 배경 소음을 피하고, '무거운 악센트를 피하십시오', '스카이프 및 전화 인터뷰를 피하십시오', '마이크를 스피커 가까이에 두십시오'라고 경고했지만 우리는 이 모두를 충실히 무시했습니다.
녹취록은 내가 말한 곳에서 정확에 가깝습니다. 특히 혼선이없고 고유 명사를 사용하지 않았지만 Dulce, Kristen 및 Alexios를 필사하는 데 꽤 어려움을 겪을 때 그렇습니다. 그것은 어떤 곳에서는 다른 화자들을 새로운 단락으로 나누었지만 다른 곳에서는 실패했습니다. 전체 녹취록은 어떤 곳에서는 완전히 일관성이 있고 다른 곳에서는 이상할 정도로 일관성이 없습니다. 예를 들어 Alexios가 '도시 사전을 열도록 하고 일부를 살펴볼 수 있습니다.' .”
Trint는 61%의 정확도로 유사한 결과를 제공했습니다. 악센트, YouTube의 오디오 및 누화 또는 조용한 말하기가 있는 섹션을 더듬어 더듬는 등 많은 동일한 장소에서 엉망이 되었습니다. 그러나 Happy Scribe와 정확히 같은 방식으로 오역하지는 않았습니다. 위의 Urban Dictionary 문장은 '나는 도시 사전에서도 우리는 그것을 통과 할 수 있다는 의미입니다.'
전반적으로 Trint의 스크립트는 Happy Scribe의 스크립트보다 읽기가 약간 더 쉽습니다. 화자를 구별하고 새 단락으로 나누는 작업을 더 잘 수행하기 때문입니다. 완벽하지는 않지만 작동할 때 명확성을 많이 추가합니다.
Sonix는 50%로 다음으로 가장 정확한 것으로 판명되었습니다. Sonix는 한 명의 화자가 큰 소리로 말할 때 Happy Scribe와 Trint보다 약간 더 잘 작동했습니다. 그러나 어떤 양의 누화, 배경 소음, 심지어 웃음(웃음)(실제 도구 사용에서 나타날 수 있는 모든 것)은 다른 것보다 더 혼란스럽게 보였습니다. 그것은 도시 사전 문장을 '도시 사전에서 열면 우리는 그 중 일부를 살펴볼 수 있습니다.'라는 문장을 캡처했습니다.
다른 도구와 마찬가지로 Sonix는 연사를 다른 단락으로 나누려고 시도했지만 약간 더 나빴던 것 같습니다.
Recordly는 48%의 정확도로 자동 필사 도구 중 가장 정확하지 않았습니다. 그것은 Urban Dictionary 문장을 '그 도시 사전을 열게하고 우리는 할 수 있습니다. 몇 가지를 살펴보십시오.” 나쁘지는 않지만 그 텍스트 덩어리는 나머지 대본을 대표하지 않습니다. YouTube와 마찬가지로 Recordly의 대본은 하나의 거대한 텍스트 블록입니다. YouTube와 달리 구두점을 추가하지만 다른 도구보다 빈도가 적고 정확도가 낮습니다.
Recordly transcript는 문맥상 가장 도움이 되지 않습니다.
전반적으로 최고의 성적표는 oTranscribe를 사용하여 직접 작성했습니다. Rev는 내가 직접 필사할 필요가 없는 최고의 성적표를 찾아냈습니다. 그러나 이것은 자동 필사 도구에 대한 리뷰이며 해당 범주에서 Happy Scribe는 Trint를 겨우 앞질러 1위를 차지했습니다.
기능(승자: Sonix)
몇 가지가 자동 전사 도구 산업 표준인 것 같습니다. 업로드된 오디오를 재생하는 기능은 분명한 것입니다. 모든 도구를 통해 사용자는 다양한 형식으로 성적표를 내보낼 수 있습니다.
브라우저 기반 도구(Recordly를 제외한 모든 도구)도 공통 제품군을 제공합니다. 모두 사용자가 텍스트의 다양한 지점을 클릭하고 녹음의 해당 부분으로 직접 건너뛸 수 있습니다. 모두 느린 속도로 오디오를 재생하고(단축키 사용 또는 설정 조작), 수동으로 스크립트를 편집하고, 오디오와 함께 비디오를 업로드하고, 나중에 사용할 수 있도록 스크립트를 저장하는 옵션이 있습니다.
Trint는 한 단계 더 나아가 사용자가 마음대로 건너뛸 수 있는 스크립트 하단에 오디오의 시각화된 파형을 제공합니다. 또한 텍스트를 찾아서 바꾸거나 강조 표시하거나 지우는 도구가 내장되어 있습니다. 사용자는 도구에 연사 명단을 추가하고 각 단락에 이름을 첨부할 수 있습니다. 또한 한 번의 클릭으로 성적표를 이메일로 보낼 수 있는 편리한 기능이 있습니다.
Sonix는 이러한 모든 도구(대화형 파형 제외)와 몇 가지 추가 기능을 제공합니다. 가장 도움이 되는 것은 Sonix가 덜 자신 있는 단어에 다른 색상을 지정하는 '신뢰 색상'입니다. Sonix가 전사에 대해 얼마나 자신하는지 알려주는 오디오 품질 평가자. 다양한 화자를 식별하고 ID를 할당하는 베타 기능인 자동 화자 식별 기능이 있습니다.
테스트에서 Sonix는 두 개의 다른 스피커만 식별했으므로 이 도구는 약간의 작업이 필요하지만 여전히 매우 유용합니다.
기록에 따르면, 그 무리의 유일한 앱(iOS만 해당)은 가장 적은 기능을 제공합니다. 그것은 거의 기록하고 기다리는 경험입니다. 스크립트는 편집 기능이 제한된 Apple의 내장 메모 앱과 유사한 형식으로 제공됩니다. 또한 사용자가 오디오 또는 텍스트를 다른 앱으로 내보낼 수 있습니다.
Trint의 찾기 및 바꾸기 및 파형 기능은 전사를 수정할 때 유용하지만 Sonix의 기능은 전사 프로세스에 중요한 투명성을 추가합니다. 화자 식별 베타가 완전히 신뢰할 수 있는 것은 아니지만 여기에서 더 나아져야 하는 야심찬 도구입니다.
타이밍(승자: 해피 스크라이브, 트린트 그리고 기록적으로)
여기에서 자동 전사가 빛을 발합니다. 모든 도구는 우리가 제출한 오디오 파일의 길이보다 짧은 시간 안에 스크립트를 제공했습니다. Happy Scribe(5분), Trint(6분), Recordly(6분)의 차이는 무시할 수 있지만 Sonix는 조금 더 오래(11분) 걸렸습니다. (업데이트: Sonix 담당자는 스피커 식별 기능이 꺼져 있을 때 속도가 다른 도구와 일치한다고 말했습니다.) 실제 환경에서 이것은 특히 더 긴 필사본의 경우 결정적인 차이가 될 수 있습니다.
YouTube는 여기에서 약간의 미스터리입니다. 이 스크립트의 경우 자동 캡션이 표시되는 데 몇 분 밖에 걸리지 않았습니다. 과거 경험에서 우리는 그들이 나타나는 데 걸리는 시간이 상당히 다를 수 있음을 발견했습니다. YouTube는 실제로 이러한 방식으로 사용되지 않기 때문에 일반적으로 시간이 얼마나 걸리는지 잘 모르겠습니다.
Rev의 인간 필사자가 대본을 완료하는 데 약 4시간 15분이 걸렸습니다. oTranscribe를 사용하여 직접 하려면 그 절반 정도가 걸렸지만 몇 차례 휴식을 취하지 않고 Spotify는 딥 포커스 재생 목록과 2갤런의 커피.
가격(승자: 기록적으로)
무료(YouTube, oTranscribe)를 이길 수는 없지만 전용 자동 전사 도구의 경우 비용이 크게 다릅니다. 최적의 가격을 결정하려면 도구를 얼마나 자주 사용할 것인지 고려해야 합니다.
Sonix는 가장 비쌉니다. 기본 플랜은 월 15달러부터 시작하며 여기에 녹음된 오디오 시간당 8달러가 추가됩니다. 그러나 이 도구는 월별 대신 연간 지불에 대해 33%의 엄청난 할인을 제공합니다.
또한 Trint는 업로드한 만큼만 지불하는 경우 시간당 15달러, 최대 3시간 분량의 녹음된 오디오에 대해 월 40달러부터 시작하는 요금제를 제공합니다. 추가 트랜스크립션 비용은 시간당 $13 정도입니다.
Happy Scribe는 업로드된 오디오에 대해 분당 10센트의 고정 비용이 듭니다. 수학을 덜 좋아하는 유형의 경우 시간당 $6입니다.
시간당 2달러로 처음 1시간은 무료인 Recordly는 가장 저렴한 자동 필사 옵션입니다.
당연히 Rev의 인간 필사기는 다른 도구보다 비용이 많이 듭니다. 13분짜리 클립은 필사하는 데 14달러가 들었고 타임스탬프에는 3.50달러를 더 지불했습니다. 그럼에도 불구하고 관련된 작업 시간에 대한 값싼 상대 비용은 우리로 하여금 Rev의 전사가 전 세계적으로 어디에 있으며 그들이 얼마나 잘 보상을 받고 있는지 궁금하게 만듭니다.
사용 용이성(승자: 트린트)
이러한 도구 중 어느 것도 사용하기 어렵습니다. 각각에 파일을 업로드하고(Recordly의 경우 파일과 함께 오디오를 녹음), 얼마 후 편집 가능한 스크립트에 대한 링크를 보냅니다.
Trint는 파일 업로드를 넘어 Dropbox, Google 드라이브 및 FTP를 포함한 다양한 소스의 오디오 또는 비디오를 허용하며 사용자가 링크를 입력하기만 하면 됩니다. 이것은 우리가 테스트한 도구 중 고유합니다. 또한 Trint는 업로드가 시작되기 전에 배경 소음, 혼선 등에 대해 몇 가지 유용한 질문을 합니다. 녹음을 수정하지는 않지만 앞으로 사용자에게 더 많은 녹음 가능한 오디오를 녹음하는 방법을 가르치는 유용한 UX 끄덕임입니다.
Happy Scribe, Rev, Sonix 및 Trint는 모두 필사본이 준비되면 이메일을 보내므로 앉아서 화면을 응시할 필요가 없습니다.
결론
가장 저렴하지도 않고 사용 가능한 가장 전반적으로 정확한 전사 옵션도 아니지만 Trint는 우리가 테스트한 도구 중 최고의 만능 도구로 승리를 거두었습니다.
설립된지 1년이 조금 넘고 기사재단으로부터 펀딩을 받은 회사 (면책 조항: 포인터도 수신 나이트에서 자금 지원) 및 Google의 디지털 뉴스 이니셔티브는 기능, 정확성 및 사용 용이성의 최상의 조합을 제공합니다.
72%의 정확도를 기록한 YouTube의 자동 자막 기능만이 알고리즘 기반 전사에서 Trint보다 훨씬 더 나은 성과를 보였습니다. 그러나 YouTube는 저널리스트가 일상적으로 필요로 하는 스크립트 유형을 위해 설계되지 않았으며 어떠한 유형의 편집 기능도 제공하지 않습니다.
젊은 신생 기업인 Happy Scribe는 정확도 테스트에서 62%의 비율로 약간 더 나은 결과를 얻었고 Trint의 약 3분의 1 가격으로 제공되지만 Trint를 유용하게 만드는 추가 기능이 많이 부족합니다. 다양한 소스에서 업로드하고 텍스트 및 화자 식별을 찾아서 바꾸는 기능은 작지만 중요한 워크플로 도구입니다. 빠르고 더러운 대본을 찾고 있다면 Happy Scribe가 그 방법일 수 있습니다.
그리고 61%가 완벽하지 않은 것은 사실이지만 우리의 테스트는 대부분의 실제 사용보다 약간 더 어려웠습니다.
또한 인간 번역 서비스인 Rev와 언론인이 스스로 오디오를 필사할 수 있는 편리한 도구를 제공하는 oTranscribe도 테스트했습니다. 녹음된 오디오의 분당 1달러에서 우리는 Rev가 일반 언론인이 정기적으로 사용하기에는 너무 비싸다는 것을 발견했습니다. 그리고 oTranscribe가 편리하긴 했지만, 필사하는 지루함과 번거로움을 해결하지 못했습니다.
일반적인 용도를 염두에 둔 Trint는 저널리스트를 위한 최고의 만능 자동 전사 도구입니다.
수정: 우리는 이전에 Sonix가 권하다 도구를 찾고 교체하지만 실제로는 그렇습니다. 누락된 점 사과드립니다.
Try This를 통해 저널리즘 도구에 대해 자세히 알아보십시오! — 저널리즘을 위한 도구. 이 시도! 에 의해 구동 Google 뉴스 랩 . 에서도 지원합니다. 미국 언론 연구소 그리고 존 S.와 제임스 L. 나이트 재단