Jump to content

Community Wishlist/Wishes/Software for turning articles into spoken Wikipedia audios using novel AI voice tech/ko

From Meta, a Wikimedia project coordination wiki
새로운 AI 음성 기술을 사용하여 문서를 음성 위키백과 오디오로 변환하는 소프트웨어 Open

소원 편집 이 소원에 대해 토론해보세요

설명

저는 현대적 AI 음성(거의 자연스럽게 들리는 텍스트-음성)을 사용해 말하는 위키백과 오디오를 만드는 웹 UI 도구를 제안합니다.

Earth
Arch Mission Foundation
Aristotle
Elephant communication
Heraclitus
Two-level utilitarianism
2022 in science#August (여기에는 약어와 괄호에 대한 몇 가지 문제가 여전히 있습니다)
Linux
Easter Island (이것은 문명의 몰락 팟캐스트와 유사) – 현재 구식 플레이어를 위한 더 광범위한 플레이어 대안으로, 거의 점프하거나 뒤로 돌아갈 수 없습니다.
Guns, Germs, and Steel (책의 포괄적인 요약 포함, Blinkist과 유사)

현재는 참조나 이미지 캡션, 표에 대해 "[1]"를 설명하지 않고 이것과 같은 카테고리를 추가하는 등의 작업을 하기 위해 c:Help:Spoken Wikipedia using AI의 ~16단계를 모두 수행해야 합니다.

많은 사람들이 팟캐스트나 오디오북을 듣습니다 – 매일 수백만 명이 듣습니다.[1][2] 위키백과 문서는 종종 정말 흥미롭지만, 일반적으로 또는 화면에서 많이 읽는 사람은 많지 않습니다. 문서를 위키백과 음성 오디오로 바꾸면 많은 독자/청취자에게 매우 큰 영향을 미치고 흥미로울 것입니다. 위키백과의 청중이 최대 두 배로 늘어날 수 있습니다.

새로운 AI 음성 기술을 링크된 가이드에 설명된 대로 다양한 방식으로 문서 내용을 변환해야 하기 때문에 어차피 사용할 수 없는 자연스럽지 않은 화면 판독기와 혼동하지 마십시오. 또한 이동 중에 문서를 오디오 조정된 버전으로 재생 버튼을 눌러 들을 수도 없습니다. 저는 개인적으로 팟캐스트를 듣는 것에서 위키백과 문서를 듣는 것으로 전환했습니다. 이 방법을 사용하면 관심 있는 문서의 최신 버전을 양질의 청취 가능한 오디오로 사용할 수 있었고 많은 다른 사람들도 관심 있는 주제에 대해 그런 WP 음성 오디오를 듣고 싶어할 것이라고 생각합니다. 예를 들어, 전자 화면에서 Earth와 같은 광범위하고 주요한 긴 문서를 전부 읽는 사람은 거의 없지만 팟캐스트 스타일로 들을 수 있다면 많은 사람이 할 수 있습니다. 여기에는 문서 내용의 문제를 알아차리는 데 이를 사용할 수 있는 위키백과 편집자도 포함됩니다(WP 품질 향상). 물론 시각 장애인과 시력/독서 장애가 있는 사람에게도 유용할 것입니다. 사람들이 오디오의 아직 해결되지 않은 문제를 보고하는 데 사용할 수 있는 템플릿이 있습니다. 저는 Wikipedia:WikiProject Wikipedia spoken by AI voice에 위키프로젝트를 만들었습니다. 지금까지 만들어진 오디오는 여기에서 다운로드할 수 있으며, 여기에서 팟캐스트 플레이어로 다운로드할 수 있습니다. 2025년 1월 현재 아무도 이 프로젝트에 참여하지 않아 사람들이 이 오디오를 찾아 사용할 수 없기 때문에 위키백과 문서에는 거의 표시되지 않습니다. 그럼에도 불구하고 상위 4개 오디오를 제외하면 100,000회 이상 재생되었습니다.

현재 이러한 오디오의 대부분이 생성되는 방식은 영어 위키백과의 문서 대부분에도 음성 WP 오디오가 없고, 있다 하더라도 수년 또는 10년은 오래된 것입니다(예: ENWP의 Evolution에 대한 음성 문서는 2005년의 것입니다). 최근 텍스트-대-음성의 품질이 크게 개선되어 T2S 대신 별도의 용어인 'AI 생성 음성'을 사용하는 것이 타당해 보이며, 자연스럽게 들리고 오른쪽의 예를 들어볼 수 있습니다. 참고 다양한 형식으로 무료 지식 콘텐츠를 액세스할 수 있도록 하는 데 필요한 기술을 구축하세요. 여기 전략에서.

원래는 위키백과 문서의 CSS를 변경하여 문서를 내레이션 보기(인쇄 보기와 유사)로 바꾸거나 내용을 수동으로 복사하는 등의 작업을 하지 않아도 되도록 하여 수동 생성 속도를 높일 수 있는 웹 UI만 제안하려고 했습니다(이러한 오디오를 더 빠르게 생성할 수 있게 함).

이제 저는 어느 시점에서 음성 오디오 파일이 자동으로 생성되고 문제가 해결되는 전환 단계 이후의 도구는 주로 이러한 파일을 개선하는 데 사용되어야 한다고 제안하고 싶습니다. 예를 들어, 문서에 최근 주요 변경 사항이 있거나 오디오에 수정해야 할 잘못된 내레이션이 있는 경우 오디오를 업데이트하는 것입니다. 이 도구는 사람들이 오디오 생성 프로세스를 시간이 지남에 따라 개선하여 일반적으로 고품질이고 문제가 없는 오디오가 될 때까지(예: 내레이션 테이블 헤더이지만 테이블은 아님) 먼저 생성됩니다. 이 자동 변환 프로세스가 양호한 상태(즉, 매우 드문 사소한 문제만 있음)가 되면 도구의 해당 부분을 사용하여 규모에 맞게 오디오를 자동으로 생성할 수 있습니다. 뉴욕타임스와 같이 다른 여러 웹사이트도 AI를 사용하여 오디오 형식으로 기사를 제공하지만 긴 위키백과 문서보다 유용성이 낮습니다. 낭비해서는 안 될 큰 기회입니다.

도구가 자동으로 수행할 수 있는 작업에 대한 아이디어
  1. 각 섹션에 타임스탬프를 추가하여 위키백과 문서의 특정 섹션으로 쉽고 빠르게 이동할 수 있게 되었습니다. 관련 소원 비디오 및 오디오 챕터(타임스탬프로 이동)를 참조하세요.
  2. 목소리 오디오 (P989)에 나레이션된 버전의 날짜와 언어를 사용하여 위키데이터 항목에 오디오를 추가합니다.
  3. c:Category:Spoken Wikipedia articles using English-language speech synthesis과 같은 카테고리 추가
  4. 나레이션이 있는 위키백과 문서에 대한 영구 링크와 문서에 대한 위키 링크(최신 버전)를 포함합니다.
  5. 어떤 것들이 포함되었는지에 대한 정보 추가(특정 표나 수학 방정식 등)
  6. TimedText 추가(이것은 섹션 타임스탬프에 사용될 수 있음) 및 위키백과 앱의 어떤 종류의 시청각적 읽기 모드를 위해 위키백과 문서의 현재 읽히는 부분을 강조하는 도구도 추가
  7. 섹션 제목(또는 하위 섹션 헤더)이 읽힐 때마다 두 번째 음성으로 인용문을 읽고 알아볼 수 있는 오디오를 재생하여 모든 것이 더 명확해지도록 합니다.
  8. 들여쓰기된 목록(중첩된 목록)을 이해하기 쉽게 만들기(예: 1. 및 1.1, 1.2와 같은 숫자 추가)
  9. (; ) 또는 당장은 Khmer: ជនជាតិខ្មែរ와 같이 거기에 없어야 하고 설명되어서는 안 될 텍스트 본문의 내용을 감지하고 플래그를 지정(또는 제거?)합니다.
  10. 표준화된 크레딧 라인 및 라이선스 태그 추가(예 참조) 및 위키백과와 같은 표준화된 구문 분석 가능한 제목 제공 - 문서 이름(AI 음성으로 말하기)
  11. i.e.는 "즉"을 의미하고, 예를 들어 "예를 들어", i.a.는 "그 외" 또는 "다른 것들 중"을 의미하고, M은 종종 "백만"을 의미합니다.
제안된 음성 위키백과 오디오 플레이어(데스크톱 버전). 이것은 팟캐스트처럼 들을 수 있는 음성 위키백과 오디오용입니다. 문서의 섹션을 읽을 때 버튼을 통해 오디오를 해당 오디오 부분으로 이동할 수도 있습니다.

이것의 주요 요점은 이러한 '오디오를 규모에 맞게 생성하여 문서의 표와 같은 일반적인 문제를 자동으로 처리하여 궁극적으로 모든 위키백과를 팟캐스트처럼 들을 수 있게 한다는 것입니다. 후기 단계 개발은 템플릿 생성/조정과 함께 진행되어 예를 들어 특정 콘텐츠를 제거할 수 있도록 하는 CSS 클래스를 추가합니다.

또한, 예를 들어 5~10초 뒤로 건너뛸 수 있는 버튼이 있는 적절한 오디오 플레이어가 필요합니다. 이는 별도로 제안해야 합니다. 적절한 오디오 플레이어(오른쪽에 있는 WP 데스크톱에서 볼 수 있는 하나의 보기이지만, 대부분의 사람들은 위키백과나 공용 앱을 통해 모바일에서 들을 가능성이 높습니다).

관련 소원(3): 공용의 비디오에 대한 TimedTexts 자막 생성 속도를 높이기 위한 자동 변환 도구

할당된 초점 영역

Create new consumer experiences for learning from / engaging with Wikipedia content

소원 유형

Feature request

관련 프로젝트

위키미디어 공용, 위키백과

영향을 받는 사용자

위키백과 콘텐츠 소비자, 위키백과 기여자

기타 상세 내용

  • 생성됨: 13:45, 16 October 2024 (UTC)
  • 최근 갱신: 03:22, 26 February 2025 (UTC)
  • 저자: Prototyperspective (talk)