커뮤니티 기술/OCR 향상

This page is a translated version of the page Community Tech/OCR Improvements and the translation is 100% complete.

이 프로젝트는 위키문헌의 광학 문자 인식(OCR) 도구를 개선하는 것을 목표로 합니다. 현재 위키문헌 편집자는 교정 프로세스에서 다양한 OCR 도구를 사용합니다. 이러한 도구는 매우 중요하지만 많은 문제가 있습니다. 이러한 문제 중 일부는 다음과 같습니다:

새로운 사용자가 도구를 찾기 어려울 수 있습니다.
일부 도구는 손상되었거나 비효율적이거나 신뢰할 수 없습니다.
사용자 경험은 직관적이지 않고 매력적이지 않습니다.
특정 텍스트에 적합한 도구를 결정하기 어려울 수 있습니다.

이러한 모든 이유로 사용자는 위키문헌을 편집하지 않을 수 있습니다. OCR 도구를 개선하여 편집자가 보다 쉽고 지원을 받아 작업할 수 있기를 바랍니다. 이 프로젝트는 2020년 커뮤니티 위시리스트 설문 조사에서 #2 요청이었습니다. 이 프로젝트를 진행하는 동안 주요 문제를 조사 및 식별하고, 다양한 커뮤니티와 협력하고, 자원봉사자가 보다 쉽고 지원을 받아 기여할 수 있도록 돕는 솔루션을 구현할 것입니다. "토론 페이지에서 여러분의 피드백을 기다리겠습니다!"

OCR 도구를 사용하는 이유

위키문헌의 경우 OCR 도구는 편집자 경험의 중요한 구성 요소입니다. OCR은 "광학 문자 인식"을 의미합니다. OCR 도구는 텍스트가 있는 이미지 파일을 기계 인코딩 텍스트로 변환합니다. 프로세스가 완료되면 사용자는 전자적으로 편집, 검색 및 저장할 수 있는 텍스트의 디지털 버전을 갖게 됩니다. OCR 도구는 일반적으로 위키문헌을 비롯한 많은 온라인 커뮤니티 및 플랫폼에서 사용됩니다.

편집자가 위키문헌에 책을 추가할 때 일반적으로 다음을 수행합니다:

위키미디어 공에 파일을 업로드합니다. 이 책은 일반적으로 스캔한 페이지의 이미지가 포함된 PDF 또는 DjVu 파일입니다.
위키문헌에서 책에 대한 색인 페이지(교정 페이지 확장 기능 제공)를 만듭니다.
페이지별로 책을 교정합니다:
1. [OCR 도구가 필요한 곳입니다] OCR 도구를 사용하여 이미지를 편집 가능한 기계 인코딩 텍스트로 변환합니다.
2. 완료되면 사용자는 새로 디지털화된 텍스트 버전을 갖게 됩니다.

OCR 도구 사용 방법

위키문헌에서 사용자가 페이지의 "편집" 탭을 클릭하면 OCR 도구에 접근할 수 있습니다.

"편집"을 클릭하면 텍스트의 원본 이미지 파일이 표시됩니다(오른쪽). 때로는 파일이 이미 OCR 처리된 경우(왼쪽)가 있습니다. 예를 들어 인터넷 아카이브에서 가져올 때 특히 라틴 스크립트가 있는 언어의 경우 일부 텍스트가 자동으로 OCR 처리됩니다. 그러나 이러한 텍스트는 종종 위키문헌의 도구를 사용하여 OCR 프로세스를 다시 거치므로 기존 텍스트 레이어를 개선할 수 있습니다. 이를 위해 사용자는 OCR 도구(아래 설명)를 사용하여 이미지 파일을 텍스트 파일로 렌더링합니다(왼쪽에 표시됨).

때로는 텍스트가 OCR 프로세스를 전혀 거치지 않았을 수 있습니다. 이 경우 사용자는 이미지 파일(오른쪽)과 빈 섹션(왼쪽)을 보게 됩니다. 사용자는 OCR 도구(아래 설명)를 사용하여 이미지 파일을 텍스트 파일로 렌더링합니다(왼쪽에 표시됨). 완료되면 텍스트를 교정할 준비가 된 것입니다.

오른쪽 및 왼쪽 지정은 RTL(오른쪽에서 왼쪽) 언어의 경우 반대입니다.

OCR 도구가 모든 텍스트에 대해 작동하지 않는다는 점을 이해하는 것이 중요합니다. 예를 들어 손으로 쓴 원고는 일반적으로 OCR 도구에서 지원되지 않습니다. 문자가 컴퓨터 생성 글꼴에서 표준화되지 않았기 때문입니다. 이러한 경우 사용자는 일반적으로 이미지 파일에 표시된 대로 텍스트를 수동으로 입력해야 합니다.

위키문헌에서 사용 가능한 OCR 도구

OCR 소도구

"기본" OCR이라고도 하는 OCR 소도구는 원래 Phe에서 개발한 위키문헌용 OCR 도구로 널리 사용됩니다. 구글에서 후원하고 Toolforge에서 호스팅하는 오픈 소스 OCR 시스템인 Tesseract를 사용하여 새 텍스트를 생성합니다. 이것은 phetools로 알려진 위키문헌용 도구 모음의 일부이며 정교한 예측 전처리 및 캐싱 시스템을 사용하여 뛰어난 대화형 성능을 제공합니다.

백엔드는 hOCR 구조화된 표준 OCR 형식을 사용하여 소도구와 통신합니다. OCR 소도구는 텍스트 열을 인식하는 데 구글 OCR(아래에서 설명)보다 더 나은 것으로 간주됩니다. 그러나 더 많은 문자 오류가 있습니다. 또한 언어 지원이 제한되어 있습니다. OCR 소도구는 일반적으로 라틴어 스크립트 언어를 지원하지만 일반적으로 인도어는 지원하지 않습니다. 예를 들어 힌디어나 펀자브어는 지원하지 않습니다. 또한 이 도구에는 과거에 부분적 또는 전체 중단이 장기간 발생했던 활성 유지 관리자가 없습니다.

OCR 소도구를 활성화하려면 특수:환경설정으로 이동합니다. 소도구 탭에서 "페이지: 이름공간에 대한 편집 도구"로 이동하고 OCR: 페이지: 이름공간에서 OCR 활성화 버튼()을 클릭합니다. 활성화되면 도구 모음에서 OCR 소도구에 접근할 수 있습니다(회색 "OCR" 아이콘의 스크린샷 예 참조). 아이콘을 클릭하면 텍스트의 OCR 버전이 왼쪽에 나타납니다. 그런 다음 사용자는 해당 버전의 텍스트 교정을 진행할 수 있습니다.

구글 OCR

2016년에 커뮤니티 기술 팀은 2015년 커뮤니티 기술 위시리스트 설문조사에서 위시 25번째인 구글 OCR을 개발했습니다. 구글 OCR 도구는 OCR 소도구와 같은 Tesseract 기반 OCR 시스템의 인도어 지원 부족 문제를 해결하기 위한 것입니다. 이 새로운 OCR 도구는 구글에서 제공하는 클라우드 비젼 API를 사용했습니다.

구글 OCR의 개발로 위키문헌 편집자는 다음 언어에 대한 OCR 지원을 받을 수 있습니다: 다국어 위키문헌, 아랍어, 아삼어, 불가리아어, 벵골어, 영어, 스페인어, 힌디어, 칸나다어, 마라티어, 말라얄람어, 나폴리어, 오리야어, 러시아어, 산스크리트어, 타밀어, 텔루구어, 구즈라트어. 그러나 활성 위키문헌 커뮤니티가 있는 일부 인도어는 포함되지 않았습니다. 구글 비젼 API에서 지원하는 전체 언어 목록을 읽을 수 있습니다.

일반적으로 구글 OCR은 다소 정확한 OCR 도구로 간주됩니다. 그러나 때때로 열의 텍스트를 제대로 인식하는 데 문제가 있어 행이 인터리브됩니다.

구글 OCR 소도구를 활성화하려면 특수:환경설정으로 이동합니다. 소도구 탭에서 "페이지 편집 도구: 이름공간"으로 이동하고 "구글 OCR: 구글 OCR 활성화 버튼을 클릭하여 페이지 이미지를 구글의 OCR 서비스에 제출합니다. ”활성화되면 3색 “OCR” 아이콘을 클릭하여 도구 모음에서 구글 소도구에 접근할 수 있습니다(아래 스크린샷 예 참조). 아이콘을 클릭하면 텍스트의 OCR 버전이 왼쪽에 나타납니다. 또는 웹사이트로 직접 이동하여 단일 이미지 사용을 위해 이미지를 추가할 수 있습니다(그러나 이것은 주로 위키문헌이 아닌 목적으로 사용됩니다).

인도어 OCR

2018년 인도어 OCR은 자발적인 개발자인 자이 프라카쉬가 개발했습니다. 인도어 OCR은 클라우드 비젼과 다른 OCR 백엔드를 사용하는 구글 드라이브를 사용합니다. 이 도구는 벵골어, 보지푸리어, 구즈라티어, 힌디어, 칸나다어, 마이틸리어, 말라얄람어, 마라티어, 네팔어, 오리야어, 펀자브어, 산스크리트어, 타밀어, 텔루구어, 우르두어를 포함하여 더 넓은 범위의 인도어를 지원함으로써 구글 OCR의 한계를 해결하기 위한 것이었습니다. 그러나 이러한 언어 중 일부에는 아직 위키문헌 커뮤니티(예: 우르두어)가 없지만 이 OCR 도구는 향후 이러한 커뮤니티에 대한 지원을 제공할 수 있다는 점에 유의해야 합니다.

인도어 OCR을 활성화하려면 로컬 위키 common.js 페이지에 다음 코드를 추가할 수 있습니다.

mw.loader.load('//meta.wikimedia.org/w/index.php?title=User:Indic-TechCom/Script/IndicOCR.js&action=raw&ctype=text/javascript');

시각 편집기에 추가 버튼을 추가하려면 로컬 위키 common.js 페이지에도 다음 코드를 추가하십시오.

mw.loader.load('//meta.wikimedia.org/w/index.php?title=User:Indic-TechCom/Script/OCR4VE.js&action=raw&ctype=text/javascript');

활성화되면 도구 모음의 텍스트 분석 아이콘(텍스트 위의 돋보기 모양)으로 식별됩니다(아래 스크린샷 예 참조). 아이콘을 클릭하면 텍스트의 OCR 버전이 왼쪽에 나타납니다. 또는 웹사이트로 직접 이동하여 단일 이미지 사용을 위한 이미지를 추가할 수 있습니다. 자세한 내용은 문서를 확인하십시오.

OCR4Wikisource

T. 스리니바산이 개발한 OCR4Wikisource는 리눅스 운영 체제에서 실행되도록 설정된 파이썬 스크립트입니다. 개인 장치에서 일반 텍스트로 암호를 공유해야 합니다. 이 도구는 위키미디어 공용에서 책을 다운로드하고, 파일을 개별 페이지로 분할하고, OCR을 수행하기 위해 페이지를 하나씩 구글 드라이브에 업로드하고, OCR된 텍스트를 다운로드하고, 각 위키문헌 페이지에 업로드합니다. 이 전체 프로세스는 각 페이지의 OCR 아이콘을 개별적으로 클릭하는 대신 개인 장치에서 수행할 수 있습니다. 최종 결과는 페이지의 OCR 버전을 위키문헌에 직접 업로드합니다.

이것은 사용자에게 제공되는 유일한 대량 OCR 업로드이므로 일부 사용자는 이를 선호합니다. OCR의 품질도 다소 높은 것으로 간주됩니다. 인도어 OCR이 개발되기 전에는 많은 인도 언어 위키문헌이 OCR4Wikisource를 사용했습니다. 더 많은 문서를 읽을 수 있습니다.

OCR4Wikisource를 활성화하려면 링크(문서에 제공됨)에서 zip 파일을 다운로드한 다음 터미널 내의 단계에 따라 프로세스를 완료해야 합니다.

OCR 도구의 주요 문제

검색 가능성

새로운 위키문헌 편집자인 경우 OCR 도구를 처음 사용하는 것이 혼란스러울 수 있습니다. OCR 도구를 사용해야 한다는 사실을 모를 수도 있습니다. OCR 도구를 사용해야 한다는 것을 알고 있는 경우 어떤 도구를 사용할 수 있는지 또는 이러한 도구에 접근하는 방법을 모를 수 있습니다. 이러한 프로세스에 대한 문서는 위키마다 다르며 일부 위키에는 다른 위키보다 더 광범위한 문서가 있습니다. 결과적으로 새로운 편집자는 일반적으로 이 정보를 받기 위해 숙련된 위키문헌 편집자와 직접 상호 작용해야 합니다.

사용자가 OCR 도구에 대해 배우면 간단한 "빠른 설치"가 없습니다. 오히려 다른 도구에는 다른 설치 프로세스가 필요합니다. 일부는 기본 설정에서 상자를 선택하여 활성화할 수 있습니다. 일부는 일부 코드를 복사하여 common.js 페이지에 붙여넣음으로써 활성화됩니다. 다른 것들은 실행해야 하는 스크립트입니다. 전체적으로 검색 및 설치가 분리되어 있고 종종 혼란스럽습니다.

선택의 다양성

선택할 수 있는 OCR 도구가 너무 많습니다. 때로는 도구의 다양성이 좋은 것일 수 있습니다. 그러나 위키문헌 OCR의 경우 범위가 혼란스럽습니다. 이는 모든 도구가 동일한 작업, 즉 이미지 파일의 텍스트 렌더링을 수행하기 위한 것이기 때문입니다. 결과적으로 편집자는 모양이 같고, 이름이 비슷하고, 아이콘이 비슷하고, 이론적으로 동일한 작업을 수행하도록 설계된 다양한 도구 중에서 선택할 필요가 없습니다. 대신 편집자는 직접 조사를 수행할 필요 없이 하나의 도구만 선택하거나 작업 흐름에 가장 적합한 도구로 안내받을 수 있는 보다 간소화된 경험을 가져야 합니다.

신뢰성

많은 OCR 도구가 제대로 작동하지 않습니다. 예를 들어 OCR 소도구는 과거 상당한 기간 동안 서비스가 중단되었으며 충분한 소도구 관리자가 부족하여 어려움을 겪었습니다. hOCR 도구는 라틴어가 아닌 스크립트에서는 작동하지 않습니다. 한편, 많은 OCR 도구에는 느린 응답 시간 및 낮은 품질의 텍스트 렌더링을 포함하여 많은 보고된 문제가 있습니다. 또한 이 도구는 열로 구분된 텍스트(예: 잡지 페이지)와 같은 특정 서식 문제를 처리하는 데 어려움을 겪고 있습니다. 그들은 또한 라틴 문자가 아닌 문자와 분음 부호에 문제가 있습니다.

열린 질문

위키문헌 편집자가 사용하는 모든 주요 OCR 도구를 다루었습니까?
OCR 도구를 사용할 때 발생하는 주요 문제를 다루었습니까?
어떤 OCR 도구를 가장 많이 사용하고 그 이유는 무엇입니까?
OCR 도구를 사용할 때 발생하는 가장 일반적이고 실망스러운 문제는 무엇입니까?
전반적으로 어떤 문제를 가장 해결해야 한다고 생각하며 그 이유는 무엇입니까?
추가하고 싶은 것이 있습니까?

토론 페이지에서 피드백을 공유해주세요!

상태 업데이트

2021년 4월 21일

여러분, 안녕하세요! 아래에서 첫 번째 프로젝트 업데이트를 공유하게 되어 매우 기쁩니다:

프로젝트 원칙

팀으로서 우리는 먼저 이 프로젝트 페이지에서 공유한 위키문헌용 OCR 도구에 대한 연구를 수행했습니다. 그런 다음 토론 페이지에서 피드백을 수집했습니다. 이 피드백에 따라 우리는 몇 가지 프로젝트 원칙을 수립하기로 결정했습니다. 이런 식으로 우리는 프로젝트와 목표에 대해 더 강한 감각을 가질 수 있었습니다. 원칙은 다음과 같습니다:

우리는 OCR 도구의 전반적인 경험을 개선하고 싶습니다.: 프로젝트의 #1 목표는 위키문헌에서 OCR 경험을 개선하는 것입니다. 이것은 우리가 새로운 사람들이 도구를 더 쉽게 발견하고 이해하기를 원하며 모든 위키문헌 편집자들이 도구를 효과적으로 사용하기를 원한다는 것을 의미합니다.
새 OCR 도구를 만들 수 없습니다: 원래 소원은 "새 OCR 도구"였습니다. 불행히도 우리는 집중적이고 긴 프로젝트가 될 새로운 OCR 도구를 구축할 시간이나 자원이 없습니다. 팀으로서 우리는 몇 달 동안 지속되는 소규모 프로젝트를 수행하여 연간 여러 가지 소원을 성취하려고 노력합니다. 그러나 기존 OCR 도구를 의미 있게 개선할 수 있습니다.
위키미디어 OCR을 개선할 수 있습니다.: 위키미디어 OCR 도구(구 구글 OCR)는 커뮤니티 기술 팀에서 개발했습니다. 이러한 이유로 우리는 도구에 영향력 있는 변경을 할 수 있는 능력이 있으며 이미 일부 개선 영역을 식별했습니다. 이러한 이유로 우리는 이 도구를 개선하는 것을 프로젝트 우선 순위 중 하나로 삼았습니다.
일부 주요 문제를 해결할 수 있습니다.: 프로젝트 토론 페이지에서 사용자가 OCR 경험과 관련된 몇 가지 공통적인 문제를 공유하는 것을 들었습니다. 여기에는 쉽게 접근할 수 있는 대량 OCR 기능의 부족, 여러 텍스트에 대한 최소한의 지원이 포함됩니다. 열 및 기타 문제. 모든 문제를 해결할 수는 없지만 최소한 주요 문제 중 일부를 조사하고 개선할 수 있는지 확인하려고 노력할 것입니다.

완료된 작업

팀은 이미 프로젝트 작업을 시작했습니다! 지금까지 완료한 내용은 다음과 같습니다:

위키미디어 OCR에 Symfony 추가: E북 내보내기 개선 프로젝트 중에 Symfony를 위키문헌 내보내기에 추가했습니다. 이는 도구를 유지 관리하고 개선하는 데 도움이 되었기 때문에 좋은 조치로 판명되었습니다. 유사하게 우리는 위키미디어 OCR에 대해서도 같은 일을 하고 싶었습니다.
위키미디어 OCR용 Toolforge 스테이징 만들기: 변경 사항을 구현하기 시작하면서 우리(그리고 여러분 모두!)가 확인할 수 있는 테스트 환경을 만들고 싶었습니다. 이제 완료되었으며 확인할 수 있습니다.

개발 작업

위키미디어 OCR을 위키문헌 확장 기능으로 이동: 우리는 사용자가 여러 개별 도구를 설치하거나 활성화해야 하는 현재 사용자 경험을 개선하고자 합니다. 이를 위해 위키미디어 OCR을 위키문헌 확장 기능으로 이동합니다. 이 작업이 완료되면 모든 사용자가 교정 페이지에서 위키미디어 OCR 도구를 볼 수 있습니다(설치가 필요하지 않음).
- 참고: 위키에서 도구가 자동으로 표시되는 것을 원하지 않는 경우 옵트아웃을 선택할 수 있습니다. 또한 사용자는 여전히 다른 OCR 도구를 사용하여 도구 모음을 구성할 수 있습니다.
위키미디어 OCR에 Tesseract 지원 추가: 위키미디어 OCR을 개선하기 위해 Tesseract를 추가하기로 결정했습니다. 이렇게 하면 두 OCR 엔진을 모두 위키미디어 OCR을 통해 사용할 수 있으므로 사용자는 기본 설정을 통해 두 개의 별도 OCR 도구를 설치할 필요가 없습니다. 이것은 현재 ocr-test.wmcloud.org에서 테스트할 수 있습니다.
API에서 구글 옵션 수락: 이 작업은 여러 언어가 포함된 페이지에 대한 OCR 품질을 향상시킬 수 있는 첫 번째 단계입니다. 최종 결과는 구글 및 Tesseract 엔진 모두에 적용됩니다.
Tesseract 엔진의 성능 향상: 우리는 Tesseract 엔진의 속도를 획기적으로 향상시킬 수 있는 방법을 확인했습니다. Tesseract를 Toolforge에서 클라우드 VPS로 옮기면 훨씬 빠르게 실행되는 것을 볼 수 있습니다(잠재적으로 약 10배 더 빠름!). 이 작업은 진행 중이며 작업이 완료되어 위키문헌의 사용자 경험이 향상되기를 바랍니다.
여러 열 문제를 개선하는 방법 조사: 사용자는 위키문헌이 여러 열이 있는 텍스트에 대한 충분한 OCR 지원이 부족하다고 공유했습니다. 이러한 이유로 우리는 이 문제를 어떻게 해결할 수 있는지 알아보기 위해 조사를 시작했습니다. 지금까지 우리는 두 가지 가능한 접근 방식을 제시했으며 조사가 진행 중입니다.

예정된 작업

API에 Tesseract 옵션 추가: 기술 조사를 통해 Tesseract에 OCR 경험을 개선하는 데 도움이 될 수 있는 많은 옵션이 있음을 알게 되었습니다. 예를 들어 Tesseract에는 여러 열 지원에 도움이 될 수 있는 여러 페이지 분할 모드가 있습니다. 또한 하나의 텍스트 내에서 여러 언어를 처리하는 옵션도 있습니다. 이러한 이유로 우리는 향상된 편집자 경험을 위해 이러한 옵션 중 일부를 사용할 수 있도록 하고 싶습니다.
OCR 엔진 선택을 위한 사용자 경험 결정: 위키미디어 OCR에 2개의 엔진(Tesseract 및 구글 클라우드 비젼)이 있으면 교정 페이지에서 이를 처리하는 방법을 지원하는 사용자 경험이 있어야 합니다. 우리는 곧 이 경험에 대한 제안을 개발하기 위해 노력할 것입니다.

공개 질문

프로젝트 원칙에 대한 일반적인 생각은 무엇입니까?
설치가 필요 없이 위키미디어 OCR을 자동으로 사용할 수 있도록 하는 작업에 대해 어떻게 생각하십니까?
위키미디어 OCR에 Tesseract를 추가하는 작업에 대해 어떻게 생각하십니까?
이상적으로, 위키미디어 OCR을 사용할 때 OCR 엔진을 선택하기 위해 권장하는 사용자 경험은 무엇입니까?
Tesseract의 속도를 개선하기 위한 우리의 작업에 대해 어떻게 생각하십니까?
추가하고 싶은 것이 있습니까?

프로젝트 토론 페이지에서 피드백을 공유해주세요!

2021년 5월 18일

여러분, 안녕하세요! 우리는 여러분 모두가 이 시기에 안전하게 지내기를 바랍니다. 우리는 이 소원을 열광하는 많은 사람들이 인도의 언어로 자원을 수집한다는 것을 알고 있으며 우리의 마음은 엄청난 코로나19 급증으로 영향을 받는 모든 사람과 함께합니다.

현재 몇 가지 개선 사항이 진행 중이며 OCR 노력을 계속 진행하면서 귀하의 의견을 듣고 싶습니다. 우리가 찾고 있는 피드백은 두 가지 주요 질문으로 요약할 수 있습니다:

전사를 수행하는 언어에 가장 적합한 OCR은 무엇입니까?

새로운 엔진 개선으로 현재 전사 로드 속도가 얼마나 빨라졌습니까? 아래 지침.

완료된 작업

"후드 아래" 엔진 개선이 이제 시작되었습니다 - 마지막 업데이트 이후 새로 지원되는 OCR 엔진 버전을 베타 및 고급 도구로 릴리스했습니다. 각 위키문헌에 대해 올바른 기본 엔진을 설정할 수 있도록 서로 다른 위키문헌 위키에 가장 적합한 엔진을 듣고 싶습니다.

개선 사항을 사용해 보려면 고급 도구 페이지를 방문하십시오. 여기에는 전사할 이미지의 URL이 필요합니다. 거기에 도착하면 고급 옵션에서 tesseract 또는 구글 OCR 버전으로 전사를 시도하고 일반적으로 주어진 위키문헌 프로젝트에 대해 가장 많이 상호 작용하는 언어에 대해 가장 잘 수행되는 언어를 알려주십시오. 결과적으로 전사가 얼마나 빠르거나 느린지 듣고 싶습니다. 특히 귀하가 일반적으로 기록하는 언어에 대해 어떤 OCR이 가장 잘 수행되는지에 대한 세부 정보를 듣고 싶습니다.

고급 옵션의 다중 열 지원 - 열 지원 옵션은 이제 고급 도구 양식 내에 있습니다. 테스트 환경 내에서 테스트할 때 어떤 옵션이 가장 잘 작동하는지에 대한 팁과 요령을 듣고자 합니다.

디자인 테스트에 참여하고 "기본값"을 설정하는 데 도움이 되는 기회

디자인 흐름 및 사용자 경험 테스트
- 현재 베타(2021년 5월 말 기준)에서 볼 수 있는 인터페이스는 여전히 작업 중입니다. 우리는 여전히 페이지의 레이아웃을 마무리하고 있으며 제안된 개선 사항이 얼마나 직관적인지 확인하기 위해 조정되지 않은 사용자 조사를 수행하여 디자인을 마무리하고 있습니다. 사용자 테스트 참여에 관심이 있으시면 토론 페이지에서 알려주십시오. 우리는 프로젝트 전반에 걸쳐 고급 기여자와 신규 이민자 모두를 찾고 있습니다.

다음 단계

사용자 테스트 설계 결과 구현
- 위에서 언급한 테스트를 마치면 엔지니어가 최종 흐름을 구현합니다.

신규 사용자를 위한 온보딩 설계
- 우리의 개선 사항 중 일부는 새로 온 사람들이 OCR이 무엇인지, 전사 작업에서 OCR을 무엇에 사용할 수 있는지 알려주는 생생한 사용자 인터페이스를 추가하는 것입니다.

커뮤니티 기술 인력에 대한 업데이트

우리가 처리할 수 있는 범위에 영향을 미치는 몇 가지 변경 사항에 대해 알려드리고자 합니다:

팀에 새로운 제품 관리자인 나탈리아 로드리게스가 합류했습니다. 메모: “이 소원을 이루기 위해 여러분 모두와 함께 일하게 되어 기쁩니다! 이것이 저의 첫 번째 소원이며, 더 나은 OCR 경험을 제공하기 위해 여러분 모두로부터 배우게 되어 기쁩니다.”

2021년 하반기부터 육아휴직이 예정되어 있는 엔지니어가 있습니다.

엔지니어링 매니저가 퇴사했으며 9월 말까지 그 자리를 채우기 위해 채용하고 있습니다.

새로운 구성원을 팀에 온보딩하고 동료를 지원하는 동안 기다려 주셔서 감사합니다. 팀은 현재 연간 계획을 진행하고 있으며 이것이 로드맵에 미치는 영향을 파악하고 있으므로 이 문제에 대해 더 긴 업데이트를 작성할 것입니다.

공개 질문

이 고급 도구 릴리스에서 가장 많이 기여하는 위키문헌 프로젝트와 필사본에서 가장 자주 사용하는 언어에 대해 어떤 엔진(Tesseract 또는 구글 OCR)이 가장 잘 작동합니까?

이 고급 도구 릴리스에서 추출당 로드 시간 측면에서 귀하의 경험은 어떠했습니까?

엔진 및 다중 열 지원을 위한 매개변수에 대한 몇 가지 제안 사항은 무엇입니까?

중재되지 않은 사용자 연구에 참여하시겠습니까?

팀의 새로운 제품 관리자인 나탈리아는 프로젝트 업데이트에 유용한 다른 세부 정보를 알고 싶어합니다. 피드백을 공유해주세요!

2021년 8월 13일: 최종 업데이트

모두들 안녕! 완료된 OCR 개선 사항을 발표하게 되어 기쁩니다. 위키문헌의 기록 도구를 개선하기 위해 작업하면서 많은 것을 배웠고 프로젝트 초기부터 사용자의 모든 피드백과 프로젝트의 마지막 단계에서 사용자 인터페이스를 다듬는 동안 계속 입력해 주신 것에 대단히 감사드립니다. 아래에는 개선 사항에 대한 요약이 나와 있습니다. 귀하의 지속적인 의견에 다시 한 번 감사드립니다!

기본 엔진 개선 사항

신뢰성: 작업 전에는 사용 가능한 OCR 도구가 별도의 소도구로 제공되었습니다. 커뮤니티 기술 팀에서 계속 유지 관리할 보다 안정적이고 빠른 기록이 있는 위키미디어 OCR을 추가했습니다. 또한 사내에서 지원되는 신뢰할 수 있는 인프라를 설정했기 때문에 도구의 가동 중지 시간이 훨씬 줄어들 것으로 기대합니다. 이 도구는 도구 모음 안에 있는 하나의 드롭다운 아이콘 아래에서 Tesseract 및 구글 OCR 엔진을 모두 지원합니다. 이 도구는 모든 위키문헌 프로젝트에서 사용할 수 있습니다. 기존 가젯도 계속 사용할 수 있으며 위키문헌 프로젝트는 이를 활성화 또는 비활성화할 때 자주권을 갖습니다.

속도: 이 작업을 수행하기 전에 필사 작업은 경우에 따라 40초 이상 소요됩니다. 우리의 개선 사항은 평균 4초 미만의 전사 시간입니다. 우리는 이 새로운 로드 시간이 교정자를 위해 잠금 해제될 가능성에 대해 기쁘게 생각합니다!

고급 도구 개선

다국어 지원: 여러 언어가 포함된 문서는 언어(선택 사항) 입력 필드를 사용하고 문서에서 널리 퍼진 순서대로 언어를 검색하고 입력하는 고급 도구를 통해 전사할 수 있습니다.

자르기 도구 / 다중 열 지원: 또한 일반 페이지보다 더 복잡한 레이아웃의 열이 있는 문서가 있는 경우 전사할 이미지 내부의 영역을 선택하는 자르기 도구를 포함할 수 있었습니다.

OCR의 검색 가능성 및 접근성

전사 프로세스 및 약어 OCR에 익숙하지 않을 수 있는 신규 사용자를 위해 도구 모음의 새 도구 아이콘 위에 맥동하는 파란색 사용자 인터페이스 구성 요소를 도입했습니다. 새로운 UI는 OCR이 의미하는 바와 이 맥락에서 전사가 의미하는 바를 설명합니다. 위키문헌 프로젝트에서 편집할 때 전사를 도구로 활용할 수 있는 옵션을 모두에게 제공하게 되어 기쁩니다.

앞으로 몇 달 동안 이러한 변화의 영향을 관찰하게 되어 기쁩니다. 2022년 위시리스트에서 뵙기를 바랍니다. 이 작업을 가능하게 해주셔서 다시 한 번 감사드립니다.

프로젝트 토론 페이지에서 피드백을 공유해주세요!