추상 위키백과/업데이트/2022-12-19
◀ | 추상 위키백과 업데이트 | ▶ |
Google.org 펠로우의 프로젝트 평가
펠로우쉽 동안 Google.org 펠로우들은 위키함수 및 추상 위키백과 프로젝트에 대한 자세한 통찰력을 얻었습니다. 잠재적인 문제를 지적하고 일부 프로젝트 접근 방식에 대한 잠재적 대안을 논의하기 위해 그들은 위키함수 및 추상 위키백과 프로젝트에 대한 자세한 평가를 작성했습니다.
팀은 평가를 읽고 자세한 답변을 작성했습니다. 펠로우들의 많은 제안을 마음에 새기고 꼭 실천하도록 하겠습니다. 평가와 답변은 또한 팀이 프로젝트에 대해 더 잘 이해하는 데 도움이 되었습니다.
두 문서를 모두 읽어 보시기 바랍니다.
- 위키함수 및 추상 위키백과: 평가
- 위키함수 및 추상 위키백과에 대한 답변: 평가
아리엘의 작별 편지
"Google.org 동료 중 한 명으로 추상 위키백과 프로젝트에 참여한 아리엘 구트만이 이달 말에 떠날 예정입니다. 그는 자연어 생성(NLG) 작업 흐름에 기여하고 있었습니다. 우리는 그에게 자신의 말로 작별 인사를 할 기회를 주고 싶습니다. 고마워요, 아리엘!"
지난 6개월 동안 저는 Google.Org 펠로우로서 추상 위키백과 팀의 일원이었습니다. 재단에서 저의 목표는 구글에서 6년 넘게 NLG 작업을 통해 연마한 자연어 생성에 대한 전문 지식을 활용하여 추상 위키백과 프로젝트를 발전시키는 것이었습니다.
휄로우 십의 전반부는 주로 디자인 문서 작성에 전념했습니다. NLG 시스템의 아키텍처 및 템플릿 언어 사양(후자는 마리아 키트와 공동 저술했으며 감사하게 생각합니다). 동시에 저는 위키데이터의 어휘 데이터의 품질이나 추상 콘텐츠가 취해야 하는 형식과 같은 다른 토론에 참여했습니다(후자 토론을 주도한 쿠츠 아리에타에게 많은 감사를 드립니다).
교제 중간에 좀 더 구체적인 것을 만들고 싶은 충동을 느꼈습니다. 안타깝게도 위키함수 플랫폼은 견고한 개발 플랫폼으로 사용할 준비가 되어 있지 않았기 때문에 Google.Org 기술 책임자인 오리 리브네의 조언에 따라 위키백과에 내장된 환경, 루아 기반 스크립팅인 위키백과의 스크리분토 플랫폼에서 프로토타입 NLG 시스템을 만들기 시작했습니다.
기쁘게도 위키데이터 API가 있는 스크리분토 플랫폼을 사용하여 추상 콘텐츠를 텍스트로 변환할 수 있는 함수적인 NLG 시스템을 신속하게 만들 수 있었습니다(녹화된 데모 또는 예제 출력 참조). 이 시스템은 아직 완전하지는 않지만 제안된 아키텍처에 요약된 필수 구성 요소를 포함합니다:
- 개별 위키데이터 항목에 대한 문서 개요를 지정할 수 있는 추상 콘텐츠 저장소입니다.
- 유형(사람, 장소 등)에 따라 위키데이터 항목에 대한 추상 콘텐츠를 자동 생성하는 논리를 포함하는 생성자 저장소.
- 각 생성자를 다른 실현 언어로 언어화하는 방법을 지정하는 템플릿인 템플릿 렌더러.
- 루아 또는 템플릿 언어로 작성된 템플릿 함수는 템플릿 슬롯 내에서 사용됩니다. 특히 전용 도우미 모듈을 사용하여 위키데이터 어휘소를 가져오고 내부 형식으로 표현할 수 있습니다.
- 제한된 통합 연산자 집합을 사용하여 루아로 작성된 형태 구문 의존 관계는 템플릿 요소 간의 문법적 특징의 흐름을 지정할 수 있습니다.
- 루아에 작성된 음성음운론 함수는 언어별 음성음운론 규칙(예: 영어의 a/an 교체)을 지정할 수 있습니다.
- 구두점, 간격 및 대소문자를 조정하면서 렌더링된 텍스트를 구성하는 텍스트 어셈블러.
이 외에도 템플릿을 구문 분석 및 평가하고 어휘소 및 통합 기능을 나타내고 위키데이터와 상호 작용하는 데 필요한 논리가 있는 모듈이 있습니다. 기본 모듈은 NLG 파이프라인의 전체 흐름을 제어합니다.
이 프로토타입을 개발하는 주된 목적은 내가 제안한 디자인을 입증하고 위키함수에서 유사한 구현을 위한 예제 코드를 제공하는 것이었습니다. 실제로 위키함수가 루아를 지원한다면 코드를 그대로 재사용할 수 있을 것입니다. 위의 글머리 기호 목록에 있는 모듈은 사용자가 편집할 수 있는 기능이 되며, 이후에 언급된 모듈은 상대적으로 안정적일 것으로 예상되므로 위키함수의 백엔드 시스템에 통합될 수 있습니다.
그러나 두 번째로 더 미묘한 목표가 있습니다. 교제하는 동안 저는 추상 위키백과의 비전을 달성하기 위해 위키 기능이 필요하다는 전제에 대해 회의적이었습니다. 성공을 위해서는 사용자 기여(예: 함수, 렌더러 또는 생성자)가 필요하지만 이들은 NLG 지향적이어야 하며 위키함수와 같은 일반적인 기능 플랫폼이 필요하지 않습니다. NLG 지향 시스템 구축에 집중함으로써 추상 위키백과의 비전을 보다 빠르게 달성할 수 있습니다. (펠로우십의 일원으로서, 제가 "원링" 측에 있다는 것은 놀라운 일이 아닐 수도 있습니다…). 동료인 오리 리브네, 알리 아사프 및 메리 양과 함께 저는 제 관점을 상세한 글로 표현했습니다. 저는 이 프로토타입에서 구현된 템플릿 언어 제안이 구축하기에 좋은 토대라고 믿습니다.
스크리분토 프로토타입은 위키함수보다 더 제한된 플랫폼이 이미 실제 위키백과의 추상 콘텐츠에서 문서를 생성하는 데 사용될 수 있음을 보여줍니다. 필요한 모듈을 대상 위키에 복사하고 언어별 렌더러, 함수 및 관계를 정의하는 것으로 충분합니다. 당신이 저에게 동의하든 그렇지 않든, 시스템을 가지고 놀고 관련 모듈을 편집하여 좋아하는 언어에 대한 기능을 추가하도록 초대합니다.
펠로우십이 끝나갈 무렵, 열정적인 토론과 아이디어에 대해 추상 위키백과의 자연어 생성 워크스트림에 있는 모든 동료들에게 감사를 표하고 싶습니다. 특히 작업 흐름의 기술 책임자인 코리 마사로에게 지도와 자신감을, Google.Org 동료이자 작업 흐름의 제품 관리자인 유니스 문에게 뛰어난 조직 기술에 감사드립니다.
연말연시
모두 즐거운 명절 보내시고 2023년 새해 복 많이 받으세요! 2023년 1월 13일 주간까지 업데이트 작성을 중단합니다.
개발 업데이트(2022년 12월 16일 기준)
12월 5일부터 9일까지는 추상 위키백과 팀의 '수정' 주간이었습니다. 이번 주 동안 팀은 새로운 기능 개발을 일시 중지하고 기술적 부채와 관련된 작업에 집중했습니다.
팀은 또한 출시 전에 계획된 디스코핑 작업에서 많은 진전을 이루었습니다. MVP 범위에서 많은 항목이 제거되었습니다.
12월 11일부터 16일까지, 추상 위키백과 팀은 코드베이스와 우리 동료의 더 많은 영역을 알아보고 커뮤니티 위시리스트 항목에 대한 작업을 하기 위해 소규모 내부 해커톤/협업에 참여했습니다. 이 팀은 WhatLinksHere의 목록을 알파벳순으로 가져오고 위키문헌 사용자 연구, 태그 필터에 대한 부정 활성화, 문서를 만든 후 위키데이터 항목 연결 자동 제안을 포함하여 지원이 필요한 플랫폼에 대한 더 큰 제안을 알리는 프로젝트를 진행했습니다. 수학 렌더링을 위한 LaTeX 기능이 없습니다.