Jump to content

IP 편집: 개인 정보 보호 강화 및 남용 완화/도구 개선

From Meta, a Wikimedia project coordination wiki
This page is a translated version of the page IP Editing: Privacy Enhancement and Abuse Mitigation/Improving tools and the translation is 100% complete.

배경

이 프로젝트의 목표는 두 가지입니다:

  • 첫째, 문서 훼손자, 괴롭히는 사람, 다중계정자, 장기간의 남용자, 허위 정보 캠페인 및 기타 파괴적인 행동으로부터 프로젝트를 보호합니다.
  • 둘째, 등록되지 않은 편집자의 IP 주소를 공개하지 않음으로써 박해, 괴롭힘 및 남용으로부터 보호합니다.

프로젝트 토론 페이지 및 다른 곳에서의 대화를 기반으로 우리는 프로젝트에서 IP 주소가 사용되는 다음과 같은 방식에 대해 들었습니다.

  • IP 주소는 동일하거나 가까운 IP 범위에서 편집 중인 "근처" 편집자를 찾는 데 유용합니다.
  • 등록되지 않은 편집자의 기여 이력을 조회하는 데 사용됩니다.
  • IP 주소는 위키 간 기여를 찾는 데 유용합니다.
  • 누군가가 VPN 또는 Tor 노드에서 편집을 시도하는지 파악하는 데 유용합니다.
  • 대학/회사/정부 기관과 같은 팩트로이드를 포함하여 편집자의 위치를 ​​찾는 데 유용합니다.
  • IP 주소는 해당 IP 주소가 알려진 LTA(장기 악용자)와 연결되어 있는지 확인하는 데 사용됩니다.
  • 특정 종류의 스팸을 차단하기 위해 특정 남용 필터를 설정하는 데 사용되기도 합니다.
  • IP 주소는 범위 차단에 중요합니다.

두 개의 사용자 계정이 동일한 사람에 의해 사용 중인지 확인하려고 할 때 이러한 워크플로 중 다수가 실행됩니다. 이를 다중계정 탐지라고 합니다. IP 주소를 사용하여 다중계정 탐지를 수행하는 것은 결함이 있는 프로세스입니다. IP 주소는 온라인에 접속하는 사람과 장치의 수가 증가함에 따라 점점 더 다이내믹해지고 있습니다. IPv6 주소는 복잡하고 범위를 파악하기 어렵습니다. 대부분의 신규 이민자에게 IP 주소는 이해하기 어렵고 기억하기 어렵고 사용하기 어려운 난수처럼 보입니다. 새로운 사용자가 차단 및 필터링 목적으로 IP 주소를 사용하는 데 익숙해지려면 상당한 시간과 노력이 필요합니다.

우리의 목표는 다양한 정보 소스를 사용하여 사용자 간의 유사성을 찾는 새로운 도구를 도입하여 IP 주소에 대한 의존도를 줄이는 것입니다. 프로젝트에 부정적인 영향을 미치지 않으면서 궁극적으로 IP 주소를 마스킹하려면 프로세스에 중복되는 보이는 IP 주소를 만들어야 합니다. 이것은 또한 나쁜 행위자를 식별하는 데 도움이 되는 보다 강력한 도구를 구축할 수 있는 기회이기도 합니다.

구축할 도구에 대한 제안된 아이디어

우리는 사용자가 필요한 작업을 수행하기 위해 IP 주소에서 필요한 정보를 더 쉽게 얻을 수 있도록 하고 싶습니다. 이를 위해 세 가지 새로운 도구/기능을 고려하고 있습니다.

IP 정보 기능이 실제로 어떻게 작동하는지에 대한 예입니다.

1. IP 정보 기능

이 기능은 현재 진행 중입니다. 따라하려면 다음을 방문하세요: IP 정보 기능.

위치, 조직, Tor/VPN 노드가 될 가능성, rDNS, 나열된 범위 등과 같이 IP 주소가 제공하는 몇 가지 중요한 정보가 있습니다. 현재 편집자가 IP 주소에 대한 이 정보를 보려면 외부 도구나 검색 엔진을 사용하여 해당 정보를 추출합니다. 해당 정보를 위키의 신뢰할 수 있는 사용자에게 공개하여 이 프로세스를 단순화할 수 있습니다. IP 주소가 마스킹되는 미래에는 이 정보가 마스킹된 사용자 이름에 대해 계속 표시됩니다.

우리가 지금까지 이야기한 사용자로부터 들었던 한 가지 우려는 IP가 VPN에서 오는지 아니면 블랙리스트에 속하는지 여부를 항상 알기가 쉽지 않다는 것입니다. 블랙리스트는 취약합니다. 일부는 업데이트되지 않았으며 일부는 오해의 소지가 있습니다. 우리는 IP가 VPN의 IP인지 아니면 블랙리스트에 속하는지, 그리고 지금 해당 정보를 찾는 방법을 아는 것이 어떤 시나리오에 도움이 되는지 듣고 싶습니다.

"혜택:"

  • 이렇게 하면 사용자가 IP 주소를 복사하여 외부 도구에 붙여넣고 필요한 정보를 추출할 필요가 없습니다.
  • 이를 통해 데이터를 가져오는 데 소요되는 시간도 상당히 줄일 수 있을 것으로 기대합니다.
  • 장기적으로 이해하기 어려운 IP 주소에 대한 의존도를 줄이는 데 도움이 될 것입니다.

"위험:"

  • 구현에 따라 현재 IP 주소가 작동하는 방식을 알고 있는 제한된 사용자 집합보다 더 많은 사람들에게 IP에 대한 정보를 노출할 위험이 있습니다.
  • IP에 대한 세부 정보를 얻기 위해 사용하는 기본 서비스에 따라 번역된 정보가 없을 수 있지만 정보를 영어로 표시할 수 있습니다.
  • 수정을 한 개인이 아닌 기관/학교가 수정 뒤에 있다면 사용자가 오해할 위험이 있습니다.

2. 비슷한 편집자 찾기

다중계정(및 등록되지 않은 사용자)을 감지하기 위해 편집자는 두 명의 사용자가 동일한지 파악하기 위해 많은 노력을 기울여야 합니다. 여기에는 사용자의 기여도, 위치 정보, 편집 패턴 등을 비교하는 작업이 포함됩니다. 이 기능의 목표는 이 프로세스를 단순화하고 수동 작업 없이 수행할 수 있는 이러한 비교 중 일부를 자동화하는 것입니다. 이것은 유사한 행동을 보여주는 계정을 식별할 수 있는 기계 학습 모델의 도움으로 수행됩니다. 모델은 정보를 확인하고 적절한 조치를 취할 수 있는 검사 사용자(및 잠재적으로 다른 신뢰할 수 있는 그룹)에게 표시될 수신 편집에 대해 예측합니다.

우리는 잠재적으로 두 명 이상의 등록되지 않은 사용자를 비교하여 유사성을 찾기 위해 가까운 IP 또는 IP 범위에서 편집 중인지 확인하는 방법을 가질 수 있습니다. 여기서 또 다른 기회는 자동 범위 감지 및 그에 따라 차단할 범위 제안과 같이 우리가 사용하는 차단 메커니즘 중 일부를 도구에서 자동화할 수 있도록 하는 것입니다.

이와 같은 도구는 개별 악의적인 행위자를 식별하는 것부터 정교한 다중계정을 밝히는 것까지 많은 가능성을 가지고 있습니다. 그러나 다양한 이유로 자신의 신원을 비밀로 유지하려는 합법적인 양말 계정이 노출될 위험도 있습니다. 이것은 이 프로젝트를 까다롭게 만듭니다. 이 도구를 사용해야 하는 사람과 위험을 완화할 수 있는 방법에 대한 여러분의 의견을 듣고 싶습니다.

커뮤니티의 도움으로 이러한 기능은 편집자가 현재 편집자를 비교할 때 사용하는 기능을 비교하도록 발전할 수 있습니다. 한 가지 가능성은 기계 학습 모델을 훈련하여 이를 수행하는 것입니다(ORES가 문제가 있는 편집을 감지하는 방법과 유사).

이러한 기능이 실제로 어떻게 보일 수 있는 지에 대한 한 가지 가능성은 다음과 같습니다:

"혜택:"

  • 이러한 도구를 사용하면 직원이 프로젝트에서 악의적인 행위자를 찾는 시간과 노력을 크게 줄일 수 있습니다.
  • 이 도구는 알려진 문제 편집자 간의 공통 범위를 찾는 데도 사용할 수 있어 IP 범위를 더 쉽게 차단할 수 있습니다.

"위험:"

  • 머신 러닝을 사용하여 다중계정을 감지하는 경우 매우 신중하게 모니터링하고 교육 데이터의 편향을 확인해야 합니다. 유사성 지수 점수에 대한 과도한 의존은 주의해야 합니다. 사람의 검토가 프로세스의 일부인 것은 필수적입니다.
  • 위치와 같은 정보에 더 쉽게 접근할 수 있으면 사람에 대한 식별 가능한 정보를 찾기가 더 쉬워집니다.

3. 장기간 학대자를 문서화하는 데이터베이스

장기간 남용하는 문서 훼손자는 문서화되어 있는 경우 위키에 수동으로 문서화됩니다. 여기에는 편집 행동에 대한 프로필 작성, 편집하는 문서, 다중계정을 인식하는 방법에 대한 지표, 사용하는 모든 IP 주소 나열 등이 포함됩니다. 이러한 파괴자에 의해 사용되는 IP 주소에 걸쳐 있는 수많은 페이지로 인해 필요한 경우 관련 정보를 검색하고 찾는 것이 점점 더 큰 작업이 되고 있습니다. 이를 수행하는 더 좋은 방법은 장기간 학대자를 문서화하는 데이터베이스를 구축하는 것입니다.

이러한 시스템은 검색 기준과 일치하는 문서화된 파괴자에 대한 위키 간 검색을 용이하게 합니다. 결국, 이것은 잠재적으로 사용자의 IP 또는 편집 행동이 알려진 장기간 학대자의 IP 또는 편집 행동과 일치하는 것으로 밝혀지면 사용자에게 자동으로 플래그를 지정하는 데 사용될 수 있습니다. 사용자가 신고된 후 관리자는 적절하다고 판단되는 경우 필요한 조치를 취할 수 있습니다. 이것이 공적이어야 하는지 사적이어야 하는지 또는 그 사이에 있어야 하는지에 대한 열린 질문이 있습니다. 데이터베이스에 대한 읽기 및 쓰기 권한에 대해 다양한 수준의 사용 권한을 가질 수 있습니다. 무엇이 가장 효과가 좋다고 생각하며 그 이유는 무엇인지 듣고 싶습니다.

장기간 학대자 데이터베이스를 검색하면 잠재적으로 나타날 수 있는 내용의 예.

"비용:"

  • 그러한 데이터베이스는 커뮤니티 구성원이 현재 알려진 장기 학대자로 채우는 데 참여해야 합니다. 이것은 일부 위키의 경우 상당한 양의 작업이 될 수 있습니다.

"혜택:"

  • 문서화된 장기간 학대자에 대한 위키 간 검색은 현재 시스템에 비해 엄청난 이점이 되어 순찰자의 많은 작업을 줄일 수 있습니다.
  • 알려진 편집 패턴 및 IP를 기반으로 잠재적으로 문제가 있는 행위자를 자동으로 표시하면 많은 워크플로에서 유용할 것입니다. 이를 통해 관리자는 제안된 플래그를 기반으로 판단 및 조치를 취할 수 있습니다.

"위험:"

  • 그러한 시스템을 구축할 때 우리는 누가 데이터베이스 데이터에 접근할 수 있고 어떻게 보안을 유지할 수 있는지에 대해 열심히 생각해야 합니다.

이러한 아이디어는 매우 초기 단계에 있습니다. 이러한 아이디어에 대해 브레인스토밍하는 데 도움이 필요합니다. 우리가 간과할 수 있는 비용, 이점 및 위험은 무엇입니까? 이러한 아이디어를 어떻게 개선할 수 있습니까? 토론 페이지에서 여러분의 의견을 듣고 싶습니다..

편집자가 사용하는 기존 도구

위키 도구

  • 검사관: 검사관 기능을 사용하면 검사관 플래그가 있는 사용자가 사용자, IP 주소 또는 CIDR 범위에 대해 저장된 기밀 데이터에 접근할 수 있습니다. 이 데이터에는 사용자가 사용하는 IP 주소, IP 주소 또는 범위에서 편집한 모든 사용자, IP 주소 또는 범위에서 편집한 모든 것, 사용자 에이전트 문자열 및 X-Forwarded-For 헤더가 포함됩니다. 가장 일반적으로 다중계정을 감지하는 데 사용됩니다.
  • 검사관이 동일한 이메일에 50개 이상의 계정을 가진 사용자에게 접근할 수 있도록 허용합니다. 이들의 존재는 phab:T230436에서 확인되었습니다(작업 자체는 관련이 없지만). 이것이 IP 개인 정보에 직접적인 영향을 미치지는 않지만 더 어려운 남용 관리의 영향을 약간 완화할 수 있습니다.

프로젝트별 도구(봇 및 스크립트 포함)

"도구가 사용되는 프로젝트, 기능을 지정하고 가능한 경우 링크를 포함하세요."

외부 도구

툴포지 도구

제3자 도구