User talk:Duesentrieb/CatScan

From Meta, a Wikimedia project coordination wiki
Jump to: navigation, search

This page is for discussion about CatScan [1], a tool written by User:Duesentrieb. If I do not respond, please leave a quick note on my talk page at the german wikipedia.


Contents

Cat Scan Problem[edit]

Hi Daniel,

I would like to know why the loading of the following page : http://toolserver.org/~daniel/WikiSense/CategoryIntersect.php?userlang=fr&wikilang=fr&basecat=Acteur_fran%25C3%25A7ais&raw=on&mode=al&wikifam=.wikipedia.org&go=Trouver&basedeep=1 never end.

You could for example test this by wget it (don't forget to escape those & by a \&

Thanks. Lastnico 12:17, 29 September 2008 (UTC) (You can contact me directly with nicolas _DOT_ ternisien _AT_ gmail _DOT_ com)

Lastnico 12:17, 29 September 2008 (UTC)

Cat Scan[edit]

moved here from de:Benutzer Diskussion:Duesentrieb -- Duesentrieb 15:48, 9 January 2006 (UTC)

Hallo Daniel,

Dein Tool Cat Scan betrachte ich als Weihnachtgeschenk. Vielen Dank und ein frohes Weihnachten.

ArtMechanic 00:14, 24. Dez 2005 (CET)

Das neue CheckUsage-Tool ist auch klasse! Vielen Dank für die vielen Erfindungen. :-) --Eloquence 01:38, 24. Dez 2005 (CET)

Cat Scan[edit]

moved here from de:Benutzer Diskussion:Duesentrieb -- Duesentrieb 15:48, 9 January 2006 (UTC) Kann man bei dem Cat Scan die Commons als Wiki einstellen? --Atamari 05:09, 26. Dez 2005 (CET)

Ja, kann man: "commons.wikimedia.org" als Wiki angeben. Wird in Zukunft dann irgendwann noch etwas einfacher. -- D. Dÿsentrieb 11:34, 26. Dez 2005 (CET)

Cat Scan[edit]

moved here from de:Benutzer Diskussion:Duesentrieb -- Duesentrieb 15:48, 9 January 2006 (UTC)

Hi. Your Cat Scan is a great tool. I' using it to get information on how many stub articles, need_translation articles etc.. But since listing out those articles can be time consuming, could you provide "show count only" option to supress the complete article list. Thank you Borgx 02:44, 27. Dez 2005 (CET)

The time to actually list the articles should be marginal, if you don't have a very slow connection. For the database, counting the entries takes just as long as listing them. I.e. such a feature would not really make the response any faster. -- D. Dÿsentrieb 13:31, 29. Dez 2005 (CET)

I still think the option "show count only" is necessary, because now your cat scan abort processing at 1000 entries.

It takes just as much time to count them as to list them. The limit of 1000 is there to keep database load reasonable - providing a full count would create a lot of load.
I will look into caching some of the results, so maybe I can provide something like that in the future, but probably only with a lag of about a day or so. -- Duesentrieb 23:34, 14 January 2006 (UTC)

Cat Scan geht nicht[edit]

moved here from de:Benutzer Diskussion:Duesentrieb -- Duesentrieb 15:48, 9 January 2006 (UTC)

Hi Duesentrieb, wahrscheinlich haben es dir schon sehr viele Leute gesagt, aber wir haben ein Problem mit dem Catscan. Er bekommt keine Verbindung zu Datenbank "WikiList database". Wahrscheinlich kannst du gar nichts dafür, aber ich wollte es dir nur sagen :)

Außerdem hätte ich noch einen kleinen Verbesserungsvorschlag: Ich hatte gestern einen Teffer, der in sehr vielen Kategorien drin war. Eventuell wäre ein Zeilenumbruch nach zwei oder drei Kategorien kein Fehler. Ist nur so eine Idee!

Gruß und Danke nochmal, --Flominator 09:58, 28. Dez 2005 (CET)

Noch ne Idee: Wie wäre es, wenn du diesen Fehler abfängst und eine entsprechende Fehlermeldung und einen Link auf deine Benutzerseite angibst? --Flominator 10:03, 28. Dez 2005 (CET)

Du weißt es sicherlich schon, aber: Als Host muß der "localhost" gegen "sql" ausgetauscht werden. Kolossos 12:22, 29. Dez 2005 (CET)
Jo, danke... Ich bin auf dem CCC, aus irgendwelchen gründen konnte ich gestern keine Mail lesen, und mich auch nicht einloggen, um das zu fixen, nachdem Kate mir gesagt hatte, was lost ist. Sollte jetzt wieder OK sein.
@flominator: ja, links auf eine disku-seite für jedes tool wären nicht schlecht. Werde ich irgendwann noch einbauen. -- D. Dÿsentrieb 13:34, 29. Dez 2005 (CET)

Cat Scan und kurze Artikel[edit]

moved here from de:Benutzer Diskussion:Duesentrieb -- Duesentrieb 15:48, 9 January 2006 (UTC)

Der Cat Scan listet keine kurze Artikel mehr, hier muss dringend Abhilfe geschaffen werden. Kannst du das dir mal bitte angucken und reparieren. --Atamari 14:38, 30. Dez 2005 (CET)

Wenn du Stubs meinst, liegt das daran, dass die Kategorien tot sind. Falls es sich auf die de:Vorlage:Catscan Portal bezog, so kann ich mitteilen, dass es wieder funktioniert. Es stellt sich mir die Frage, ob der Catscan wohl auch nach Vorlagen suchen kann, die gelöscht wurden, aber noch immer im Artikeltext stehen? --Flominator 00:55, 31. Dez 2005 (CET)
Wenn das Programm den Verzeichnisbaum erfasst und im Cache behält, wäre es auch nicht möglich die Artikelgröße mit abzulegen (oder zumindest vom letzten Dump). Dann könnte in dem Formular ein Feld in dem man die Mindestgröße oder Höchstgröße mit angeben. Evt. einen Parameter in dem man die Artikel nach Artikelgröße auflistet. Wenn es nur die Artikelgröße des letzten Dump ist, kann man damit leben - viele Artikel ändern sich nicht so schnell. Irgendwie könnte man die Idee doch in die Richtung weiter entwickeln.... --Atamari 02:08, 31. Dez 2005 (CET)
Kann man so einen Parameter noch einfügen??? --Atamari 16:57, 6. Jan 2006 (CET)
Öh, der CatScan kann doch seit zwei Tagen nach Artikelgrösse suchen? "Mit ablegen" geht übrigens nicht - alle abfragen laufen *live* auf der Datenbank, die bekommt permanent Updates vom Hauptserver. Es wird nichts gecached, die Datenbasis ist dynamisch. -- D. Dÿsentrieb 18:58, 6. Jan 2006 (CET)
Das ist ja mal super - da ist man zwei Tage nur mit halber Kraft dabei, dann so etwas... :-) das schaue ich mir gleich noch näher an. --Atamari 20:30, 6. Jan 2006 (CET)

Catscan: Kombinierte Suche[edit]

moved here from de:Benutzer Diskussion:Duesentrieb -- Duesentrieb 15:48, 9 January 2006 (UTC)

Hi Daniel, hälst du es für möglich, mit dem Catscan kurze Artikel einer Kategorie zu suchen, die eine Vorlage enthalten oder eben nicht? --Flominator 09:11, 6. Jan 2006 (CET)

Hm, vielleicht... das Kombinieren von Optionen macht die Oberfläche komplizierter, und auch das erstellen der SQL abfragen recht schwierig. Für die Artikelgrösse könnte es gehen, für die Link-Zahl eher nicht... mal schaun. -- D. Dÿsentrieb 19:00, 6. Jan 2006 (CET)
Eine derartige Funktion wäre zumindest hilfreich, um kurze aber vollständige Artikel aus der generierten Stubliste ausschließen zu können (z.B. durch Verwendung einer de:Vorlage:Vollständig). Es stellt sich aber die Frage, ob es nicht ausreichend ist, den Vorlagennamen fest vorzugeben, so dass in der Oberfläche nur eine Checkbox erscheinen müßte, die das Ausschließen ermöglicht. Allerdings müßte der Vorlagenname wohl je nach ausgewähltem Wiki variieren.-- StefanL 02:34, 7. Jan 2006 (CET)

Catscan: Ausgabeformat[edit]

moved here from de:Benutzer Diskussion:Duesentrieb -- Duesentrieb 15:48, 9 January 2006 (UTC)

Wiki-Syntax[edit]

Hallo Duesentrieb, mit dem Catscan hast du ein wirklich sehr praktisches Tool geschaffen. Um Ergebnisse des Catscans in Portal-, Diskussions- oder Benutzerseiten einfügen zu können, wäre es hilfreich, alternativ zu CSV auch eine Ausgabe als Tabelle und/oder Liste in Wiki-Syntax (einschließlich Verlinkung) auswählen zu können. Weiterhin wäre auch eine optionale Ausgabe des Parameters für die Sortierposition innerhalb der Kategorien hilfreich. Beide Funktionen gemeinsam wäre eine große Hilfe zur Überwachung der Kategorisierung in einem Themengebiet.-- StefanL 02:34, 7. Jan 2006 (CET)

Hm, gute idee... solange keiner auf die Idee kommt, aus den so generierten Listen Artikel oder Navi-Leisten zu erstellen ;) Ich werd's mir mal anschauen, wenn ich etwas Zeit habe -- D. Dÿsentrieb 04:20, 7. Jan 2006 (CET)
Navileistenformat sollte man nicht unbedingt unterstützen. Für eine Navileistenerstellung sollte aber das CSV-Format fast ebensogut geeignet sein, wie ein Listen- oder Tabellenformat in Wiki-Syntax, so dass in dieser Hinsicht wohl kaum Nachteile zu erwarten sind.-- StefanL 14:05, 7. Jan 2006 (CET)
Eventuell hilft ja auch de:vorlage:Catscan Portal weiter ... --Flominator 18:44, 12 January 2006 (UTC)
Diese Vorlage war mir bekannt und reduziert die Zahl der Fälle etwas, in denen man eine Ergebnisliste im Portalnamensraum ablegen muß. Im Falle stark frequentierter Portale mit großen Kategoriestrukturen könnte es aber die Toolserverbelastung erheblich reduzieren, wenn nur ein Benutzer den Scan erstellt und diesen dann geeignet ablegt.
Das Hauptanwendungsgebiet sehe ich jedoch bei Komplettscans des jeweiligen Themengebiets. Werden diese im Wiki regelmäßig abgelegt, so erhält man mittels Versionsvergleich dieser Listen eine Beobachtungsmöglichkeit für Kategorisierungsveränderungen einschließlich Zu- und Abgängen in diesem Themengebiet.-- StefanL 21:43, 14 January 2006 (UTC)

Ich werde Wiki-Syntax nach und nach in alle meine Tools einbauen. Bitte noch etwas gedult, dauert noch ein paar Tage. -- Duesentrieb 23:28, 14 January 2006 (UTC)

Wenn man jetzt Wiki-Text als Format auswählt, erscheinen ja lediglich Artikelkategorien und -namen. Da alle dazu nötigen Informationen in deiner HTML-Ausgabe ja schon drinstecken, is es für dich doch sicherlich kein großes Problem, eine Ausgabe, wie in [2] zu realisieren, oder?
Das wär extrem hilfreich! Danke schonmal :P, 85.181.28.55 17:28, 9 March 2009 (UTC)

Erweiterte Kategorieliste[edit]

Bei der Betriebsart "for all categories" wäre es weiterhin nützlich, optional eine Ausgabe mit Zusatzinformationen je angezeigter Kategorie vorzusehen:

  • Tiefe innerhalb des Baumes, in der die Kategorie gefunden wurde.
  • Anzahl der Artikel der Kategorie
  • Anzahl der Artikel der Kategorie inkl. aller direkten und indirekten Unterkategorien
  • Anzahl der direkten Unterkategorien
  • Anzahl aller direkten und indirekten Unterkategorien
  • Kennzeichnung, wenn die direkten Unterkategorien nicht gescannt wurden.
  • Kennzeichnung, wenn nicht alle direkten Unterkategorien gescannt wurden.

Dieses wäre zur Diskussion neuer Kategorisierungsstrukturen hilfreich. Weiterhin hilft es auch, um die Anwendbarkeit von Catscan im Hinblick auf Größenbeschränkungen zu verbessern.-- StefanL 00:33, 8. Jan 2006 (CET)

Ausgabe in Baumstruktur[edit]

Es könnte auch helfen, die Ausgabe optional auf Baumstruktur umstellen zu können (direkte Anzeige und Liste in Wiki-Syntax).-- StefanL 00:33, 8. Jan 2006 (CET)

Anzeige der Kategorisierung[edit]

Bisher wird bei einigen Betriebsarten wie "for pages" die Kategorisierung der Artikel und Kategorien angezeigt und bei einigen nicht. Hier wurde ich eine globale Check-Box vorschlagen, die für alle Betriebsarten ermöglicht, die Kategoriesierungsanzeige ein oder auszuschalten. Dabei könnte auch noch wählbar sein, ob nur diejenigen Kategorien angezeigt werden, die sich in der gescannten Kategoriestruktur befinden, oder alternativ alle Kategorien, in die der jeweilige Artikel eingeordnet ist.

Eine weitere Option sollte die Anzeige der bei der Artikelkategorisierung angebenen Sortierposition aktivieren.

Mir ist aufgefallen, dass die Reihenfolge, in der die Kategorien des Artikels aufgelistet werden, recht zufällig zu sein scheint. Hier wäre es wünschenswert, wenn diese in der Reihenfolge angezeigt würden, in der sie im Artikel angegeben sind. Falls dies nicht praktikabel sein sollte, wäre eine alfabetische Sortierung sinnvoll. Insbesondere bei Ausgabe in Wiki-Syntax und Beobachtung der Veränderung ist es wichtig, dass bei einen erneuten Scan die Reihenfolge unverändert bleibt.

Zumindest für die Betriebsarten "for all categories" und eventuell auch "for all pages" wäre noch eine zusätzliche Variante hilfreich: Es werden nur diejenigen Kategorien bzw. Artikel gelistet, die zusätzlich in Kategorien eingetragen sind, die sich ausserhalb des gescannten Baumes befinden. Damit könnte man prüfen, welche seitlichen Zugänge in einen Teilbaum des Kategoriesystems hineinführen. Bei der Anzeige in dieser Sonderbetriebsart sollte erkennbar sein, welche übergeordneten Kategorien ausserhalb des Baumes liegen. Entweder könnten die Kategorien innerhalb weggelassen werden, oder es werden beispielsweise links vom Artikellink die innerhalb des Baumes befindlichen Kategorien angezeigt und rechts die ausserhalb des Baumes befindlichen Kategorien. Diese Darstellung könnte so auch für die normalen Betriebsarten angewendet werden, so dass ein möglichst einheitliches Erscheinungsbild entsteht.-- StefanL 03:27, 9. Jan 2006 (CET)

Auch für die Umkehrung, nur Artikel anzuzeigen, die keine ausserhalb des angegebenen Baumes gelegenen Kategorien aufweisen, macht Sinn: Suche nach Artikel aus Wartungskategorien, die nicht (thematisch) kategorisiert sind.StefanL 00:17, 11 January 2006 (UTC)

Catscan: Abgleich mit Liste[edit]

moved here from de:Benutzer Diskussion:Duesentrieb -- Duesentrieb 15:48, 9 January 2006 (UTC)

Zum Abgleich von Listen mit Kategorien wäre es hilfreich, wenn es eine weitere Betriebsart geben würde: Es werden alle Artikel des ausgewählten Kategorienbaumes gelistet, die in einer angegebenen Liste verlinkt (bzw. alternativ nicht verlinkt) sind. Auch die Umkehrung wäre hilfreich: Artikel, die in der Liste aber nicht der Kategorie enthalten sind, auflisten. Anwendungsbeispiele wären: de:Register Bahn mit de::Kategorie:Schienenverkehr vergleichen, Navileisten mit Kategorien abgleichen, Kategorien mit alternativer Darstellung als Liste im editierbaren Teil mit dem automatisch generierten Teil abgleichen (z.B. für derartige Anwendungen: http://commons.wikimedia.org/w/index.php?title=Category:William-Adolphe_Bouguereau&oldid=697934). Aus letzterem Grund sollte als Liste auch (der editierbare Teil) einer Kategorie angebbar sein.-- StefanL 02:34, 7. Jan 2006 (CET)

Bin mir nicht so sicher, ob das sinnvoll ist - ich fürchte, das würde den Navileisten-Wahn verstärken. Ist aber sicher machbar... mal gucken. -- D. Dÿsentrieb 04:22, 7. Jan 2006 (CET)
Missbrauch ist natürlich auch hier möglich (wo nicht?). Gegen Navileisten-Wahn helfen vermutlich am besten alternative Konzepte, die es in anderer Weise ermöglichen, den Navigationsbedarf abzudecken. Dazu könnte das Kategoriesystem einen wesentlich größeren Beitrag leisten als bisher, wenn man alle Möglichkeiten des Kategoriesystems nutzt bzw. diese noch verbessern würde. Dazu könnte dein Tool und die hier vorgeschlagene Funktion sehr hilfreich sein.-- StefanL 15:12, 7. Jan 2006 (CET)

Ich denke, ich werde das einbauen - hab aber im Moment andere Dinge zu tun. -- Duesentrieb 23:40, 14 January 2006 (UTC)

Catscan: Invertierte Scanrichtung[edit]

moved here from de:Benutzer Diskussion:Duesentrieb -- Duesentrieb 15:48, 9 January 2006 (UTC)

Eine weitere Betriebsart, bei der statt der untergeordneten die übergeordneten Kategorien rekursiv gescannt werden, wäre auch hilfreich. Einerseits könnte man damit nach Artikeln suchen, die weit oben im Kategoriebaum provisorisch einsortiert sind. Wichtiger wäre die Invertierung allerdings für die reine Kategorieanzeige. Beispielsweise waren hier mal die Elektrolokomotiven indirekt bei den Straßenfahrzeugen eingeordnet. Derartige Fehlzuordnungen könnten mit dieser Funktion erkannt werden. Für diese invertierte Scanrichtung wäre es auch wünschenswert, direkt einen Artikel statt einer Kategorie als Basis angeben zu können.-- StefanL 01:26, 8. Jan 2006 (CET)

Verstehe ich nicht ganz... du willst alle Artikel sehen, die in einer Kategorie oder einer Oberkategorie einsortiert sind? Wäre das wirklich hilfreich? Sollen Auch Artikel in der Ausgangskategorie gelistet werden? Ich würde befürchten, dass das sehr schnell unübersichtlich wird... Sinn macht das evtl, wenn die Oberkategorien eigentlich gar keine Artikel enthalten sollte, da findet man dann leicht "provisorisch" einsortierte Seiten. Aber wie oft kommt das vor? -- D. Dÿsentrieb 15:06, 8. Jan 2006 (CET)
Wie gesagt, wichtiger wäre die reine Kategorieanzeige. Falls diese wesentlich einfacher zu realisieren ist, solltest du dich darauf beschränken. Ich hatte mir aber überlegt, ob nur dieser Spezialfall Sinn macht oder auch andere Anwendungen mit Artikellistung sinnvoll sein könnten. Dabei kam ich auf die Suche nach provisorisch kategorisierten Artikeln. Vorteilhaft sind natürlich relativ schwach mit Artikeln besetzte Oberkategorien. Ich könnte mir aber vorstellen, dass die Verwendung in Kombination mit der Suche nach kleinen Artikeln oder den letzten Änderungen hilfreich sein könnte, um provisorische Kategorisierungen zu entdecken. Eine andere Möglichkeit wäre der regelmäßige Export der generierten Liste auf eine Benutzerseite und Nutzung des Versionsvergleichs, um Neuzugänge dort zu entdecken. Bei der Frage, ob die aktuelle Kategorie mit eingeschlossen werden soll, tendiere ich zu weglassen, halte dies aber für eher unkritisch.-- StefanL 16:03, 8. Jan 2006 (CET)
Meine Meinung zu letzterem habe ich nochmal geändert. Die angegebene Kategorie sollte beim Scan mit eingeschlossen werden. Dies ist flexibler, da man zum Weglassen stattdessen die übergeordneten Kategorien auflisten könnte. Andersherum würde es nicht immer funktionieren. StefanL 00:08, 11 January 2006 (UTC)

Catscan:Hinweis auf Diskussion[edit]

moved here from de:Benutzer Diskussion:Duesentrieb -- Duesentrieb 15:48, 9 January 2006 (UTC)

Hallo Duesentrieb, zunächst einmal vielen herzlichen Dank. Dein Tool gehört zu den besten „Erfindungen“, die mir hier in der Wikipedia untergekommen sind. Auf den gestrigen Löschkandidaten findet unter „de::Kategorie:Wikipedia Überarbeiten/Geschichte“ eine Diskussion statt, in der es unter anderem auch um den Catscan geht. Dabei wurde die Frage aufgeworfen, ob nicht eine kurze Dokumentation sinnvoll sei. Vielleicht schaust Du ja mal dort rein. Ich persönlich komme mit dem Script auch so gut klar, das scheint aber nicht allen Wikipedianern so zu gehn. Vor allem finde ich die dort geäußerte Idee, einer Seite mit dem Titel de:Wikipedia:CatScan gar nicht so schlecht. So könnte man bei solchen Gelegenheiten auch immer auf einen kurzen Text verweisen. Falls du Hilfe brauchst, unterstütze ich dich auch gerne dabei. Zuächst nochmals besten Dank und herzliche Grüße! --Frank Schulenburg 10:35, 8. Jan 2006 (CET)

Ja, schon, aber... Das ding ist noch sehr im Fluss, die Doku wäre sehr schnell überholt. Und das Tool funktioniert für alle Projekte, also sollte die Seite eigentlich de:meta:CatScan sein, dann aber auf englisch...
Eine zentrale Seite für Dokumentation, Fragen und Vorschläge wäre sicher gut - aber evtl besser eine gemeinsame für alle meine Tools? Ausserdem bekomme ich dann keinen "Balken" mehr, wenn jemand was fragt... und ich müsste immer meta checken...
Also: im Prinzip ja, aber wie/wo? Ich versuche, mir was einfallen zu lassen. -- D. Dÿsentrieb 14:52, 8. Jan 2006 (CET)
Melde dich einfach bei mir, wenn du meinst, daß ich dir in irgendeiner Weise helfen kann. Beste Grüße --Frank Schulenburg 15:03, 8. Jan 2006 (CET)

Catscan: Größenbeschränkung[edit]

moved here from de:Benutzer Diskussion:Duesentrieb -- Duesentrieb 15:48, 9 January 2006 (UTC)

Für meine eigenen Anwendungen dürften die weiter oben genannten Limits derzeit wohl ausreichend sein. Dennoch habe ich mir mal Gedanken dazu gemacht. Zumindest wenn beim Catscan Artikel aufgelistet werden sollen, gibt es aus Benutzersicht (von wenigen Ausnahmen abgesehen) nur zwei sinnvolle Scantiefen: Entweder 1 oder unbeschränkt. Wenn der Scan durch irgendeine Limitierung unvollständig ausgeführt wurde, ist das Ergebnis weitgehend Datenmüll. Es ist natürlich verständlich, dass du die Serverbelastung begrenzen möchtest. Die Scantiefe halte ich dabei für ein ungeeignetes Mittel, da sie kaum etwas über die wirkliche Größe des Baumes aussagt. Ein Zusammensetzen des gewünschten Ergebnisses aus mehreren Teilscans ist erstens umständlich, und führt auch zu einer noch höheren Belastung des Toolservers, da ggf. ganz erhebliche Überschneidungen der Teilscans auftreten können, weil die Kategoriestruktur kein reiner Baum ist.

Die Begrenzung auf 512 Unterkategorien finde ich da schon besser. Allerdings halte ich hier ein wirklich festes Limit auch nicht für ideal. Meine Idee dazu wäre, den Catscan bei Überschreitung dieser Größe künstlich zu verlangsamen, indem nur sporadisch Serveranfragen gestellt werden. Zum Beispiel könnten alle 10 Sekunden die Artikel einer Unterkategorie ausgelesen werden. Damit wäre der Toolserver nicht blockiert und es gäbe auch eine gewisse abschreckende Wirkung, um eine übermäßige Anzahl riesiger Scans zu verhindern. Die zu erwartende Scanzeit sollte allerdings zu Beginn angezeigt werden. Da die Verlangsamung künstlich ist, sollte es auch möglich sein, diese Zeit fast exakt einzuhalten.

Die Begrenzung auf 1000 angezeigte Artikel sollte eigentlich kein Problem sein, sofern CSV- und Wiki-Syntax-Ausgabe davon nicht betroffen sind. Mehr als 1000 Artikel dürften für direktes Betrachten ohnehin ungeeignet sein. Bezieht sich diese Grenze aber wirklich auf die angezeigten Artikel oder etwa auf die Anzahl der Artikel, die auf gewissse Eigenschaften überprüft wurden? Letzteres wäre sicher eine große Einschränkung. Ggf. könnte man die Geschwindigkeit des Catscans auch in Abhängigkeit von der Artikelanzahl reduzieren.-- StefanL 00:51, 9. Jan 2006 (CET)

Stimmt, die scan tiefe könnte unbeschränkt sein - oder ein limit von 100 oder sowas haben; obwohl - jeder schritt in die "Tiefe" erfordert eine neue abfrage, das kann eine weile dauern. Wenn man das von der Wurzelkategorie aus macht... naja, die 512 kats greifen dann ja. Eine künstliche Verlangsamung ist nicht möglich, weil die meiste zeit darauf verwendet wird, herauszufinden, welche artikel angezeigt werden sollen - das ist ein schritt. Die grenze von 1000 artikeln bezieht sich auf die angezeigten artikel - also die ersten 1000, die die Kriterien erfüllen. -- D. Dÿsentrieb 02:09, 9. Jan 2006 (CET)
Wäre es auch möglich, beispielsweise die zweiten 1000 Artikel usw. aus der Datenbank auszulesen? Wäre eventuell eine Aufteilung des letzten Schritts nach Anfangsbuchstaben möglich? Dies nur als Anregung; vielleicht kann man ja so sehr große Scans handhabbar machen.StefanL 23:54, 10 January 2006 (UTC)
naja, die "zweiten tausend" kann ich schon ab fragen, dauert aber genau so lange wie 2000 abzufragen. Mit dem Anfangsbuchtaben könnte ich mal gucken - aber evtl gibt's ja auch über 1000 mit dem selben Anfangsbuchstaben - das wird kompliziert. -- Duesentrieb 23:38, 14 January 2006 (UTC)
Diese Methode macht ja ohnehin nur für CSV-Ausgabe (und zukünftig Wikisyntax-Ausgabe) Sinn, bei denen du bisher keine Limitierung verwendest. Also sollte dies dann auch für den einzelnen Buchstaben unlimitiert möglich sein. Der Vorteil wäre aber, dass man in diesem Mode eine größere Anzahl von Kategorien zulassen könnte. Wenn mehr als 500 Kategorien gescannt werden, dürfte die statistische Verteilung doch vermutlich ausreichend gut sein, dass man pro Anfangsbuchstabe nicht mehr als etwa 10% der Artikel erhalten sollte. Damit sollte es dann möglich sein, die Grenze von 500 auf 5000 zu erhöhen. Und ob es noch sinnvolle Anwendungen für Scans von mehr als 5000 Kategorien gibt, möchte ich bezweifeln.
Wäre der Aufwand für den zweiten 1000 auch so hoch, wenn man in der Datenbankanfrage spezifiziert, dass 1000 Artikel (alfabetisch) beginnend mit dem letzen Artikel der vorherigen Anfrage ausgegeben werden sollen? Dann müßte die Datenbank ja nicht von Anfang an neu filtern und durchzählen.-- StefanL01:05, 15 January 2006 (UTC)

Redirects[edit]

Some options concerning categorized redirects could be useful:

  • hide redirects
  • show redirects only
  • show double redirects only
  • resolve redirects (analyze and show article instead of redirect)

StefanL 00:39, 11 January 2006 (UTC)

Since redirects are seldom categorized,m i don't see how this makes sense in this context... -- Duesentrieb 23:36, 14 January 2006 (UTC)

Nur IPs[edit]

Hallo Duesentrieb! Der CatScan ist ja schon nahezu perfekt. :-) Jetzt mein persönlicher Ich-ärgere-den-Developer-am-Sonntag-Morgen-Wunsch: angemeldete Benutzer ausblenden. Das ist nützlich, wenn man einen relativ umfangreichen Kategorienbaum schnell auf subtile Vandalismen überprüfen will. Ganz perfekt wäre es natürlich, wenn hinter jeder ausgeworfenen Änderung die Größenverschiebung in Bytes angegeben würde (z.B. +20 Bytes oder -2841 Bytes). ;) Ja nun, man wird doch mal träumen dürfen... Schöne Grüße, --Markus Mueller, hier ohne Account. 09:48, 15 January 2006 (UTC)

Hm, ja, mal gucken... sieht fast so aus, als müsste ich den CatScan als solchen wieder abschaffen, und dafür eine "Einschränkung nach Kategorie" in verschiedene Tools einbauen. Sonst wird das zu viel in einem Tools. Jedenfalls danke für die Idee. Ob sich das mit dem Grössenunterschied machen lässt, weiss ich noch nicht.
Tipp am Rande: in Projekten, in denen ich keinen Account habe, unterschreibe ich immer mit [[:de:Benutzer:Duesentrieb]] ~~~~~ - das sieht dann so aus: de:Benutzer:Duesentrieb 10:40, 15 January 2006 (UTC)

CatScan proposal: show articles greater than <size>[edit]

CatScan already has the option to show articles which are smaller than a certain size. It would be useful to be able to select just the articles greater than a certain size - this would make removing "stub" templates from the articles which have outgrown them easier. Thanks! --Elephantus 01:15, 18 January 2006 (UTC)

Translation[edit]

Hello, I've done a draft Italian translation. Will have to see it 'live' for final tweakings. Meanwhile, thanks for the useful tool! --Lp 22:17, 20 January 2006 (UTC)

Count only?[edit]

Unsurprisungly the following query was limited after 1000 results:

But I was interested in the count only. I fear, getting the count doesn't use much less resources than the normal result list (but the output page would be much smaller of course).

Any chance?

84.144.103.144 11:00, 27 January 2006 (UTC) = de:Benutzer:Pjacobi

As you said, just counting does not make the query much faster. A nice overview of the category tructure, showing the "weight" of each category, would sure be nice... maybe also as a "cloud" or a treemap. maybe i'll make something that is updated every week or so. Live queries are to slow for that.
Right now, i'm busy with my WikiWord stuff, but i'll look into it. -- Duesentrieb 14:38, 27 January 2006 (UTC)

simple.wikipedia.org doesn't seem to work[edit]

I can get results from pt, en, etc., but if I try simple I notice CategoryTree.php and CategoryIntersect.php both turn it into "en-simple" in the text box in the UI (and depending on the radiobox returns <nothing>, 'no results', or just "[[Category:]]", even if the URL still says "wikilang=simple" (while playing with the URL I also noticed that I get German text if it has userlang=simple). I'm assuming that 'Simple' is too long or some such, so they try a default setting.

The cat structure on Simple is a mess right now (lots of orphan cats at the top of cat-trees, etc.), and this tool would really help get a handle on things, so I hope you can get it to work when you have a chance. I'm in SQA by profession, so if you need any further information or testing, feel free to let me know. Thanks 24.17.48.241 07:05, 2 February 2006 (UTC) (Simple:User:Freshstart)

Hm, I'll have to look into this. The confusion is almost certainly about the language code and domain name for simple english (simple? en-simple?...). I have added it to the central to-do list at User:Duesentrieb/Tools. Thanks for reporting the issue. -- Duesentrieb 14:31, 5 February 2006 (UTC)
A few years later... I cannot use simple.wikipedia.org with catscan. Any suggestions? 83.76.1.95 23:00, 8 December 2010 (UTC)

Complement[edit]

This is a great tool to make use of the categories in Wikipedia!

Some additional features that would be nice to have:

  • 1. In search "for pages by category", the selection of articles not in both categories
    (similar to the "inverse" available for templates).
  • 2. Display one other category (or a series or all other categories) an article is listed in
    (similar to the feature available for templates ("for all pages if you supply a template in the field above, tagged articles will be highlited")).

Currently, (1.) can be done manually for small categories after querying both. -- User:D2/en:User:Docu

Thanks for your suggestions. I'll probably have to rip apart the CatScan at some point, splitting it in several tools. Right now, it's beginning to suffer of w:feeping creaturism ;) -- Duesentrieb 16:43, 21 February 2006 (UTC)

New articles[edit]

IN: for changes in the last X hours, X hide minor , X hide bots

would it be possible to add "new(est) article(s)"? That would be very helpfull for several wikiprojekts or portals. -- Cherubino 20:11, 24 February 2006 (UTC)

see User_talk:Duesentrieb/CatScan#Neue_Artikel

In einer Liste (Artikel) verlinkte Artikel einer Kategorie[edit]

Hallo Duesentrieb, ich wollte gerade schaun welche Apperate aus der de:Kategorie:Messgeräte in de:Messgeräte noch fehlen. Es wäre schön wenn es da eine Funktion in Catscan geben würde. de:Benutzer:Kolossos 19:55, 26 February 2006 (UTC)

Ja, Vergleich/Schnitt mit einer Liste wäre nett. Hab ich vor, weiss aber noch nicht, wann's soweit ist. -- Duesentrieb 20:42, 26 February 2006 (UTC)
Support Pro: Ein Abgleich einer Kategorie mit einer Verweisliste wäre nett! Gruß, --Rhododendronbusch (82.82.114.23 14:41, 25 February 2007 (UTC))
Wenn ich den Vorschlag richtig verstehe, fände ich das auch sehr nützlich bzw. interessant für neugierige Endanwender. Dann käme man bei Fragen der Art „Welche Artikel zu Geräten/ Politikern/ Ländern/ Krankheiten/ Programmiersprachen/ ...... enthalten Links auf X?“ weiter, wo die reine Verweisliste unübersichtlich groß geworden ist. --91.8.237.33 13:19, 20 January 2008 (UTC)

100:Portal[edit]

Hallo, ich hatte de:Portal:Preußen geändert, und erhielt in CatScan die Meldung

  • Preußen 100:Preußen 2006-03-01 11:33:14, Cherubino (diff, versions): +neue

de:100:Preußen gibt es ja nicht, wird der Portalnamensraum nicht richtig erkannt? -- Cherubino

Hm, eigentlich dachte ich, ich hätte das repariert... muss ich mir nichmal angucken. Notfalls, erinnere mich nochmal dran. -- Duesentrieb 11:37, 4 March 2006 (UTC)
funktioniert jetzt, war einfacher als gedacht :) -- Duesentrieb 11:44, 4 March 2006 (UTC)

Große Artikel[edit]

'N Tach! Ein Vorschlag für den CatScan: Könnte man nicht auch Artikel in Kats suchen, die eine bestimmte Mindestgröße haben? Also z.B. größer als 90kB, um zu große Artikel zu finden und sie danach entsprechend in Unterertikel aufzuteilen. Wär IMO ziemlich nützlich. Gruß --AlphaCentauri 14:04, 10 March 2006 (UTC)

OK, sehe grad, es steht schon auf der To do-Liste. Damit geb' ich dir die Erlaubnis, den vorherigen Kommentar wie Luft zu behandeln. ;-) Gruß --AlphaCentauri 14:11, 10 March 2006 (UTC)

Cat Scan - another proposal[edit]

Please look at [[3]], this suggestion is probably cat scan related. Kuszi 01:21, 20 March 2006 (UTC).

Interwiki-Links are currently not stored in the database - it's impossible to search for pages by their interwiki links without parsing every single article in the database. That would take a very long time...
I would very much like to have that info in the database, there are a lot of useful things one could do with it. Perhaps we should file a feature request on bugzilla. -- Duesentrieb 14:52, 20 March 2006 (UTC)
I think so, thank you for your interest. Kuszi 21:46, 22 March 2006 (UTC).

FYI: there was some talk about this on #wikimedia yesterday, involving JeLuF and RobChurch. This is generally conceived to be a good idea - the question is no, who is going to do it, and when. Also, this would require all pages in all projects to be re-parsed... that would take a couple of weeks, and can not be done while other expensive tasks (like updating dumps or the search index) are being performed... But I guess we'll get it eventually :) -- Duesentrieb 15:29, 25 March 2006 (UTC)

Neue Artikel[edit]

hallo Duesentrieb ... was hälst du davon noch eine Rubrik Suche "neue Artikel" in Kategorie anzufügen, das würde das Suchen in den Kategorien für die Wikiprojekte enorm erleichtern ... 84.188.247.82 12:25, 25 March 2006 (UTC)

Hm, it was much easier to do it than I thought :) It well be available when I update my tools again (in a few days or so). Ach ja, deutsch... na, egal :) -- Duesentrieb 15:27, 25 March 2006 (UTC)
Wäre sehr nützlich! -- 82.83.81.192 08:37, 2 May 2006 (UTC) (de:Benutzer:iGEL)
ist jetzt live. -- Duesentrieb 07:55, 3 May 2006 (UTC)
dafür hatte F.Schulenburg auch ein Tool: http://tools.wikimedia.de/~fschulenburg/neueartikel.php -- Cherubino 17:20, 5 May 2006 (UTC)

Articles without a category[edit]

I would like to get a list of uncategorized articles, sorted by creation date. Does this feature fit into your tool? --85.105.164.28 09:11, 26 March 2006 (UTC) de:Benutzer:Roland2

It would probably make more sense to add a sort option to Special:Uncategorizedpages... With regards to my tools, this would be more like User:Duesentrieb/OrphanImages. -- Duesentrieb 00:19, 29 March 2006 (UTC)

Vorlagen aus anderen Namensräumen[edit]

Moin Duesentrieb, wäre es denkbar, den CatScan zu erweitern, so dass auch Vorlagen, die nicht im Vorlagennamensraum liegen, wie die "Benutzer:Vorlage/Benutzer aus ..."-Vorlagen, gefunden werden können? Und ist es eigentlich zwingend notwendig eine Kategorie anzugeben oder ginge es auch, dass zum Beispiel alle Seiten gefunden werden, die eine bestimmte Vorlage benutzen und in den letzten 12 Stunden bearbeitet wurden? --::Slomox:: >< 00:26, 6 April 2006 (UTC)

Möglich ist alles... es wird nur immer schwieriger, alle möglichen Kombinationen automagiosch in sinnvolle SQL-Queries zu packen... -- Duesentrieb 00:00, 7 April 2006 (UTC)
Etwas unkonkrete Antwort ;-) Mit Ich werd mal versuchen es einzubauen oder meinetwegen auch Im Moment fehlt mir zum an SQLs frickeln die Zeit hätte ich mehr anfangen können. Ich gehe also erstmal davon aus, dass die Antwort eher zweiterem entsprach. --::Slomox:: >< 01:05, 7 April 2006 (UTC)
Jain. Um die von dir gewünschten Fälle einzubauen, fehlt mir im Moment die Zeit. Um eine gute allgemeine Lösung zu finden, wie sich solche "filter" kombinieren lassen, fehlen mir die Ideen... Man kann das schon generisch mit SQL zusammebnauen, aber die Abfragen, die dabei rauskommen, sind alles andere als schnell. MySQL ist nicht klug genug, um das ausreichend zu optimieren. -- Duesentrieb 23:17, 7 April 2006 (UTC)
 :-( --62.206.45.26 13:09, 5 April 2009 (UTC)

Hungarian translation[edit]

Here. --Tgr 15:02, 6 April 2006 (UTC)

Image downloading[edit]

You should probably supply an "only show image name" option for the image search; downloading 1000 images can be hard on the bandwith... --Tgr 15:06, 6 April 2006 (UTC)

Perhaps. But if you really want that big a list, maybe you should use CSV output, and feed it to a bot? -- Duesentrieb 23:58, 6 April 2006 (UTC)

Also, the uriencoding problem I mentioned is also present here (not as important though, probably not many people would want a CatScan quicksearch...) --Tgr 15:06, 6 April 2006 (UTC)

See there -- Duesentrieb 23:58, 6 April 2006 (UTC)

Category tree[edit]

Is it possible to output a category tree as an indented (and full expanded) list in wiki-markup or plain text format? (Article names not required). I was hoping to document the structure of en:Category:Cricket for en:Wikipedia:WikiProject Cricket. -- 60.230.230.234 16:01, 17 April 2006 (UTC) (that's en:User:I@n)

No, because a fully expended tree is generally impossible (there may be loops in the structure). Even without loops, a fully expanded tree may have literally hundreds of thousands of entries, and many parts of it may appear multiple times. It would also take very long to compute. For a small subtree, this would work, but I can not think of a way to program this so that it will not kill the server when someone gets the idea to try a "big" category.
Generally, I have found static category trees to be useles, because they are hard to maintain and usually outdated after a few weeks. Why not just link to the CategoryTree tool? -- Duesentrieb 12:07, 18 April 2006 (UTC)

Oh, btw: this should go to User talk:Duesentrieb/CategoryTree -- Duesentrieb 12:10, 18 April 2006 (UTC)

Thanks for the explanation & sorry to have posted in the wrong spot. -- 202.138.216.202 04:36, 20 April 2006 (UTC) (that's en:User:I@n)

English Wikipedia?[edit]

Is this tool working again on the English Wikipedia? When .en was taken off the main server on April 11/12th, it caused all tools to stop working. Recently, I've noticed a few tools are again working, albeit slowly, because of slow replication. Is CatScan working again on .en? I ask because there is no longer a notice that it doesn't work on .en, yet a test article created 6 days ago does not show up on CatScan. CatScan was such a highly useful tool, and I'd like for it to work again on .en! I know you are not responsible for the server problems, but would like to be able to use the tool again.--Firsfron 12:16, 1 May 2006 (UTC)

No, the enwiki database on the toolserver is still lagged and broken. This effects all tools. We need a fresh dump to fix this.
CatScan never had the warning banner that my other tools show... that was simply an oversight, sorry:( I have put it in. -- Duesentrieb 17:16, 1 May 2006 (UTC)
I appreciate the swift answer, although I do not like the answer I got! CatScan was the best. :)--Firsfron 21:48, 1 May 2006 (UTC)
And it still is ;) It'll be back for the en:wp too, don't worry. -- Duesentrieb 10:01, 3 May 2006 (UTC)

1000 entries![edit]

"Search aborted after 1000 entries!" How about a "Next 1000 entries" to klick? -- 172.177.197.36 16:58, 1 May 2006 (UTC)

Can't be done, because of the way pagination works in the database. The limit to 1000 entries is there to prevent high load on the DB (CatScan can bpotentially be used to list all pages in a wiki). If I tell the database to get the 10th page of 1000 hits, it actually just throws away the first 9000 - i.e. it takes just as long as asking for 10000 entries.
Can you tell me why you would need that long a list? Perhaps it would be a good idea to build a specialzed tool... -- Duesentrieb 17:10, 1 May 2006 (UTC)
war nur so eine Idee, ich dachte an eine Liste aller Artikel einer Kategorie sortiert nach Datum der Kategorisierung -- Cherubino 17:30, 5 May 2006 (UTC)

Categories that are not included[edit]

Hello Duesentrieb, is ist possible to search for articles that include a certain template, but do not contain another category? Example: German coats of arms on commons. Those should be in one of the categories below commons:Category:Coats of arms of Germany. The most commonly used of those are commons:Category:Coats of arms of German districts and the subcategories of commons:Category:Coats of arms of German municipalities. But often, uploaders do not use these categories at all, while they do use the appropriate template, commons:Template:PD-Coa-Germany. So my question is: is it possible to search for articles/images with that template that do not use one of the categories mentioned? Or can it be made possible? It is a bit tricky, since the template automatically sorts the image into commons:Category:PD Coa Germany, which is itself a subcategory of Coats of arms of Germany. --Rosenzweig 10:28, 7 May 2006 (UTC)

That's indeed a bit tricky... It would probably be best to make a special tool for it (or rather, I put the query into a file and run it when you ask me to...) -- Duesentrieb 23:29, 7 May 2006 (UTC)

"Categories only"[edit]

CatScan is a beautiful tool. I thought I'd post a request for a button that says "Categories only." What this would ask CatScan to do is only produce search results that are categories (perhaps by sorting for ":Category" in the title). That'd be neat if it could do that. Thanks for listening!--MIke Selinker 14:44, 7 May 2006 (UTC)

There is an all categories option - that's not waht you need? You want categories filtered by some additional property, right? I understand that it would be nice to be able to combine different sorts of filters freely - but that gets very complex in the user interface as well as in the database. I don't this it can be done in a nice and efficient way... -- Duesentrieb 23:27, 7 May 2006 (UTC)

CatScan & What links here[edit]

Hallo Daniel, wäre es mit CatScan (oder einem ähnlichen Tool) möglich, die verlinkten Artikel aus den Artikeln einer Kategorie anzusehen? Dies entspräche einer Kombination aus Kat. und Link auf diese Seite. Dies würde beim Sauberhalten (Vermeidung blauer Links) bestimmter Wartungskat. helfen (aktuelles Beispiel de:Kategorie:Wikipedia:Falschschreibung). --Schwalbe 14:00, 11 May 2006 (UTC)

Hm... noch eine Filtermöglichkeit.. wenn ich das richtig verstehe, willst du Waisen aus der Kategorieliste ausblenden, ja? Hm, mal gucken... -- Duesentrieb 22:39, 11 May 2006 (UTC)
Yep, die Kat. sollte eigentlich nur Waisen enthalten. Wo das nicht der Fall ist, besteht Handlungsbedarf. --Schwalbe 19:04, 14 May 2006 (UTC)

New Pictures[edit]

Hallo, wie kann ich neue Bilder einer Kategorie (auf Commons) anzeigen lassen? Danke -- 172.178.159.215 21:15, 13 May 2006 (UTC)

Differenzmenge[edit]

Kann ich auch in Kategorien nach Artikel suchen, die in einer weiteren Kategorie NICHT enthalten sind, mein aktuelles Beispiel: In Kategorie:Geboren, aber nicht in Kategorie:Gestorben (quasi noch lebende Personen)? --195.145.17.162 13:17, 18 May 2006 (UTC)

Nein, bisher nicht - und ich bin mir auch nicht sicher, ob das gehen wird... intern würde dafür wohl eine Liste aller Artikel aufgebaut werden müssen, die nicht in der Kategorie "Gestorben" sind - das sind sehr viele. Allgemein muss ich auch hier sagen: es gibt sehr viele mögliche Kombinationen von Filtern, die manchmal proaktisch wären. Leider ist es nicht leicht, frei konfigurierbare und kombinierbare filter automatisch so in SQL umzuwandeln, dass die Abfrage in annehmbarer Zeit läuft. -- Duesentrieb 14:03, 19 May 2006 (UTC)
Naja, es gibt doch bereits "in Kategorie A und nicht mit Vorlage B". Ganz naiv (ich kenne die technische Umsetzung nicht) würde ich behaupten, dass eine Anpassung nicht weiter problematisch wäre. Das Problem liegt eher darin, aus dem konfigurierbaren Filter eine effiziente SQL-Abfrage zu machen? Ich denke noch daran herum... --195.145.17.162 08:38, 13 June 2006 (UTC)
Doch, doch, dass muss doch gehen. Gestorben und geboren ist natürlich eher ein Sonderfall, da diese (Unter)Kats riesig sind. Du baust doch erst eine Liste aller Artikel, die in den Basiskategs enthalten sind. Dann würde einzeln gesucht, ob sie in einer der Suchkats drin sind, und evtl ausgegeben. So sollte sie halt ausgegeben werden, wenn sie nicht darin ist.
Am besten wäre es natürlich, wenn man Mengenoperationen eingeben könnte. (Geboren 1950_VEREINIGT_Geboren 1951)_GESCHNITTEN_NICHT(Gestorben) wäre so eine Möglichkeit, die Klamern müsste man vermutlich als geschachtelte SQL-Abfragen umsetezen. Verboten sind Abfragen aus nur NICHT (wie NICHT(Geboren)_VEREINIGT_NICHT(Gestorben) ), da man keine (kleine) Basisliste mehr hätte (außer ALLEARTIKEL). International müsste an dann natürlich (auch per JS-Einfügen bereitgestellte) mathematische Symbole nehmen. Die Vorlageneinbindung stellt ja auch eine Basisliste (per Links-auf-Liste, vermutlich) dar, könnte also mit geschnitten werden: Kommando VORLAGE(Benutzer:X/Babel1) oder so. Das wäre genial!!! :-)
meint  Bergi

talkpage/mainpage integration[edit]

It would be helpful in certain cases to be able to combine categories from a talk page and its associated main page. The particular example I'm thinking of is searching for photo requests of bridges on EN. The talk page of such requests goes into "Category:Wikipedia requested photographs", while the main page would be in a subcategory of Category:Bridges. Would this be possible? Stevage 10:01, 21 May 2006 (UTC)

Anything is possible if you write it... but as I have said many times on this page: it's very hard to allow more ways to filer, and to combine filters. It makes it impossible to compose an sql query that would run efficiently. I'll probably have to split up CatScan into different tools at some point... not sure how though.
Basically, yes, you request is valid, and it's possible to implement that. But I can't make this tool into a generic "any query you can think of" interface, sorry. -- Duesentrieb

Einschränkung der Ergebnisse[edit]

Für Commons-Bilder: Könnte man vielleicht ein zweites Kategoriefeld einführen? Damit nur Ergebnisse angezeigt werden, die in beiden Kategorien enthalten sind? Also etwa eine geographische Kategorie (Niedersachsen oder Göttingen) und eine nach Inhalt (Brücke oder Skulptur). Ich würde mich auch für eine Verbindung aus: Category:Media with locations und Category:Göttingen, Germany interessieren. Longbow4u 21:28, 24 May 2006 (UTC)

Öh, das ist ein zweites Kategorie-Feld... direkt under dem Ersten... das war ursprünglich der Sinn der Sache... geht doch, oder was meinst du? -- Duesentrieb 23:02, 24 May 2006 (UTC)
Schon, aber dann werden die Bilder nur als Links angezeigt und nicht mehr im Bildmodus (wie wenn man unten "images" auswählt), da man ja entweder nur das zweite Suchfeld oder images auswählen kann. Longbow4u 23:12, 24 May 2006 (UTC)
Hm, "Bildergalerie" als unabhängige Option zu haben wäre evtl nicht schlecht. Ist aber nicht so einfach, da sowohl kategorisierte Bilder als auch Bilder in Galerien berücksichtigt werden müssen. Und auch hier wieder: natürliche wär's toll, alle Arten von Filtern frei konbinieren zu können. Aber effizient umsetzbar ist das kaum. -- Duesentrieb 07:24, 25 May 2006 (UTC)

Automatische Vorschläge für Suchfelder[edit]

Für Commons: Angenommen, ein Nutzer möchte sich die Ergebnisse für Göttingen anzeigen lassen (z.B. Bilder), aber er weiß nicht, daß die entsprechende Kategorie Category:Göttingen, Germany ist. Dann würde er keine Treffer erhalten. Könnte er dann nicht einen Vorschlag bekommen wie: Sorry, Göttingen haben wir nicht, aber vielleicht meinten sie Category:Göttingen, Germany? Also Kategorien, die die Buchstabenfolge Göttingen enthalten. Longbow4u 21:28, 24 May 2006 (UTC)

Wenn du nach jedem Buchstaben zehn bis zwanzig Sekunden warten möchtest, ja :) Ist auch ziemlich fummelig - nach jedem Tastendruck muss eine neue Anfrage an den Webserver geschickt werden, der dann die Datenbank befragt... also, nee... -- Duesentrieb 22:59, 24 May 2006 (UTC)
Ich dachte weniger an Autovervollständigen als mehr an einen Vorschlag bei einer Fehlermeldung. :-) Longbow4u 23:01, 24 May 2006 (UTC)
Es gibt keine Fehlermeldung :) Aber... hm, ja, mal gucken. Substring-Suche ist im allgemeinen ziemlich teuer (will heißen, langsam), einen Volltext-Index haben wir nicht. -- Duesentrieb
Könnte man die Datenbank mit allen Lemmata und Kategorie-Titeln ab und zu hashen und dann daraus suchen? Muß ja nicht immer auf dem allerneuesten Stand sein. Einige Tage alte Ergebnisse würden ja auch reichen. Longbow4u 23:07, 24 May 2006 (UTC)
Das wäre genau das: ein Volltext-Index. Übrigens wird die Menge der Unterkategorien schon für einen Tag gecached - das macht das ganze auch schon um einiges schneller. -- Duesentrieb 07:30, 25 May 2006 (UTC)

Unique identifier number for all files[edit]

Would it not make the administration, scanning and search in the database a lot easier if all files on the Commons and all pages in Wikimedia projects would have a unique identifier number. Than the software could calculate the list of content of all the categories in advance and respond faster to queries? Longbow4u 06:48, 25 May 2006 (UTC)

Yes, all pages and categories already have a unique id. But how does that mean that it could "calculate the list of content of all the categories in advance"? Und warum sprechen wir jetzt englisch? -- Duesentrieb 07:27, 25 May 2006 (UTC)
I thought English because perhaps other people would read it, too. Yesterday it was late, I was lazy, and the topic is difficult.
If I enter in CatScan the command "Show me all images" in Category:Göttingen, Germany, what is CatScan doing? I imagine it looks for all files with this category on the image description page. Now perhaps in this moment the program would already have a numerical list of the files of this category and could respond in serving files No. 1102, 1038, 1834, 1929 etc. It would perhaps also know already where to locate this files on the harddisk sectors. If other categories would have those numbers, too, perhaps they could compare which numbers are in both categories and only serve the respective results / files. This kind of operation could be fast. Longbow4u 07:52, 25 May 2006 (UTC)
That's the job of the database, not the application program - and it's pretty much exactly what it does. And it's not really fast, because the table holding the category -> member relation is very big, and has to be joined with the table holding the page's names and namespaces - otherwise, I could only show ids, which would not be helpful. -- Duesentrieb 08:04, 25 May 2006 (UTC)
Ok. Thank you for your answers. Longbow4u 08:13, 25 May 2006 (UTC)

Unterkategorien ausschließen[edit]

Kann man explizit eine/mehrere Unterkategorien ausschließen? Bsp.: SS ist eine Unter...kategorie von Polen (Polen -> Polnische Geschichte -> Polnische Militärgeschichte -> Militärgeschichte (Zweiter Weltkrieg) -> Militär (Drittes Reich) -> SS). Wenn ich Artikel zu Polen suche, will ich ja nicht auch Biographien von SS-Männern. Man kann natürlich bemängeln, dass Militärgeschichte (Zweiter Weltkrieg) eine Unterkategrie von Polnische Militärgeschichte ist; aber da eine Kategorie mehrere direkte Oberkategoren haben kann, hilft das auch nicht weiter. Wenn ich bei der Suche die Kategorientiefe hier bspw auf Tiefe 3 einschränke, hilft das in diesem Beispiel weiter, da SS eine der tiefsten Unterkategorien ist. Ob das bei anderen Fällen so ist, bezweifle ich -- Cherubino

Das würde technisch ziemlich kompliziert, und ich finde es auch nicht sinnvoll. Das Problem ist ja die "komische" Kategoriestruktur - sie sollte verbessert werden. Dass Kategorien mehrere Oberkategorien haben können, ist ansich kein Problem: "Fluss in Deutschland" wäre eine Unterkategorie von "Fluss" und "Deutschland", passt aber in jedem Fall bei einer "tiefen" Suche in einer dieser Kategorien. Das Problem tritt nur auf, wenn eine allgemeinere Kategorie einer spezielleren untergeordnet wird: also z.B. Polnische Militärgeschichte -> Militärgeschichte (Zweiter Weltkrieg) - diese Zuordnung ist einfach falsch, WK-2 ist kein "Unterthema" der polnischen Militärgeschichte. Es bräuchte eine Kategorie "Polen im zweiten Weltkrieg" (oder so ähnlich), die dann eine Unterkategorien von "Polnische Militärgeschichte" und von "Militärgeschichte (Zweiter Weltkrieg)" ist - damit wäre das Problem gelößt.
Ich finde es sogar gut, dass durch CatScan solche fehler in der Kategoristruktur aufgedeckt werden. -- Duesentrieb 10:23, 30 May 2006 (UTC)
Das ging auf den Löschkandidaten Kategorie:Polnischer Architekt zurück, mit der Begründung, dass diese Kategorie durch CatScan überflüssig sei. Durch das Beispiel mit der allgemeineren Kategorie unter der speziellen Kategorie, ist der LA wohl hinfällig, weil es gerade doch spezielle Kategorien geben muss: Polnischer Architekt bzw Polnische Militärgeschichte im Zweiten Weltkrieg. -- Cherubino 17:14, 30 May 2006 (UTC)
Jain - der zweite Weltkrieg darf einfach nicht unter "Polen" einsortiert sein. Man kann die zuordnung auch einfach weglassen, das gienge auch. Oder man nimmt eben eine Spezialkategorie.
Letzlich ergeben sich aber durch die "ungenauer" Kategorisierung imemr solche Probleme. Solle "zweiter Weltkrieg" unter "europäische Geschichte" stehen? Dann findet mann unter "Europa" auch was zu "Hiroschima"... Abhilfe würde da nur ein klare Unterscheidung nach Facetten bringen (Thema vs. Ort vs. Zeit, etc) -- Duesentrieb 18:28, 30 May 2006 (UTC)
Ein ähnliches Problem liegt zum Beispiel bei Kategorie:Friesland vor, Friesland ist eine Unterkategorie von Niedersachsen, Schleswig-Holstein, Niederlande und Dänemark. Das ganze basiert auf der "Anweisung" in Kategorie:Region_in_Deutschland : "Artikel, die eine Region im Sinne dieses Begriffes behandeln, gehören in der Regel in die Unterkategorie des entsprechenden Bundeslandes. Eine Grenzregion kann mehreren Unterkategorien zugeordnet sein [...]". Wenn ich versuche CatScan für das Portal:Schleswig-Holstein zu benutzten dann kann ich immer die Hälfte der Treffer aussortieren, da diese auf Friesland zurückgehen. Eine Option zum ausschließen einer bestimmten Kategorie wäre also auch in diesem Beispiel hilfreich, es sei denn ich versuche einmal eine Änderung der Sortierung von Grenzregionen durchzusetzten, was warscheinlich schwer werden dürfte, da damit sicherlich viel Arbeit verbunden sein ist. --M.L 00:46, 20 July 2006 (UTC)
Zusatz: Eine Lösungsmöglichkeit wäre der Kategorie:Region_in_Deutschland die Kategorie Region_in_Nord- Ost- West- und Süddeutschland hinzuzufügen und Regionen nur noch in Kategorien einzuordnen deeren Grenze sie nicht überschreitet, also bei Regionen die sowohl in West- als auch in Süddeutschland liegt die Kategorie:Region_in_Deutschland zu verwenden. Bei Friesland hätte man allerdings das Problem, dass diese Region sich nicht nur auf Deutschland beschrenkt. --M.L 00:57, 20 July 2006 (UTC)
Ich weiß immernoch nicht so recht, wie ich das umsetzen soll. Das geht schon bei der Oberfläche los: man will ja unter umständen mehr als eine Kategorie ausschließen. Und auch Datenbanktechnisch wird's kompliziert (was ist mit Artikeln, die in einer "ausgeschlossenen", aber auch in einer nicht-ausgeschlossenen unterkategorie vorkommen?
Ich werd's im Hinterkopf behlaten, kann aber nichts versprechen. -- Duesentrieb 16:23, 20 July 2006 (UTC)
Danke, mir ist heute noch ein weitere Kategorie aufgefallen die zu "Fehltreffern" führt. So ist Kategorie:Nordschleswig (eine Region in Süddänemark) aufgrund der Schleswig-Holsteinischen Geschichte folgerichtig in der Kategorie:Schleswig-Holsteinische_Geschichte einsortiert, die natürlich in der Kategorie:Schleswig-Holstein liegt. In diesem Fall kann man dem Problem leider nicht durch umkategorisierung aus dem Weg gehen. --M.L 20:48, 20 July 2006 (UTC)

mit CatScan V2.0β ist's jetzt möglich kategorien auszuschliessen -> siehe feld: Ausgeschlossene Kategorien. --Saltose 17:50, 13 January 2010 (UTC)

Seitenstatus anzeigen[edit]

Hi Daniel. Ist es möglich, dass der CatScan anzeigen kann, ob eine Seite/ein Bild vor Bearbeitung/Verschiebung gesperrt wurde? Das wäre für die Wikisource-Admins eine Wahnsinnshilfe! Schönen Gruß, Schaengel89 @me 12:01, 2 June 2006 (UTC)

fixed in dev

Edit-Sperre wird in der nächsten version angezeigt. Ist die verschiebesperre wichtig? -- Duesentrieb 20:13, 3 June 2006 (UTC)

Nein. Zumindest nicht bei uns, denn bei uns geht beides hand in hand. Schaengel89 @me 20:22, 6 June 2006 (UTC)

articles by namespace in categories[edit]

Hi - Is is possible to use catscan to find articles from a particular namespace in a (recursively enumerated) set of categories? Danka. -- Rick Block 01:33, 4 June 2006 (UTC)

why?

No... but generally, categories do not contain pages from different namespaces, do they? well, except images and subcategories, that is. What do you need this for? -- Duesentrieb 22:41, 25 June 2006 (UTC)
The idea is to help find user pages miscategorized in categories meant only for main namespace articles. -- Rick Block 16:08, 23 July 2006 (UTC)

Just checking[edit]

Greetings! I really miss being able to use CatScan...any idea when the toolserver English Wikipedia will be back to normal? Danke - 208.147.72.149 21:55, 5 June 2006 (UTC)

when the db on for the enwiki on the toolserver is repaird. That will be after a) additional disks are installed (hopefully this week) b) a dump is created and copied (hopefully the week after that) and c) replication works (hopefully it just does). I can't do anything but wait for the toolserver admins to sort it out. -- Duesentrieb 22:15, 5 June 2006 (UTC)


Purge[edit]

Is there a parameter "&action=purge" to update cached results? I get "using cached results for Subcategories of [..], level 1, 28807 seconds old" -- User:D2/en:User:Docu

no. The subcategory-collection is cached for 24 hours, there's no way to purge that. 28807 seconds is about 8 hours. Is that reaslly a problem for you? -- Duesentrieb 22:39, 25 June 2006 (UTC)

After going through a selection, it's nice to be able to check if anything was missed. With a lag of one month, a 24-hour-old cached version shouldn't be a problem though. -- User:D2

Note that the list of pages is not cached - only the set of subcategroies that have to be searched: after changing the category structure (adding subcategories, etc), you'll have to wait up to a day to see the effect (if that category is currently cached). That should very rarely be a problem. -- Duesentrieb 11:57, 9 July 2006 (UTC)
Just a short note: The use of the checkbox "only show new articles" is very limited cause of this caching. (Wan't watch for answers here) --Chrislb 09:09, 27 July 2006 (UTC)
No, because the list of articles is not cached. Only the list of subcategories is. That's what I said above, no? -- Duesentrieb 09:06, 28 July 2006 (UTC)

Database lag[edit]

Hallo Daniel, ich will mich gar nicht über den Lag des Toolservers beschweren :) Siehst du eine Möglichkeit, die Ausgabe des Lags derart zu erweitern, dass man sieht von wann der Dump ist, ohne zurückrechnen zu müssen? --Flominator 12:15, 24 June 2006 (UTC)

todo

Da ist kein Dump :) Aber hm, ja, mal gucken... datum mit angeben... ich muss das eh mal aufboren, es gibt ja nicht mehr einen Replag, sondern drei (für enwiki, für die asiatischen wikis, und für den rest). -- Duesentrieb 22:36, 25 June 2006 (UTC)

Neue Bilder[edit]

wo nun ja auch neue Artikel gefunden werden können, drängt sich eine Suchfunktion nach neuen Bildern nach Kategorie fast auf ;-) -- Cherubino

perhaps

hm... du meinst, die Bildersuche einschränken, nach Alter des Bildes? sollte machbar sein. Mal sehen. -- Duesentrieb 10:10, 28 June 2006 (UTC)

CatScan request[edit]

Hi Duesentrieb, I've seen your great tool CatScan, thank you for your work.

I have a request for the tool, I don't know if it's easy or not, I hope yes... maybe is already implemented but I can't find out. ;)

Is it possible to get a list of red links, sorted by occurrencies, appearing in all the articles in a given category and subcategories?

I think that this function would be useful to find misspelled links, to make redirects to existing articles, to know which article is absolutely prioritary for a favorite argument.

I Hope my english is understandable, thank for your time :) --82.60.67.74 08:17, 28 June 2006 (UTC)

perhaps

Hm, the idea is not half bad... though i'm a bit reluctant to add more modes to CatScan - it's suffereing from feeping creaturism already. So, maybe i'll create a separate tool for it some time. But i'm quite busy right now, so it may take a while... Tahks for your suggestion! -- Duesentrieb 10:08, 28 June 2006 (UTC)

Seiten aus bestimmtem Namensraum ausblenden[edit]

Hi! Wir haben in Wikisource das Problem, dass Bilder und Artikel in einer Kategorie sind. Beim Negativ-Suchen mit CatScan werden die Bilder allesamt oben gelistet, während die eigentlichen Artikel, an die wir ran wollen, weiter unten stehen. Klingt vielleicht banal, stört aber mit zunehmender Zeit. Abhilfe könnte eine Selektierung nach Namensraum schaffen, oder - weniger aufwendig, nach Artikel, Projektseite, Vorlage und Bild. Vier Auswahlmöglichkeiten reichen ja. Gruß, Schaengel89]] 22:45, 21 July 2006 (UTC)

todo

Wie schon des öffteren gesagt ist es nicht einfach, mehr Filtermöglichkeiten hinzuzufügen, die mit den existierenden kombiniert werden können. Filtern nach namensraum sollte aber noch gehen, das ist auf der Datenbnakebene recht einfach. Ich werd's mir anschauen. -- Duesentrieb 08:33, 22 July 2006 (UTC)

Vielen Dank! Schaengel89]] 11:27, 22 July 2006 (UTC)

CatScan plus search?[edit]

Someone at the en: help desk asked about restricting searches to specific categories (see http://en.wikipedia.org/wiki/Wikipedia:Help_desk#searching_wikipedia). As far as I know this is not possible (with any tool, including external search engines like Google). Would this be a possible addition to CatScan - by doing an intersection of its results with the results from a search query (not sure if the category and search databases are compatible enough for this to be possible)? Thanks. -- Rick Block 16:16, 23 July 2006 (UTC)

The toolserver does not have access to article full text, nor to the lucense search index. So, it's not possible, sorry. -- Duesentrieb 19:21, 23 July 2006 (UTC)
scheisse. Any other ideas for how this might be done? -- Rick Block 01:36, 24 July 2006 (UTC)
I think the only way to do this efficiently would be a substantial hack to Lucene - you would have to store all categories that "apply" to a page (recusively, up to the root) for each page; when searching, you would look up all pages in the category (and its subcategories) first and then use the full text index on them. I don't know if that would be efficient with the way lucene full text indexes work, and building the page-by-deep-category index would probably take quite long too (and use a lot of space). Building the search index is a very heavy task already, and for that reason, is sadly done only quite infrequently. I fear any such scheme would make matters worse.
Perhaps some database or graph algorithem guru has som ingenious idea to solve this magically - but I don't. -- Duesentrieb 10:13, 24 July 2006 (UTC)

Catscan: Kombinierte Suche[edit]

Hallo Daniel, offenbar gibt es ein Problem mit der Suche nach Artikeln, die eine bestimmte Vorlage nicht enthalten.

Vergleiche mal: [4] mit [5] Eigentlich sollte die zweite Abfrage doch alles bringen, was in der ersten nicht gelbt ist... ist das ein Bug oder ein Feature ;) Gruß -- (ttog) 82.100.247.103 08:58, 27 July 2006 (UTC)

Fast hätte ich's vergessen: das Tool ist wirklich klasse, Danke!

bug

Ja, das ist ein bug. -- Duesentrieb 09:08, 28 July 2006 (UTC)

Hallo Daniel, bist damit schon weitergekommen? Ich versuche gerade bei den Orten in Bayern die fehlenden Georeferenzierungen zu ergänzen - und da diese Kat mehr als 2000 Artikel enthält bleibt mir im Moment wohl nichts anderes übrig als jeden einzelnen nach der 1000er-Grenze durchzuklicken. Da wäre eine Beseitigung des Bugs wirklich hilfreich. Gruss -- srb 13:30, 11 October 2006 (UTC)

Für die Akten[edit]

Ich wollte heute nach Kategorie:Offenen Fragen checken, die zu Seiten eines Portals gehören, dummerweise vergaß ich, daß die Diskussionen nicht in den anderen Kategorien auftauchen, ein Schnitt somit hinfällig wird. Falls zu da Lust hast was zu Implementieren (Diskussion <-> Artikel) dann wäre das toll, wenn nicht, auch gut. --Chrislb 19:29, 3 August 2006 (UTC)

Incomplete translation[edit]

I just translated the help page to Swedish, sv:Wikipedia:CatScan, and was surprised to find nobody has done this for other languages. In the user interface, which was already translated to Swedish, some phrases still appear in English, and I listed them on User talk:Duesentrieb/CatScan-sv. Apart from this, the namespaces are not translated in the result list, but come up as Category: (should be Kategori: when searching the sv.wikipedia) and Project: (should be Wikipedia: when searching the sv.wikipedia). I guess these namespace names are in the database for each wiki. --LA2 20:46, 5 August 2006 (UTC)

Cool - having the help page in other languages sure helps. I guess I should provide an english version, to make it easier for translators.
The "untranslated" Text you see (like "help translation", "about this tool", etc) come from different parts of my framework, not from the individual tools. They would have to be in another translation file, if and when I make them translatable. Most of them arn't at the moment.
The namespace names are not in the database of each wiki - they are in MediaWiki's language files (for most standard namespaces) and in teh configuration file (for the project namespace, and "custom" namespaces). It's a bit tricky to get them all right for each project- I keep them in a separate DB that I update semi-manually every now and then. The next version of my tools will be a bit better with regards to namespaces - but not all tools use "translated" namespaces at all. I don't see why that would be a serious problem, the "canonical" names always work.
Thanks for you comment -- Duesentrieb 11:39, 6 August 2006 (UTC)
Mediawiki should have a Special:Namespacenames page that lists what the namespace names are in the current configuration. The current behaviour of CatScan is problematic because the output lists of pages and categories have very confusing names to the average user. --LA2 20:59, 13 August 2006 (UTC)

Commons images in galleries, not in categories[edit]

CatScan is mentioned among the tools on Wikimedia Commons, and as we know Commons is primarily used for images. However, the Commons guideline for categories says images should be added to a category and/or a gallery article. This means some images are not categorized, but only included in a gallery. Does CatScan search through gallery articles to find images? --LA2 19:52, 26 August 2006 (UTC)

yes, it does. -- Duesentrieb 21:52, 26 August 2006 (UTC)
Excellent! This means my counts of images per municipality are accurate. --LA2 01:04, 27 August 2006 (UTC)

RSS/Atom[edit]

Would it be possible to have the output in RSS or Atom format, like with the Gallery tool? I see "RSS feed for RC" on the todo list, but it is probably something more specific? --Para 20:24, 29 August 2006 (UTC)

Well, the todo entry is for an RSS feed for the recent changes mode of CatScan - I don't see how this would be useful for any other mode. RSS is designed for "news". What would you want it for? -- Duesentrieb 09:52, 30 August 2006 (UTC)
Ah, right, that's exactly what I'd like to see. I hadn't noticed that mode of the tool, since it excludes the "for all images" selection which I'm always using. But an RSS feed for additions to a category would indeed be very useful. --Para 10:26, 30 August 2006 (UTC)

Catscan Hebrew[edit]

Hi,

I started looking for Catscan issues with the Hebrew wiki. There are the directioality problems that I expected, and I'll let you know when the Hebrew text has changed. However, there's another problem that is unrelated to the interface language: when I serach for articles in a category that contain a certain template, I get yellow blanks instead of article names. Try it our: if you seach in he wiki, category מתאבקים containing template לשכתוב you'll see what I mean... tnx, Odedee 23:48, 7 September 2006 (UTC)

Uhm... Any idea? tnx, Odedee 18:21, 21 September 2006 (UTC)
Issue still there... :( Odedee 00:56, 13 November 2006 (UTC)

Laufzeit von Abfragen[edit]

Hallo Daniel, ich habe gerade mal zwei gleichwertige Abfragen durchgeführt:
a) Suche in Kategorie Fußball mit Tiefe 5 Artikel in der Kategorie Wikipedia:Qualitätssicherung mir Tiefe 1.
b) Suche in Kategorie Wikipedia:Qualitätssicheung mit Tiefe 1 Artikel in der Kategorie Fußball mit Tiefe 5.
Die Abfrage b) war deutlich schneller. Frage: War das Zufall oder hast Du ein paar Tips, wie man Abfragen dieser Art stellt, damit die Laufzeit/Systemlast möglichst gering ist. Gruß 84.162.67.124 07:47, 10 September 2006 (UTC) --

Da die zweite Abfrage über die selben Kategorien lief, verwendete sie gecachte Ergebnisse -- Duesentrieb 08:12, 18 September 2006 (UTC)

Nur Anzahl der Artikel ausgeben[edit]

Hi, vielleicht hab ich es nicht gefunden, aber ich denke die Funktion existiert noch nicht: Mich interessiert wieviele Artikel in einer Kategorie (oder einem Kategoriebaum) enthalten sind, ohne das ich die Namen der Artikel brauche - wäre super, wenn du eine Zählfunktion einbauen könntest (die eventuell auch über 1000 zählen kann). Danke und Ciao! <habakuk> --83.171.168.209 19:45, 14 September 2006 (UTC)

Zählen ist grundsätzlich so aufwändig wie Auflisten - das limit von 1000 muß also beliben, und ein die Zählfunktion wäre damit wenig hilfreich. -- Duesentrieb 08:10, 18 September 2006 (UTC)
Kennst du eine Alternative, das herauszufinden? Bei Sizilien sind wir zwar noch unter 1000, so dass ich bisher Catscan verwende, aber wohl nur noch ein paar Monate. Grüße --213.183.10.41 15:31, 15 December 2006 (UTC) (=de:Benutzer:Bjs, Anwort bevorzugt dort)

Fehlerhafter Scan[edit]

Hallo Daniel, hast du eine Ahnung, woran das hier liegen könnte? --Flominator 10:51, 2 October 2006 (UTC)

Is missing lots of files?[edit]

Hi Duesentrieb,

At the moment there is a notice at the top of CatScan saying "Several entries seem to be missing from the commons database, causing images to be errounously reported as orphans." If this is what would cause my problem below, then you can just ignore this message.

I was trying to use CatScan to illustrate something, but even when I search for 'all pages' in my user category, it only returns 2 results!! Obviously there are lots more than 2 images in that category. What's going on?

thanks, pfctdayelise 08:34, 11 November 2006 (UTC)

It's missing a lot of categorization links (entries in the categorylinks table), not the files or file entries. But yes, basically. Lots and lots. Strange though that this shows five images... -- Duesentrieb 21:54, 11 November 2006 (UTC)
It's because I edited those images yesterday...
This is terrible!! Do you have any idea when it will be fixed? Is it hard to fix? pfctdayelise 02:21, 13 November 2006 (UTC)
Any chance this is ever going to work again? [I know it's a problem of the server/database size/not the tool].. it was that cool when it used to work on the English wikipedia! -- User:D2/en:User:Docu
It never worked on the english Wikipedia. For other wikis, I hope it will work again soon (we need a fresh copy of the commons db, at least, which is no problem in theory, but not trivial in practice). Maybe it will work for for the english wikipedia too, some day - I fear that we'll need new hardware for that, though. -- Duesentrieb 11:13, 2 December 2006 (UTC)
It used to work for en.wikipedia.org in February [6], but it's quite some time since then. -- User:D2/en:User:Docu

CatScan not working[edit]

Hi!

Currently, CatScan isn't working. The page says:

Database Error: Lost connection to MySQL server during query (zedler.ts-local)
- failed to connect to log database
- failed to log script start!

Greetings, skagedal... 12:28, 7 December 2006 (UTC)

This is a toolserver problem, not CatScan. pfctdayelise 13:39, 7 December 2006 (UTC)
Ah, ok. Thanks. /skagedal... 21:09, 7 December 2006 (UTC)

But there seems to be something wrong with the tool itself since the error message now says "Die Seite kann nicht angezeigt werden". --213.183.10.41 15:20, 15 December 2006 (UTC) = de:Benutzer:Bjs

Short question: where can I find the script?[edit]

Thank you! -- Simplicius

http://tools.wikimedia.de/~daniel/downloads/ -- Duesentrieb 12:38, 2 January 2007 (UTC)

Filtering by templates on article talk pages[edit]

In addition to the "for pages by template" filter, it would be nice to have "for talk pages by template". This would help me find articles not catalogued for a WikiProject. Thanks for a great tool! —  Stevie is the man!  TalkWork 17:52, 2 January 2007 (UTC)

I would like to see this too! For the same reasons, as WikiProjects templates are found on the Talk Page. Max51 (talk) 05:20, 21 June 2013 (UTC)

Wikipedia Diskussion:Wikipedistik/Soziologie/Erhebungen[edit]

Halle Experte, beste Wünsche zum Neuen Jahr. Ich habe eine Bitte: Schau Dir doch mal den o.g. Link an. Die Tabelle zur Verteilung der WPner auf die einzelnen BL habe ich mit Deinem tool CatScan erstellt. Nun bin ich auf Deinen Kommentar gespannt, speziell zu drei Fragen/Problemen:

  1. Wie kann ich die Partien mit mehr als 1000 Ergebnissen aufschlüsseln?
  2. Sind die widersprüchlichen Zahlen (301-307 z.B.) tatsächlich durch die unterschiedliche Recherchetiefe begründbar oder?
  3. Wie würdest Du eine Möglichkeit der Interpretation der Zahlen sehen, wie man die WPner / Bundesland errechnen kann?
    Resultat="Alle" minus "Categorien" (minus "Doppelte") ? (Antwort hier) Danke für die geopferte Zeit.--Wikipit 14:08, 5. Jan. 2007 (CET)
Habe eine Lösung schon gefunden, teilweise:
  1. Mit CatScan und csv-Einstellung erhält man die unbeschränkte Liste, die man in einen Zeilen zählenden Editor kopiert. Hierbei ist keine "Category" enthalten und man kann die Zeilenzahl gleich für "alle" verwenden.
  2. Man zählt die halbe Zahl der Doppelläufer ab. Nachteilig bleibt, daß man nicht weiß, zu welchem Bundesland die eigentlich gehören, denn rechnerisch halbiert bedeutet gleichwertige Reduktion. Noch ein Fehler aber bleibt, aber wahrscheinlich unbedeutend: Was wäre, wenn die Betreffenden sich zu drei BL zugehörig fühlen? --Wikipit 17:40, 5. Jan. 2007 (CET)

Nochmal Differenzmenge[edit]

Hallo Duesentrieb. Ich wollte Dich auch mal für CatScan und CategoryTree bedanken. Du schriebst oben, dass das mit der Differenzmenge schwierig wäre (Alle Artikel aus A, die nicht in B sind). Aber es sollte doch relativ einfach sein, wenn B unterhalb von A liegt (Unterkategorie). Dann müssten einfach die Unterseiten/-kategorien ignoriert werden. Wenn das geht, müsste es auch relativ einfach sein, mehrere Unterkategorien B1, B2, B3, ... auszuschließen. Was meinst Du? Schönen Gruß -- de:Benutzer:Heiko A Heiko A 08:45, 18 January 2007 (UTC)

Konkreter Anwendungsfall: Ein Portal betreut Kategorie A, die Unterkategorien B1, B2, B3 werden von anderen Portalen betreut. Schönen Gruß --Heiko A 08:50, 19 January 2007 (UTC)
jetzt möglich mit CatScan V2.0β -> Ausgeschlossene Kategorien. --Saltose 17:13, 13 January 2010 (UTC)

Mehr als zwei Kategorien?[edit]

Geht es eigentlich auch, nach mehr als zwei Kategorien zu suchen? Konkret interessiert mich die Schnittmenge der Kategorien "Frau", "Autor" und "Gestorben (19. Jahrhundert)" in der de.wikipedia. Geht das tatsächlich nicht mit dem Tool oder bin ich nur zu doof, das rauszufinden? --89.244.74.88 15:29, 25 January 2007 (UTC)

Nein, das geht nicht. wäre zwar theoretisch machbar, aber ziemlich aufwändig. -- Duesentrieb 11:26, 26 January 2007 (UTC)

musik + artikel mit anfangbuchstabe x - output darstellen im musikportal?[edit]

Ich entwickle gerade das ungarischen Musikportal.
Ich möchte eine Auflistung der Musikartikeln nach Buchstaben im Portal anbieten.
Die normale Kategoriesortierung passt für das Ungarische schlecht.
Unser Alphabet enthält Buchstaben wie "a á é i í ó ö ő ú ü ű". Es wird von der normalen Kategoriesortierung durcheinander gebracht.
Ich möchte eine Auflistung der Buchstaben zum Anklicken anbieten.
Durch Klicken auf einen Buchstaben soll man zu einer Tabelle geführt werden, mit den entsprechenden Musikartikeln.
Für diesen Zweck habe ich vor, für jeden Anfangbuchstaben eine Kategorie einzuführen.
Ich kann dann mit CatScan eine Schnittmenge von der "Kategorie:Musik" und der "Kategorie:Anfangbuchstabe ő" mit CatScan machen, und das Ergebnis in die Tabelle kopieren. So eine statische Tabelle braucht aber kontinuierliche Instandshaltung. Meine Frage: kann ich irgendwie diese Tabelle automatisiert aktuell halten oder aber den Output von CatScan direkt benutzerfreundlich darstellen? Karmeladiscussion 19:56, 10 February 2007 (UTC)

Mit "bot" wird das Problem gelöst. Karmeladiscussion 08:54, 26 February 2007 (UTC)

font-size[edit]

Hallo, hast du vor kurzem die Angaben für die Schriftgrößen geändert? In wikisense.css ist für #content eine Größe von 12px festgelegt, und für die Klassen .cats und .log gibst du eine Größe von 70% an. Das ergibt eine Schriftgröße von 8px für diese Abschnitte – und das ist mit Mozilla Firefox (WinXP ohne ClearType) so gut wie unlesbar.

Wäre es möglich, in der CSS-Datei (content, body) und im HTML-Dokument selbst (body) auf die absoluten px-Angaben für die font-size zu verzichten? Grüße -- kh80 03:23, 8 March 2007 (UTC)

Hallo - ja, ich habe das CSS für meine Tools kürzlich überarbeitet - dabei have ich von Serif auf Sans-Serif umgestellt, und die Schriften etwas kleiner gemacht, da sans-serif etwas größer "auszufallen" scheint. Ob die schriften unleserlich werden, höngt wohl auch von der Bildschirmauflösung und -größe ab - die absolute angabe in 12px war aber in der tat nicht so toll - ich hab's jetzt auf 10.6pt geändert und noch ein paar Kleinigkeiten angepasst. Sollte jetzt besser sein (evtl musst du die seite mit Ctrl-Shift-R neu laden, so dass er das neue CSS zeiht). -- Duesentrieb 12:19, 8 March 2007 (UTC)
Hallo, vielen Dank, so sieht's wieder okay aus. :-) Grüße -- kh80 00:48, 9 March 2007 (UTC) (BTW: Das Ändern der Bildschirmauflösung – ob nun 800*600 oder 1280*1024 – macht die Schrift bei mir auch nicht lesbarer. Nur das Einschalten von ClearType würde helfen. Dass 8 Pixel zu wenig sind, um Zeichen richtig darzustellen zu können, meint übrigens auch dciwam-FAQ.)

Recent changes for images[edit]

Duesentrieb, is there a way of finding recent changes and uploads for images within a specific category using CatScan? --Iamunknown 23:54, 10 March 2007 (UTC)

Hm... you can find recent changes for a given category. At the moment, it's not however possible to restrict this to the image namespace. Also, image replacements don't show up in that view.
Since CatScan has already a lot of modes and options (which makes it quite complex internally), it may be a better idea to integrate this into the Gallery tool - or make a separate tool. I'll try to remember to look into this. -- Duesentrieb 15:53, 12 March 2007 (UTC)

CatScan und Infobox-Parameter[edit]

Mich würde interessieren, ob es nicht möglich wäre, CatScan um eine Funktion zu erweitern, welche es ermöglicht, Parameter aus Infobox-Vorlagen auszuwerten. Immer mehr Staaten werden mit nationalen Infobox-Vorlagen ausgestattet, die bereits mit zahlreichen Infos gefüttert werden, an die man sonst relativ schlecht ran kommt bzw. man erhält nur schlecht einen Überblick über alles gesammelte. Man könnte somit beispielsweise nach Ortschaften suchen, bei denen die Flächenangaben noch ausständig sind und diese gezielt nachtragen, oder gar ganze Überblicks-Tabellen (evtl. auch von Catscan) erstellen lassen. Wenn sich mal wer Zeit und Mühe nimmt, so soll er diesen Vorschlag im Auge behalten, oder gibt's schon ein ähnliches Programm? Wär bestimmt enorm nützlich, zumal Einträge in der Wikipedia meist dem neuesten Stand entsprechen. Mit Hilfe solcher Tools könnte man viel rascher aktuelle Listen erstellen oder Mankos feststellen... --193.170.51.2 13:35, 11 March 2007 (UTC)

Nein, das geht leider nicht. Abfragen, die den Wikitext analysieren müssen, sind sehr langsam, und auf dem Toolserver auch garnicht möglich (nichtmal auf den "echten" Servern geht das). Template-Parameter werden halt nicht separate in der Datenbank abgelegt, und können daher auch nicht abgefragt werden.
mw:Extension:DynamicPageList kann Template-Parameter extrahieren - aber nicht danach filtern, soweit ich weiß. Das wäre für große Wikis auch viel viel zu langsam (im Prinzip müsste dafür jede Seite einzeln geladen und analysiert werden).
Schau mal auf WikiData und mw:Extension:WikiDB - es gab schon oft überlegungen, Template-Parameter als Datensätze zu behandeln. Das ist aber leider nicht so einfach, schon wegen der Versionierung, und weil Datenbanken bezüglich der Datentypen sehr streng sind (kein "ca.", kein "Bevölkerung in 1996", kein "+/- x", etc). -- Duesentrieb 15:58, 12 March 2007 (UTC)
Hallo nochmal! Kuck mal auf der folgenden Seite nach - ein derartiges Tool ist bereits Realität: Wikipedia:WikiProjekt Vorlagenauswertung. Vielleicht könntest Du Dich daran ja beteiligen. :) --193.170.51.2 14:05, 31 March 2007 (UTC)

English wikipedia data[edit]

It says "Replication of data from the english wikipedia has been stopped again. New hardware is ordered." So how old is the current data that CatScan uses for the English wikipedia? In other words, how outdated are the results? And what is the time scale for the upgrades?

Also, do you know of any other way (or other tools) to simply count the number of articles in a given category tree? Thanks for any help you can provide. -- Seattle Skier 07:05, 19 March 2007 (UTC)

The lag is currently about 35 days. It will probably not get any better before we have a seconds db server in place for this (it has been ordered - when it will arrive, and how long it will take to install it and set everything up, I have no idea).
Any way for counting pages in tha category structure would rely on the database - and if the data is old, it's old, there's nothing to be done about it. -- Duesentrieb 10:45, 19 March 2007 (UTC)
Thanks for your very prompt response, Daniel. 35 days is a very long delay!
I was trying to think of some way to directly count the number of pages in a category tree, without using any database info. One idea I have is to write a simple PHP script which would grab a category page over the web, then parse the contents of the webpage to count articles and determine subcategories. It would then grab each subcategory page and repeat the process to the desired depth. Do you think this would work? If so, is it possible that someone has already written such a thing, and how would I find out if it exists? Who or where should I ask questions about this? Thanks again. -- Seattle Skier 12:18, 19 March 2007 (UTC)
Check whether it's possible with AutoWikiBrowser -- TimNelson 10:11, 5 May 2007 (UTC)

--

If anyone's wondering, 35 days @ 19 March 2007 means that the last update was around February 12. -- TimNelson 10:11, 5 May 2007 (UTC)

Since it's been nearly 2 months since last comment, would you be willing to comment on whether the server has at least arrived? Also, is there any chance you could eg. update the data on at least a monthly basis? -- 59.167.73.163 23:52, 7 May 2007 (UTC)

matches missing when using CatScan?[edit]

Hi Duesentrieb, I think I found a problem with CatScan. It does not find all expected matches. Can you please have a look on it. Doing the following Scan [7], will give currently 46 matches.

With the following expected matches missing (2 months old, so database lag could not be the reason):

--Herzi Pinki 21:08, 21 March 2007 (UTC)

Both are corrected, there is a new report of a similar thing on the bottom
also by Herzi.  Emj 08:02, 25 January 2008 (UTC)

de.wikiquote: Replication lag or something else?[edit]

A query on the de.wikiquote.org site [8] does not seem to find any article sorted into the category Kategorie:Lebt which was introduced for test-reasons. Is there some Cache which prevents finding the articles or is it something different? The "Kategorie:!Hauptkategorie"-tag was added quite recently to "Kategorie:Lebt". Might this be a reason for the behaviour? Thanks in advance --Hei ber 06:04, 1 April 2007 (UTC)

Problem solved - at least it works now. --Hei ber 05:20, 2 April 2007 (UTC)


Zeitabschnitte[edit]

Hallo Duesentrieb, ist es mit CatScan möglich, alle NEUEN ARTIKEL, die im MÄRZ in der Kategorie MITTELHESSEN erstellt wurden, zu finden? Falls nicht ist es sonst irgendwie EINFACH möglich? Gruß, --87.169.56.165 21:26, 3 April 2007 (UTC) (de:Benutzer:thomy3k)

Wikicode formating[edit]

I would like an option to format the results in wikicode (as the CVS option). For example, something like that :

* [[result1]] <small>name of the category</small>
* [[result2]] <small>name of the category</small>
* [[result3]] <small>name of the category</small>
...

IMHO, it could be useful to create lists or project's watchlists --Ironie 20:20, 5 June 2007 (UTC)

Größenauswahl umkehrbar machen?[edit]

Hallo Meister Düsentrieb, erstmal: klasse, Dein Catscan! Wäre das machbar, die "weniger als"-Kriterien beim Stub wählbar zu machen und ggf. umzudrehen? Dass das Tool einem gezielt nur die Artikel einer Kat ÜBER einer bestimmten Größe liefern könnte? Freundlichen Gruß , KdM

Fehlermeldung[edit]

Hi Duesentrieb, die letzten Tage kommt bei mir bei CatScan immer eine Fehlermeldung. Woran liegt denn das, gibt es eine Neukonfiguration oder eine Software-Änderung? Und wann wird es voraussichtlich wieder funktionieren? Dank und Gruß, Longbow4u 16:04, 6 July 2007 (UTC)

Habe gerade gesehen, dass es jetzt wieder geht. Danke schön! Longbow4u 09:14, 7 July 2007 (UTC)

Seitenstatus wird nicht korrekt wiedergegeben[edit]

Hi Daniel, seit geraumer Zeit gibt CatScan den Seitenstatus mindestens von WS-Seiten nicht wieder. Hier ein Beispiel. Alle dort aufgelisteten Seiten sind längst semi-geschützt, jedoch wird nichts angezeigt. Würdest du dich darum kümmern? Schaengel89 13:37, 11 July 2007 (UTC)

new translation:CatScan[edit]

a new translation check it here.

Thanks and feature request[edit]

Thanks for getting CatScan working again for English Wikipedia. I have some suggestions:

  1. I'd suggest making the default search depth 1
  2. I'd be interested in seeing an inverse category search -- eg. all team sports that are *not* ball games, or all pages in the Electric folk category that are not connected with the associated Wikiproject

--TimNelson 02:19, 25 July 2007 (UTC)

(2) is on the User:Duesentrieb/CatScan#TODO todo list Intersection == inverse category search Emj 07:54, 25 January 2008 (UTC)
The correct term for (2) to use is 'relative complement' (see Complement (set theory). --Kslotte 09:52, 28 June 2009 (UTC)

New kind of search[edit]

Hello. Could you add to CatScan ability to search for pages in given category that they have template belonging to another category? Staszek Szybki Jest 21:21, 30 July 2007 (UTC)

Suche nach Aritkeln mit Interwiki[edit]

Hallo, ist das irgendwie möglich, dass ich mit CatScan in Kategorien nach Artikeln mit einem Interwiki-Link zu einer bestimmten anderen Sprache suchen kann? --91.34.130.121 15:44, 25 August 2007 (UTC)

Problem mit der Umkehrung (Seiten ohne diese Vorlage)[edit]

Mit dieser Abfrage kommen nicht alle Artikel, die die Vorlage:Infobox Sprache nicht haben. Über Alle Artikel kommen mehr Ergebnisse. --87.123.139.221 15:14, 22 September 2007 (UTC)

New namespaces on de.wikisource.org[edit]

Hi, can you add the two new namespaces für de.wikisource.org.

102 = Seite
103 = Seite_Diskussion
104 = Index
105 = Index_Diskussion

thx. xarax aka --85.178.235.197 22:27, 4 October 2007 (UTC)

Catscan, request "show only anonymous users" option[edit]

Hi Duesentrieb, thanks for your tool. In Catscan, is possible to add an option in the section " for changes in the last" showing only anonymous users?
Thank you in advance --87.15.13.127 08:23, 24 October 2007 (UTC)

Add users field to CVS output, that would enable people to do this curl $CatScan| grep -E 'User:[0-9.]*', and perhaps adding the comments field as well... But there might be a reason why they aren't included atm. Emj 07:51, 25 January 2008 (UTC)

Neue Artikel in Portale/Projekte einbinden[edit]

Siehe de:Wikipedia:Tellerrand#Neue_Artikel. In en gibt es den en:User:AlexNewArtBot, der neue Artikel in Portale/Projekte einbinden kann. Wäre soetwas auch für de denkkbar (via CatScan)? -- Cherubino 20:27, 18 November 2007 (UTC)

Catscan is amazing!!! (also sudgestion)[edit]

Your tools are amazing, thanks for the hard work. I love category intersection except it runs a little too slow, however I would like to see this feature introduced to wikipedia: Is there a way in which it could work where there were some fundamental intersected categories, such as [category "films" & "directed by: "Mr X""] catagory. These categories would be automatically updated and its contents saved to the server, so that when someone viewed this "dynamic category", there would be data already there without any waiting. This would mean there would be a small lag time as article were added to a category before they showed up, but this is a better solution. This could leave the catscan tool to undertake specific, uncommon searches, as it is doing now, as it is expectable to wait a while for a custom intersection. Chendy 10:48, 5 December 2007 (UTC)

There are some fundamental design issues with this that make it slow if you don't incoporate it into the databse storage model. So if you are requesting this feature in Mediawiki, then it might work. The problem is that with current model, you will have to check if any of those categories have changed since the last time we created this virtual category. AFIK category date change is not stored in the database. It's just a design issue, and I'm pretty sure there are request for this on the mediawiki site. Emj 07:40, 25 January 2008 (UTC)

Output format for bots[edit]

Hi, would it be possible to get output format suitable for Pywikipedia. eg:

[[page1]]
[[page2]]

Current CSV is ok, but needs some processing before it can be used with bot. --Harriv 23:40, 22 December 2007 (UTC)

I think you should open a bug report on pywikibot to support csv, just use the built in module for csv in Python. Emj 07:29, 25 January 2008 (UTC)

Excluding results from subcategories ???[edit]

Hi Düsi,

is it possible to get the entries from one category - excluding the results from specified subcategories?

example: i want to look for magazines, that are not ordered by country. so i would search for magazines in de:Kategorie:Zeitschrift and be able to exclude the results from de:Kategorie:Zeitschrift nach Staat.

Thanx alot if that could be done!

P.S.: Similar requests have been made already :

--Saltose 12:53, 18 January 2008 (UTC)

No this is still on the TODO list, it's called intersection Emj 07:25, 25 January 2008 (UTC)
I guess by now it's possible with CatScan V2.0β -> Negative categories. --Saltose 17:04, 13 January 2010 (UTC)

missing matches?[edit]

Hi, I suspect that CatScan will not find all matches in all cases. As an example look at de:Climb!, having categories de:Kategorien:Klettern, de:Kategorien:Bergsteigen and de:Kategorien:Sportzeitschrift, but the following CatScan will not find the article above (created: 2008, Jan 21st), although it should:

Whereas

Thanks a lot, if you could find the time to check this. --Herzi Pinki 22:27, 22 January 2008 (UTC)

Hi, well when you remove the "only new articles" option you still only get 3/5 revisions listed on the page. Emj 07:24, 25 January 2008 (UTC)

Searching for the lack of more than one template[edit]

I'm looking for all de-pages in category "Ort in Griechenland" (5 levels to be sure) that do not use one of the templates "M.Sg.", "M.Pl.", "F.Sg.", "F.Pl.", "N.Sg." and "N.Pl." (could be trimmed to the templates "ELSneu" and "ELSneu2" but the problem remains the same). I tried by listing the templates separated by spaces, but it failed (395 hits, de:Chania being one of many false positives). Interestingly, if I search for "all pages" within "Ort in Griechenland" (5 levels), I receive 412 hits, one of the surplus being for example the page de:Gardenos that does not use any of the templates and of course not all of them together. So I'd like to know:

  • whether it is possible with Cat Scan to find pages that do not use one of a list of templates, and
  • how the difference between 395 and 412 hits can be explained.

Thanks, Tim Landscheidt 14:14, 10 February 2008 (UTC)

Ah! Separating the templates with "|" does the trick! Fascinating. Tim Landscheidt 19:08, 19 February 2008 (UTC)

option to find edits which added articles to/ removed articles from specified category[edit]

i'ld like to make a suggestion for a further CatScan-option to find edits which added articles to or removed articles from specified categories. the search results would show a list with the specific cat-add/remove -edits ordered by time the articles have been added or removed. is this possible?, planned? or is this option already available elsewhere? greetings --Saltose 13:35, 20 February 2008 (UTC)

512 categories limit[edit]

CatScan is a great tool that's useful for many tasks, thanks! But the fact that it aborts after 512 categories scanned is kind of annoying. Like, if I want to do maintenance scans on de:Kategorie:Informatik it will abort after 5 levels, therefore skipping many articles, making the resul incomplete at least. I'd have to re-scan all subcategories with 4 or more levels again manually, which are some, and where CatScan again will fail in de:Kategorie:Angewandte Informatik and so on. Is that limitation technically needed? Could it at least get increased to a higher value? That would be great and very helpful! --YMS 11:59, 1 March 2008 (UTC)

Full ack, wanted to write the same right now, for me it is Kategorie:Portal:Berge und Gebirge - WARNING: scan aborted after 651 categories (5 levels), so the limit shouldn't be that hard. BTW, if you prune the tree, do you do a depth-first or a width-first search? --Herzi Pinki 20:32, 11 May 2008 (UTC)

JIMMY HAS TO HAVE SOME BUCKS LEFT TO SOLVE THAT ISSUE! --Saltose 17:36, 13 January 2010 (UTC)

Sortierung der ausgegebenen Artikel[edit]

Hi, Ich fänds toll, wenn man die Sortierung der Ergebnisse anpassen könnte. Ich hätte vor allem gerne eine Sortierung nach der "Relevanz der Artikel" - wofür ein guter Indikator die Anzahl der Link sauf den Artikel im Artikelraum ist. Das fänd ich toll. Gruß --84.166.124.98 15:28, 15 May 2008 (UTC)

Artikel mit einer Vorlage, die in eine bestimmte Kategorie (nicht) eingeordnet sind[edit]

Hallo Daniel. Nachdem meine Anfrage auf FZW unbeantwortet blieb, möchte ich dich auf meine dortige Frage aufmerksam machen. Du kannst diese ja bestimmt beantworten. Vielen Dank. --Leyo 19:15, 1 June 2008 (UTC)

Generate wiki text output for new articles[edit]

da das Tool auch stets für die Aktualisierung der Liste von neuen Artikeln in Poratalen benutzt wird, zb de:Portal:Medizin/Neue Artikel, wäre es hilfreich, wenn man den Output gleich in Wikitext erhalten könnte, so wie bei http://toolserver.org/~magnus/missingtopics.php. Am Besten noch mit Sternchen und Datum zb

*<small>06.12.</small>[[Nikolausi]], [[Osterhasi]]
*<small>05.12.</small>[[Osterlausi]] 
*<small>01.12.</small>[[Hasilausi]], [[Lausihasi]], [[Nikohasi]] 

Machbar? -- Cherubino 18:59, 7 June 2008 (UTC)

Auch für einen Index wie de:Portal:Byzanz/Index wäre so ein output schön. vgl. User_talk:Byrial/Tools#Catmembers-- Cherubino 10:33, 15 January 2009 (UTC)

Nutzung in anderen Wikis als Wikipedia[edit]

Hallo Duesentrieb, ist eine Nutzung von CatScan auch in anderen Wikis z.B. dem Stadtwiki Pforzheim Enz denkbar? --77.24.135.116 20:26, 20 June 2008 (UTC)

Artikel ohne Bild[edit]

Hallo schönes Tool! Wir wollen möglichst alle Artikel von Tieren mit mindestens einem Bild versehen. Dazu wäre es sehr schön, wenn man mit dem Tool alle Artikel suchen könnte, die noch kein Bild haben. Währe schön, wenn du dass einbauen könntest - oder gibt es dafür ein anderes Tool? Grüße, de:Benutzer:MichaelSchoenitzer

Getting a Error message, of sorts[edit]

re: http://toolserver.org/~daniel/WikiSense/CategoryTree.php?&wikilang=en&wikifam=commons.wikimedia.org&cat=Latin

(Trying to figure out what if any schemes lead to create the category Commons:Category:Latin Compasses), the url cited shows a bright yellow... "this page is depreciated..." message. Seems to me the tool still has a niche... it shows the parent categories etcetera. But I thought I'd mention the message. // FrankB 04:20, 30 July 2008 (UTC)

I have put up the message because the tool is no longer maintained. It's replaced by Special:CategoryTree, which also shows parent categories. -- Duesentrieb 06:22, 30 July 2008 (UTC)

doppelte Kategorie[edit]

Hallo Daniel,
bei [9] ist zweimal die Kategorie Alpenflora. Was ist der Grund dafür? Herzlichen dank für Zeit und Werkzeug :D , Grüße, Conny 19:02, 30 July 2008 (UTC).

Suggested addition[edit]

I think it would be useful to search for articles in a category, for which their discussion page transclude (or do not) a particular template -- handy for tagging for WikiProjects and similar. -- Ratarsed 12:56, 8 August 2008 (UTC)

Unterkats ausschließen[edit]

Ich weiß, dass dieses Thema ein Wiedergänger ist. Ich wollte nur nochmal ein konkretes Beispiel geben, wofür ich das gern hätte: de:Kategorie:Geophysik und de:Kategorie:Meteorologie stehen sinnvollerweise unter de:Kategorie:Physik, werden aber von anderen Portalen betreut und spammen daher nach meinem Empfingen die neuen Artikel bei uns Physikern voll. Auch bei den letzten Änderungen nervt das Zeug rum. (Wieso ist das eigentlich so schwer zu realisieren? Kannst du nicht die ausgeschlossenen Kats einfach als "hier nicht weitersuchen"-Schleifenabbruchbedingung implementieren?) -- Ben-Oni (de) 08:44, 13 August 2008 (UTC)

mit CatScan V2.0β ist's jetzt möglich kategorien auszuschliessen -> siehe feld: Ausgeschlossene Kategorien. --Saltose 17:40, 13 January 2010 (UTC)

Store results, intersect stored results[edit]

Is it possible to store results and then find the intersections of these results? Is it possible to find the intersections of more than two categories? If not, I'm guessing it would be possible to write a script myself using DotNetWikiBot or something. Am I correct? Sorry if this has been asked already (I can't read advanced German). SharkD 20:27, 24 August 2008 (UTC)

Categories added by templates[edit]

Does the software discern between categories that exist in the page's source and categories that are added by templates? Ideally, the software would give the user a choice in this regard. I didn't see any info on the English documentation page, so I thought I'd ask here. Thanks! SharkD 14:46, 30 August 2008 (UTC)

Status messages[edit]

Could you list the status messages and what they mean? Currently the pages says "Status: SNAFU". Does this mean it's not working? SharkD 15:56, 30 August 2008 (UTC)

Doesn't seem to be working[edit]

I get the 'Articles that are under X and under Y:' message. It even tells me when it's using cached data. However, it never shows the actual list of items. :( SharkD 06:49, 2 September 2008 (UTC)

The CSV output is working, which is what I wanted anyway. SharkD 06:50, 2 September 2008 (UTC)

Request: CSV output in new window.[edit]

I would like to request the option to output CSV results in a new browser window. Thank you! SharkD 06:58, 2 September 2008 (UTC)

CSV separator[edit]

Also, maybe another seperator character could be used for the CSV? Currently the tab is used, but when pasting the text to another application, the tabs may be transformed into varying numbers of blanks, resulting in a CSV practically unreadable for machines. E.g. a semicolon would be an improvement. -- 790 11:50, 11 September 2008 (UTC)

RSS output option?[edit]

Would there be value in having an RSS output option? -- handy for intersecting Articles for deletion with different subjects. -- Ratarsed 13:53, 25 September 2008 (UTC)

Inverse by category[edit]

Would it be possible for category intersect to get an inverse? Ie, you search Category A for stuff NOT in Category B? -mattbuck (Talk) 19:59, 4 October 2008 (UTC)

Yes, can we have this, please? --LA2 08:24, 11 December 2008 (UTC)
I guess by now it's possible with CatScan V2.0β -> Negative categories. --Saltose 17:15, 13 January 2010 (UTC)

720 hours limit[edit]

wouldn't it be great to be able to search for changes in the last - let's say 10000 hours. or why not just scrap this limit altogether. pleeaase: don't say it isn't possible... --Saltose 03:36, 19 November 2008 (UTC)

Size distribution[edit]

Since it is possible to select stubs by size limit, it should also be possible to find all articles (within the specified category and depth) and get a summary of their size distribution, for example in quartiles or deciles. This could be very useful to get an idea of how "stubby" a subject area is. --LA2 08:24, 11 December 2008 (UTC)

For the Swedish Wikipedia, where stub reduction is a current topic, I made the following statistics. This is based on the database dump of November 20, 2008. But if this was implemented in CatScan we could have instantly updated statistics. The columns indicate how long (in bytes) the various percentiles of articles are, with 50% indicating the length of the median article. People were complaining that there seems to be so many stubs about video games. But it turned out that articles on video games are close to the average of the Swedish Wikipedia. Instead, articles about economics are much more stubby. --LA2 23:36, 11 December 2008 (UTC)
Topic 0,1% 1,0% 10% 50%
India, 4 levels (2671 articles) 163 180 275 768
Economics, 3 levels (3675 articles) 165 180 287 1005
Video games, 4 levels (2928 articles) 176 205 380 1163
Cinema of Sweden, 3 levels (6941 articles) 229 281 431 1179
American musicians, 3 levels (2100 articles) 207 266 481 1259
Law, 4 levels (5261 articles) 169 198 387 1280
Sportspeople, 4 levels (6697 articles) 216 275 520 1434
the whole of Swedish Wikipedia 170 207 404 1177

Übersetzung[edit]

Hallo, hier füge ich bei eine Übersetzung von WikiSense_msg.php auf Polnisch:

 
 $messages['set_language']= 'zmień język';
 $messages['help_page_label']= 'co robi ten program';
 $messages['talk_page_label']= 'pytania i uwagi';
 $messages['bug_page_label']= 'zgłaszanie błędów';
 $messages['translation_help_label']= 'popraw tłumaczenie';

Kannst Du bitte Polnische Version von CatScan_msg.pl aktualisieren? Danke im Voraus!  « Saper // @talk »  23:24, 9 January 2009 (UTC)

Diskussionsseiten auch miteinbeziehen[edit]

Hallo Daniel, ich verwende Dein Tool sehr gerne. Was hältst du davon (wenn es im Bereich des Möglichen ist), auch Diskussionsseiten zu den Artikeln mitzuscannen? mfg, --62.47.41.223 08:26, 18 January 2009 (UTC) Das ist auch meine Bitte. Ich weiß nicht, ob das gemeint ist, daher konkreter: Wenn ich die letzten Änderungen in einer Kategorie (mit Unterkats) anzeigen lasse, würde ich gern die Option haben, auch Änderungen an den zugehörigen Diskussionsseiten mit anzeigen zu lassen. Anka Friedrich 08:03, 2 March 2009 (UTC)

Wiki databases s1, s2, and s3[edit]

Hi, is there anywhere a specification which Wikis are located in the s1, s2, and s3 databases? Due to numerous database problems it would be welcome to know which Wikis are affected. Something like "de wiki and 18 more" is rather frustrating! :-) Regards, Michał Sobkowski 21:29, 4 February 2009 (UTC)

Template with a slash ("/") in its name[edit]

Is there a way to query for templates such as "coord/display/inline,title"? Currently, this is scanning for "coord" instead. [10] -- User:D2

I have the same difficulty when searching for templates like "Global/Brasil" on pt.Wikipedia. Max51 (talk) 05:15, 21 June 2013 (UTC)

Lag and hidden templates[edit]

Hello, first of all I have to say that this tool is one of the finest I've seen, and I've seen a few...Using it for the Spanish Wikipedia I was surprised that some articles where listed to be "wikified". One of them had the wifiky template hidden between <!--- -->, does the tool still display such files?. In other cases I've seen that the article had been wikified a while ago (6 weeks). What is the average lag of the tool? How often do you update the data? I thank you in advance, best regards, Poco a poco 10:36, 1 March 2009 (UTC)

Seiten nach Vorlage[edit]

Hallo Duesentrieb, gibt es die Möglichkeit mehrere Vorlagen in das Feld einzutragen? If there is the possibility to put down several presentations on the field. Antwort auch gerne auf meiner Diskussionsseite der deutschen Wikipedia. Answer also with pleasure on my userpage of the german Wikipedia. Thanks --Crazy1880 19:21, 28 July 2009 (UTC)

Namespace[edit]

Would it be possible to add a feature that allows this tool to check for categories in a given namespace? PC78 16:46, 11 September 2009 (UTC)

I discovered CatScan recently and I thank you for this great tool, but this request here for Namespace filtering should be on the top of your agenda, not only for categories as PC78 here is asking, but also (and mainly) for pages; at this point everything in the output listing of wikipedia.org for example is mixed up between (Article) and other namespaces like User: and even Category: ; so the totals you get are generally not useful, you have to subtract manually non-relevant namespaces (see the standard search page http://meta.wikimedia.org/w/index.php?title=Special:Search&advanced=1 for an idea for the filtering box). Hoping you can also boost the number of effective hits beyond 1000 (ask Jimmy for $), thanks, --Alainr345 19:29, 26 September 2009 (UTC)

wsfDBTitle and ucfirst[edit]

Hello. CatScan does not handle titles properly. It should not ucfirst every title - wiktionaries have categories beginning with letters in lowercase. Beau (talk) 22:30, 29 September 2009 (UTC)

Depth of 1000 (?) Categories?[edit]

Hello Daniel,

I've tried to post that on toolserver issue tracker, but I can't :-(

This CatScan-request gives this warning:

- WARNING: scan aborted after 751 categories (4 levels)

I thougt that CatScan stoppes at 1000 categories but then I've learned that there are only 844 sub-categories there. [11]

What is the problem? Is there a workaround?

Kind regards, --Drahreg01 17:56, 11 December 2009 (UTC)

CatScan feature request[edit]

On Commons, we have more and more deeper and some sort of parallel categorisation, which makes that there are more and more categories by name/by alphabet appearing. This creates a major problem in verification of consistency and in maintenance. An example is Commons:Category:Rivers of France that contains basically 3 different categorisation systems. It would avoid many useless categories and accelerate verification if CatScan, such as this one could have an option to list with the returned categories the parent categories. Thank you. --Foroa 07:37, 27 January 2010 (UTC)

Buggy[edit]

Unfortunately, CatScan seems to get more buggy by the day:

Sorry for being negative, but that's the way it is, plain and simple. --Alainr345 03:08, 4 March 2010 (UTC)

another Problem[edit]

Hallo Duesentrieb, habe ich bei dieser Anfrage irgendwas falsch gemacht? Der Artikel de:Cadaval sollte doch in der Liste auftauechen, tut es aber nicht. Irgendeine Ahnung wo der Fehler liegen könnte? --Bergi der sich hier nicht anmelden kann weil ✓ geblockt ist 18:21, 3 April 2010 (UTC)

Nutzung in anderen Wikis als Wikipedia II[edit]

Hallo, ich habe die gleiche Anfrage wie ein User weiter oben: Wo muß der entpackte Ordner WikiSense-full_07-03-01 hin? Umbenennen in WikiSense und ins Wikiverzeichnis? Die Dateien in den vorhandenen Ordner Tools schieben? Und welche Dateien müßen noch konfiguriert werden? Wäre über jede Info dankbar ;-)
LG Lady Whistler 04:49, 9 April 2010 (UTC)
Hallo?! Wird hier auch ab und zu mal nachgeschaut? ;-(
Lady Whistler 21:38, 24 April 2010 (UTC)

not working on some categries[edit]

I cannot get the CatScan to list pages by template on en:Category:Wikipedia requested photographs of people and en:Category:Wikipedia requested photographs of sportspeople. These are large lists, is there a size limit? Traveler100 19:57, 4 August 2010 (UTC)

Auf CatScan aufbauende Tools[edit]

Ich hab mal drei kleine Tools geschrieben die die Ergebnisse von CatScan weiterverarbeiten:

Zeigt die Zugriffszahlen auf Artikel an

Liefert die Artikel einer Kategorie nach Artikellänge sortiert, um so Stubs oder überlange Artikel zu finden.

Zeigt die in einer Kategorie aktiven Nutzer nach Edit-Zahlen.

Zeigt die in einer Kategorie aktiven Nutzer bezogen auf Artikel-Neuanlagen.

Zeigt die Benutzern und welche Artikel Sie angelegt haben (und als Zugabe wann) .
Grüße --Kolossos 18:19, 26 September 2010 (UTC)

Open Source?[edit]

Gibt es eigentlich irgendwo den Source von CatScan? Bzw. ist CatScan überhaupt noch aktuell oder ist es in den WikiMining oder Media Wiki irgendwie inkorporiert? oder kann man mitlerweile mehrfach Kategorien Suche irgendwie in Wikipedia ohne CatScan nutzen?

CatScan2 fails with db error[edit]

Could not connect to commonswiki-p.userdb.toolserver.org : Access denied for user 'magnus'@'damiana-bge0.esi.toolserver.org' (using password: YES) cheers. --Herzi Pinki 20:46, 8 February 2012 (UTC)

  • +1 error for searching in commons.wikimedia.org
    • Database Error: Access denied for user 'daniel_www'@'damiana-bge0.esi.toolserver.org' (using password: YES) on sql-s4/commonswiki_p

- Failed to connect to database! Warning: Cannot modify header information - headers already sent by (output started at /home/daniel/public_html/WikiSense-live/common/WikiSense.php:78) in /home/daniel/public_html/WikiSense-live/web/CategoryIntersect.php on line 861 Vit Svajcr, --85.207.18.54 19:41, 12 February 2012 (UTC)

Cat-scan-Multiple[edit]

First a simple error--
It shows "found ... articles" at the bottom of the list even when scanning on Commons-please change it to "found ... entries"(... is the number of entries)


Now feature requests--

  1. Similar to 'all images', could we have 'all images by template'?
  2. Like intersection of two categories, could we have intersection of two templates?--Or inverse(untagged) example:I want to search all images in category "Water" that are tagged with "Featured Picture" but not with "Picture of the day".
  3. Could we have inversion of categories-example:Everything in category 'A' but not in category 'B'(B may or may not be a subcategory of 'A')

Down[edit]

CatScan2 funktioniert leider seit Tagen nicht und bringt nach langer Wartezeit die Fehlermeldung MYSQL error : Table 'dewiki_p.globalimagelinks' doesn't exist [SELECT /* SLOW_OK LIMIT:2000 NM */ /* CATSCAN2 */ pid,gil_wiki,gil_page_namespace_id,gil_page_namespace,gil_page_title FROM temp2,dewiki_p.globalimagelinks WHERE pns=6 AND gil_to=ptitle] --FA2010 (talk) 17:14, 1 December 2012 (UTC)

It's down again, on both sites. I can't get anything from either link. --108.48.59.90 01:48, 12 May 2013 (UTC)

Wikivoyage[edit]

Hello, could you please add Wikivoyage to the list of sites for CatScan? Thanks. sumone10154(talk) 05:03, 20 January 2013 (UTC)

Sandbox Scan[edit]

Hi Duesentrieb, I was creating an article in my Sandbox and noticed that CatScan picks up my Sandbox as being in the categories in which the article is supposed to belong (when it is completed and published). Not sure if this should be corrected on the Sandbox side, or CatScan side, but as this results in a very ugly listing, I'd appreciate your looking into it. Yiba (talk) 13:47, 30 June 2013 (UTC)

It should be corrected on the sandbox side. Graham87 (talk) 14:25, 4 July 2013 (UTC)

Diskseiten =[edit]

Hi, ich habe einen Baustein mit Kat zu versehen, die resultierende de:Kategorie:Wikipedia:Schon gewusst? verweist aber zwangläufig auf die Diskseiten. Ich würde Catscan gerne nutzen, um die entsprechenden Schon gewusst? - Artikel mit Artikelkategorien zu schneiden. Geht das? Wie ? Danke für Hilfe Serten (talk) 11:03, 15 July 2013 (UTC)

Undefined index: img_timestamp[edit]

Hi, could you pls have a look at this Undefined index: img_timestamp issue ?. Thanks, --Schwijker (talk) 10:58, 12 June 2014 (UTC)

Catscan appears to be down[edit]

Doesn't seem to be a tools-lab issue, as I can get other pages there just fine. But Catscan isn't working, or is working slowly. Any reason for that? --Ser Amantio di Nicolao (talk) 19:23, 24 September 2014 (UTC)

It seems to be back now. --Ser Amantio di Nicolao (talk) 17:00, 26 September 2014 (UTC)