LazyTiger
Gläubiger
Hinweis
~ Werden seit langem nicht mehr gepflegt, sorry. ~
HowTo / Hilfe
wget --help (Vollständige Liste von Parametern...)
Fallbeispiel
InhaltDer Download beinhaltet, wegen der großen Menge an Bildern, nur die Linklisten, also die URLs zu den ganzen Bildern der einzelnen Hoster. Diese müsst ihr dann mit einem Downloadmanager wie zum Beispiel wget (Win) herunterladen...
Die Listen werden per Cronjob jeden 1. und 15. des Monats um 3:00am generiert. Es kann allerdings etwas dauern bis diese fertig sind!
Eine vereinfachte Anleitung ist auch auf der Downloadseite zu finden, falls das ganze hier etwas zu viel Text ist
DownloadsAktuell werden Listen für folgende Seiten erstellt:
http://behoimi.org/ (Inhalt: Reallife, Erotik, Cosplay)
http://danbooru.donmai.us/ (Inhalt: So ziemlich alles)
http://e621.net/ (Inhalt: Furry)
http://moe.imouto.org/ (Inhalt: Anime, Hentai... Große Bilder!)
http://konachan.com/ (Inhalt: Anime, Hentai... Große Bilder!)
http://nekobooru.net/ (Inhalt: Catgirls :3)
http://wakku.to/ (Inhalt: Higurashi Bilder jeglicher Art^^)
http://animenord.no/ (Inhalt: Anime Allg.)
http://akyu.genso.ws/ (Inhalt: Anime, Wallpaper)
http://ichijou.org/ (Inhalt: Wallpaper/Vektorgrafiken)
http://wildcritters.us/wc/ (Inhalt: Furry)
http://gelbooru.com/ (Inhalt: Alles mögliche...)
http://e-shuushuu.net/ (Inhalt: Anime (Moe etc.))
~ Werden seit langem nicht mehr gepflegt, sorry. ~
HowTo / Hilfe
HowTo / Hilfe (von MorpheusKiller)- Vorbereitung
Wenn ihr euch wget von der Seite oben geladen habt, kopiert die wget.exe aus dem "bin" Ordner in den Windows Ordner. Dies ermöglicht euch, die exe einfach über "wget" ohne Pfad und Endung aufzurufen. Doppelklickt die Datei nun. Wenn nur kurz ein Fenster erscheint, etwas Text darin zu sehen ist und das Fenster sofort wieder zu ist, so dass ihr kein Wort lesen konntet, ist alles okay. Sollte (was passieren kann) eine Fehlermeldung kommen, müsst ihr euch die in der Meldung genannte DLL irgendwo besorgen. Notfalls fragt hier!
- Wie starte ich den Download?
Zuerst einmal erstellt ihr an gewünschter Stelle einen neuen Ordner, zum Beispiel behoimi/ (das / gehört NICHT zum Ordnernamen). Nun wechselt ihr in diesen Ordner und fügt dort die "behoimi.txt" aus dem Download ein. Jetzt erstellt ihr eine "!download.bat" (am besten mit dem Ausrufezeichen damit ihr sie besser findet), in welche ihr dann folgendes einfügt:
Anmerkung: Je nach dem was ihr downloadet muss der Referer (irgendeine URL innerhalb der Seite, dessen Bilder ihr ladet) und die .txt am Ende geändert werden.Code:wget --user-agent="Mozilla/5.0 (Windows; U; Windows NT 6.0; de; rv:1.9.1.5) Gecko/20091102 Firefox/3.5.5 (.NET CLR 3.5.30729)" --referer="http://behoimi.org/post/show/131334/namada-namada-w" -i behoimi.txt pause
Das ganze wird gespeichert und dann einfach einen Doppelklick auf die .bat. Schon fängt der Download an. Das "pause" bewirkt am Ende des downloads, das ihr eine Taste drücken müsst bevor das Fenster zu geht. So sehr ihr auch, das der Download fertig ist.
- Download abgebrochen / update
WICHTIG: Solltet ihr nur aktualisieren wollen, müsst ihr dem wget Befehl ein zusätzliches Argument übergeben: --no-clobber, das könnt ihr gleich an den Anfang zwischen das wget und --user-agent packen:
Der "resume" Befehl wäre --continueCode:wget --no-clobber --user-agent= ...
wget ist vom Prinzip ganz einfach zu bedienen. Einer der Wege die Dataein zu holen ist einfach den "bin" Ordner zu kopieren und an der Stelle einfügen wo man genügend freien Speicherplatz hat um alle Dateien zu speichern. (Den Dateipfad merken!) In den bin Ordner fügt man dann noch die hier runtergeladenden TXT Dateien ein.
Dann einfach die Win(Start)-Taste unde R drücken dort dann cmd eingeben und mit Eingabe bestätigen.
dann sollte mann die alten DOS Befehle noch kennen:
cd.. einen Ordner hoch
cd\ Das Ding da hinter cd ist ein Backslash, wird hier im Forum aber etwas undeutlich angezeigt! aus allen Ordnern raus, direkt auf das aktuelle Laufwerk
X: [wobei X der gewünschte Laufwerksbuchstabe ist] auf Laufwerk X wechseln
cd XYZ Ordner XYZ öffnen
Das sind die Befehle die man hier benötigt.
Jetzt zu dem Ordner navigieren in dem die wget.exe ist und folgendes eingeben:
wget -p -i name.txt name.txt ist hier durch die Namen der Textdateien zu ersetzen.
Das sollte dann auch funktionieren. Das -i sagt wget das es die Links aus der Datei name.txt holen soll und -p erzeugt dabei die Gleiche Ordnerstruktur wie auf dem Server (es sind dann nicht alle Dateien in dem gleichen Verzeichniss wie wget, was eine enorme Wartezeit beim öffnen des Ordner zur Folge hätte. Sind ja immerhin ein paar Bilder.)
Zu guter letzt ist noch eine Menge Geduld gefragt bis das Programm fertig ist. Ich habe für ca. 8GB gute 5h gebraucht, trotz einer 16000er DSL Leitung.
wget --help (Vollständige Liste von Parametern...)
Code:
GNU Wget 1.11.4, a non-interactive network retriever.
Usage: wget [OPTION]... [URL]...
Mandatory arguments to long options are mandatory for short options too.
Startup:
-V, --version display the version of Wget and exit.
-h, --help print this help.
-b, --background go to background after startup.
-e, --execute=COMMAND execute a `.wgetrc'-style command.
Logging and input file:
-o, --output-file=FILE log messages to FILE.
-a, --append-output=FILE append messages to FILE.
-d, --debug print lots of debugging information.
-q, --quiet quiet (no output).
-v, --verbose be verbose (this is the default).
-nv, --no-verbose turn off verboseness, without being quiet.
-i, --input-file=FILE download URLs found in FILE.
-F, --force-html treat input file as HTML.
-B, --base=URL prepends URL to relative links in -F -i file.
Download:
-t, --tries=NUMBER set number of retries to NUMBER (0 unlimits).
--retry-connrefused retry even if connection is refused.
-O, --output-document=FILE write documents to FILE.
-nc, --no-clobber skip downloads that would download to
existing files.
-c, --continue resume getting a partially-downloaded file.
--progress=TYPE select progress gauge type.
-N, --timestamping don't re-retrieve files unless newer than
local.
-S, --server-response print server response.
--spider don't download anything.
-T, --timeout=SECONDS set all timeout values to SECONDS.
--dns-timeout=SECS set the DNS lookup timeout to SECS.
--connect-timeout=SECS set the connect timeout to SECS.
--read-timeout=SECS set the read timeout to SECS.
-w, --wait=SECONDS wait SECONDS between retrievals.
--waitretry=SECONDS wait 1..SECONDS between retries of a retrieval.
--random-wait wait from 0...2*WAIT secs between retrievals.
--no-proxy explicitly turn off proxy.
-Q, --quota=NUMBER set retrieval quota to NUMBER.
--bind-address=ADDRESS bind to ADDRESS (hostname or IP) on local host.
--limit-rate=RATE limit download rate to RATE.
--no-dns-cache disable caching DNS lookups.
--restrict-file-names=OS restrict chars in file names to ones OS allows.
--ignore-case ignore case when matching files/directories.
-4, --inet4-only connect only to IPv4 addresses.
-6, --inet6-only connect only to IPv6 addresses.
--prefer-family=FAMILY connect first to addresses of specified family,
one of IPv6, IPv4, or none.
--user=USER set both ftp and http user to USER.
--password=PASS set both ftp and http password to PASS.
Directories:
-nd, --no-directories don't create directories.
-x, --force-directories force creation of directories.
-nH, --no-host-directories don't create host directories.
--protocol-directories use protocol name in directories.
-P, --directory-prefix=PREFIX save files to PREFIX/...
--cut-dirs=NUMBER ignore NUMBER remote directory components.
HTTP options:
--http-user=USER set http user to USER.
--http-password=PASS set http password to PASS.
--no-cache disallow server-cached data.
-E, --html-extension save HTML documents with `.html' extension.
--ignore-length ignore `Content-Length' header field.
--header=STRING insert STRING among the headers.
--max-redirect maximum redirections allowed per page.
--proxy-user=USER set USER as proxy username.
--proxy-password=PASS set PASS as proxy password.
--referer=URL include `Referer: URL' header in HTTP request.
--save-headers save the HTTP headers to file.
-U, --user-agent=AGENT identify as AGENT instead of Wget/VERSION.
--no-http-keep-alive disable HTTP keep-alive (persistent connections).
--no-cookies don't use cookies.
--load-cookies=FILE load cookies from FILE before session.
--save-cookies=FILE save cookies to FILE after session.
--keep-session-cookies load and save session (non-permanent) cookies.
--post-data=STRING use the POST method; send STRING as the data.
--post-file=FILE use the POST method; send contents of FILE.
--content-disposition honor the Content-Disposition header when
choosing local file names (EXPERIMENTAL).
--auth-no-challenge Send Basic HTTP authentication information
without first waiting for the server's
challenge.
HTTPS (SSL/TLS) options:
--secure-protocol=PR choose secure protocol, one of auto, SSLv2,
SSLv3, and TLSv1.
--no-check-certificate don't validate the server's certificate.
--certificate=FILE client certificate file.
--certificate-type=TYPE client certificate type, PEM or DER.
--private-key=FILE private key file.
--private-key-type=TYPE private key type, PEM or DER.
--ca-certificate=FILE file with the bundle of CA's.
--ca-directory=DIR directory where hash list of CA's is stored.
--random-file=FILE file with random data for seeding the SSL PRNG.
--egd-file=FILE file naming the EGD socket with random data.
FTP options:
--ftp-user=USER set ftp user to USER.
--ftp-password=PASS set ftp password to PASS.
--no-remove-listing don't remove `.listing' files.
--no-glob turn off FTP file name globbing.
--no-passive-ftp disable the "passive" transfer mode.
--retr-symlinks when recursing, get linked-to files (not dir).
--preserve-permissions preserve remote file permissions.
Recursive download:
-r, --recursive specify recursive download.
-l, --level=NUMBER maximum recursion depth (inf or 0 for infinite).
--delete-after delete files locally after downloading them.
-k, --convert-links make links in downloaded HTML point to local files.
-K, --backup-converted before converting file X, back up as X.orig.
-m, --mirror shortcut for -N -r -l inf --no-remove-listing.
-p, --page-requisites get all images, etc. needed to display HTML page.
--strict-comments turn on strict (SGML) handling of HTML comments.
Recursive accept/reject:
-A, --accept=LIST comma-separated list of accepted extensions.
-R, --reject=LIST comma-separated list of rejected extensions.
-D, --domains=LIST comma-separated list of accepted domains.
--exclude-domains=LIST comma-separated list of rejected domains.
--follow-ftp follow FTP links from HTML documents.
--follow-tags=LIST comma-separated list of followed HTML tags.
--ignore-tags=LIST comma-separated list of ignored HTML tags.
-H, --span-hosts go to foreign hosts when recursive.
-L, --relative follow relative links only.
-I, --include-directories=LIST list of allowed directories.
-X, --exclude-directories=LIST list of excluded directories.
-np, --no-parent don't ascend to the parent directory.
Mail bug reports and suggestions to <bug-wget@gnu.org>.
ToDo-ListeFolgendes ist eine _komplette_ Anleitung zum Download eines kompletten Hosts. Hoffentlich hilft sie euch (Alle anderen bitte bewerten!).
1) Arbeitsverzeichnis erstellen. In unserem Beispiel ist das D:\Imgdls\
2) Wget in unser Arbeitsverzeichnis downloaden
Binaries: http://downloads.sourceforge.net/gnuwin32/wget-1.11.4-1-bin.zip
Dependencies: http://downloads.sourceforge.net/gnuwin32/wget-1.11.4-1-dep.zip
Aus beiden zip-Archiven kopiert ihr den Inhalt des bin/ Ordners nach D:\Imgdls\!wget\ (Das wäre eine .exe aus dem ersten Archiv und vier .dll aus dem zweiten).
3) Bilderordner erstellen. Da wir in diesem Beispiel das "nekobooru" downloaden, heißt er Ordner auch so, wir erstellen also einen D:\Imgdls\nekobooru.net\ Ordner.
4) Downloaden der aktuellen Linkliste (hier: nekobooru,net.20091228.txt) nach D:\Imgdls\.
5) Erstellen einer !download.bat im D:\Imgdls\nekobooru.net\ Ordner mit dem folgenden Inhalt:
6) Die !download.bat ausführen (=Doppelklicken).Code:..\!wget\wget.exe --user-agent="Mozilla/5.0 (Windows; U; Windows NT 6.0; de; rv:1.9.1.5) Gecko/20091102 Firefox/3.5.5 (.NET CLR 3.5.30729)" --referer="http://nekobooru.net/post" --no-clobber -i ../nekobooru,net.20091228.txt pause
Erklärung der .bat:
..\!wget\wget.exe - Das Programm das ausgeführt werden soll (im Unterordner "!wget" des Überordners die "wget.exe")
--user-agent="..." - Sende "..." als Useragent (=Browserkennung) -> Umgeht eventuelle checks auf den Useragent, welche wget sonst sperren würden.
--referer="..." - Sende "..." als Referer (=Herkunft) -> Gibt vor wir kommen von "..." um eventuelle checks zu umgehen...
--no-clobber - Überspringe bereits vorhandene Dateien (Standard wäre: .1 .2 .3 .n anzuhängen, also eine Nummerierung)
-i - Input-File, sagt wget das er keinen einzelnen Link laden soll sondern die Links aus der Linkliste
../nekobooru,net.20091228.txt - Unsere Linkliste im Überordner...
Tipp: Die .bat könnt ihr dann auch einfach in andere Verzeichnisse kopieren, ihr solltet dann nur den Referer ändern und ihr müsst natürlich die Linkliste ändern, sonst ladet ihr nochmal die Bilder aus dem nekobooru.
Wichtige Hinweise- moe.imouto.org checken (hab dafür atm keine Zeit)
- Lösung finden um die Links bei denen der Bildname nur der MD5-Hash ist in ein anderes Format zu bekommen (wie bei Konachan ("ID - TAGS.EXT"))
Fragen, Lob, Kritik, Anregungen etc. bitte hier in diesen Thread. Solltet ihr weitere, auf Danbooru basierende, Imageboards finden, könnt ihr mir diese hier oder per PM mitteilen.[/code]- Wie hier schon gesagt wurde hat das 3dbooru Gegenmaßnahmen ergriffen. Der Grund ist nicht, dass der Admin generell etwas dagegen hat (zumindest sagt er das nicht), sondern dass der Traffic zu hoch ist und der Betreiber deswegen den zusätzlichen Traffic extra bezahlen muss... Übertreibts also nicht, sonst gibt es 3dbooru in Zukunft vielleicht nicht mehr!
Zuletzt bearbeitet: