find den ansatz ganz gut. taugt aber nicht bei überlappenden zeichen, aber die sind eh ein großes problem. entweder "auf gut glück" zerschneiden (halbieren bzw. in verschiedenen verhältnissen teilen und das plausibelste ergebnis nehmen, wird nahezu unmöglich wenn die zeichen auch noch gedreht sind) oder brute force mit trainierten mustern matchen, sonst wüsste ich da nix.
Da sich im G:B sowieso fast alle Erkennungsmethoden um RapidShare.com drehen, würde ich sagen, dass GOCR völlig ausreicht.
Ein neues Plattformübergreifendes AntiCaptcha zu proggen wäre mit Sicherheit kein Spaß (wobei saltlake bestimmt mit sich reden lässt) und würde im Grunde zum selben Ergebnis führen.
Eine einfache Methode beliebige Dateien aufzurufen und deren Ergebnisse an die Plugins zurückzugeben wäre alles, was man braucht.
Der läuft auf nem 1und1 vHost. Würde also im Prinzip das machen was wir von ihm erwarten. Ist ja nur ne Sache der Config.
Online ist der natürlich rund um die Uhr. Auf dem Server könnten wir auch so ne Art projektinternes Forum einrichten, was zur Kommunikation auch ganz toll wäre. Ein Ftp Zugang zum Tauschen von Resourcen die nicht unbedingt auf den svn müssen wäre auch kein Problem
Aber da der Server natürlich auf meinen Namen läuft geht das nur solange das ganze Projekt nicht aus dem Rahmen läuft. Ist ja klar denke ich.
Wenn wir die Zugangsdaten nur an diejenigen weiter geben, die auch wirklich da ran arbeiten, dürfte das ja kein Problem sein oder? Die Frage ist, was machen wir wenn das Projekt bekannter wird und viele mit machen möchten? Machen wir dies dann in einer kleineren Gruppe weiter oder ziehen wir dann auf einen Server wo keiner Daten angeben muss?
ja schreib mal einen in java. da kann ich mir den dann endlich selber anpassen .
Viel Spass dabei, sagt bescheid wenn es soweit ist.
Nein mal im Ernst, ich würde es begrüssen. da java das einzige ist was ich kann
Meine Hilfe ist hiermit auch angeboten.
Und open source ist ja wohl selbstverständlich.
ich hab immer angst wenn ich hier was runterlade. wer weiß denn schon was noch alles im usd oder rsd und co. drin ist?
bei open s. hätte man dann gewissheit das es alles sauber ist
Ich hab mir mal dieses RouterControl Programm angeschaut.
Die Routers.dat wäre für unsere Zwecke wiederverwendbar. Dort sind anscheinend alle Informationen zu den unterstützten Routern hinterlegt. Diese Datei könnte durch eine Klasse geparsed werden. Die Informationen bräcuhten dann nur noch in eine Klasse eingeleesen werden, fetig ist JRouterControl.
Also:
Wer möchte dafür einen Parser schreiben?
(Struktur der Datei kann mit ProcessMonitor von Microsoft sehr schön untersucht werden)
Da die Downloadroutine an sich schon funktioniert, beschäftige ich mich mal mit dem Nächsten. Ich schaue mir die Dat Datei von RouterControl mal an. Falls ich morgen damit weiter komme, werde ich es übernehmen. Ansonsten sage ich morgen noch mal bescheid. Aber auf dem ersten Blick, kann man mit Hilfe des Ediotors von RouterControl die Datei entschlüsseln. Ich würde vorschlagen, dass wir diese in ein XML Format bringen, oder wie hättet ihr es gerne?
Sagte ja dass ich mich ein bischen mit den captchas beschäftigen will:
Meine JavaMethode kommt jetzt ohne Zusatztools aus und kann nachdem man die letter eintrainiert hat captchas auslesen.
Es ist bisher alles ziemlich hardcoded, Aber die Idee funktioniert. hab bei Rs momentan eine Erkennungsrate von 100%.
Die Methode lässt sich über parameter ganz gut anpassen.
Ich habe noch einiges zu tun, z.B. kann ich noch nichts vorfiltern(störungen entfernen). Und es werden bisher nur jpg captchas erkannt.
Also das problem mit den captchas ist erst mal nur noch halb so groß. Morgen gibts was zu sehen.
Mein Vote ist für Open Source! Zumindest teilweise! Man könnte sicher auch daraus lernen. Alle Teile des Programms die auf jeden Fall legal sind und nicht zum abusen benutzt werden können sollten Open Source sein.
Plugins für Filehoster und Plugins zum Entschlüsseln am besten nur hier bei Gulli hosten, ob nun Closed oder Open Source ist eine interessante Frage bei der ich als Open Source Fan sogar eher zu Closed tendiere weil sonst Abuser ein zu leichtes Spiel haben. Die sollen ja so viel Aufwand wie möglich haben.
Das Projekt bei einem Open Source Hoster wie sf.net zu hosten finde ich auch gar keine dumme Idee. Java Downloader ist da ein guter Name, wäre auch gut wenn die offiziellen Programmierer dort sich von Warezdownload, gecrackten Finereader und sonstigen Sachen distanzieren.
Hier im Gulli könnte man dann den gecrackten Finereader als portable Version anbieten den man dann nur im Java Downloader einstellen muss. (Der Java Downloader geht offizielle davon aus das man eine legale Version benutzt.) Die Linuxer werden da wohl, wenn gocr nicht mehr geht die Captcha wohl nur von Hand eingeben können, was aber immer noch besser ist als alles von Hand per Browser zu laden.
Java kann ich leider nicht. Aber ich denke der Hunger an Systemrecourcen wird sich in Grenzen halten?
Noch eine Frage an die Java Leute hier, was ist vom Gnu Java to Binary Compiler zu halten? Wird damit Java so schnell wie ein vergleichbares in C++ geschriebenes Programm?
Dann noch für die Auslieferung des Programms gleich noch ein Vorschlag. Ihr könntet das Programm für Windows direkt zusammen mit einer portablen Version der Java VM ausliefern. So erspart ihr euch von Windows Usern Fehlermeldungen das Java nicht installiert ist, so wie es bei CryptLoad immer welche gab die kein .net installiert hatten. Damit wird das Programm selbst portable und läuft out of the box.
In diesem Anfangsstadium möchte ich erstmal nur denjenigen, die wirklich etwas entwickeln Zugriff darauf gewähren. Zumindest solange wir in diesem Alpha Status sind.
Wer etwas dazu beitragen möchte, sollte sich unter http://www.4webhelp.net/us/password.php ein Password generieren lassen und mir dies zumailen, mit einem Vorschlag, was er zum Projekt beitragen möchte.
werde die "routers.dat" Datei übernehmen, wenn es in Ordnung ist. Habe die Datei analysiert und schon einige Dinge rausgefunden. Soll ich denn jetzt einen Parser schreiben, der jedes mal die Datei neu parst, oder soll ich ein Konverter programmieren, welcher die Datei in ein XML Format bringt?
Die Idee eines Opensouce Java Downloader ist sehr gut. Besonders wenn man es langfristig gelingen würde, mit einheitlichen Plugin-Schnittstellen und entsprechende Plugins den gesamten Funktionsumfang von Captcha bis Router-Steuerung in einem Guss abzubilden, wäre das ein riesen Fortschritt. Was ich momentan unter Linux für eien Flickenteppich mit Wine, BAT-Skripts, Bash-Skripts, und und und, laufen habe ist nicht mehr schön..
Habe da auch noch ein paar neue Ideen die ich demnächst mal einbringen werde und auch umsetzen könnte.
@eXplodus:
Meine Erfahrung mit dem GJC ist so: manche (wenig komplexe) Programme sind nativ compiliert performanter, aber leider die meisten doch unter der JVM. Das liegt wahrscheinlich daran dass GJC noch nicht perfekt optimiert ist oder aber auch weil die JVM nicht mehr so lahm ist wie oft angenommen. Großer Vorteil ist halt, das keine JVM installiert werden muss und es gibt ja viele Javaphobiker, die sich weigern das zu tun.
Was wichtig ist, wenn man nativ compilieren will, dann sollte man lieber gleich SWT statt Swing verwenden (die GUI-Lib von Eclipse),. Mit Swing gab es unter GCJ/Classpath zumindest als ich das letzte Mal einen Versuch gestartet habe noch etliche Probleme. Weiss nicht, ob sich das jetzt geändert hat seit Java Opensource geworden ist.
Einzellne Teilbereiche nehmen ja langsam Gestalt an.
Deshalb habe hier ein Forum aufgesetzt, um vor allem unter den Entwicklern etwas Koordination reinzubringen http://lagcity.de/~jDownloader/
Ein langes Leben hat viel zu erzählen. Wir haben für euch in unserem Presse-Archiv eine Auswahl diverser Presseberichte über gulli.com aus vergangenen Jahren zusammengestellt.
Angefangen bei den notwendigen Grundlagen, welche das Wirkungsprinzip beim Filesharing erklären, über die verschiedenen Möglichkeiten und Tools, bis hin zu den wichtigen rechtlichen Details für Deutschland. Erfahre mehr:
Wir schreiben das Jahr 1962. Der kalte Krieg tobt und die Legende um die Entstehung des Internet findet ihren Anfang. Das Arpanet wird geboren. Auftraggeber des ersten Vorläufers des heutigen Internet war damals die US-Luftwaffe.
Neben der RSS-Lösung, mit der Webmaster die gulli:News nach Belieben auf ihren Seiten integrieren können, existiert eine einfache universal anpassbare Lösung auf Javascript-Basis. Wer die News auf der eigenen Seite einbinden möchte, muss nun nur noch eine Zeile des automatisch generierten Scripts in den eigenen HTML-Code einfügen.
Schon im Newsletter informierten wir dich über die iPhone-Applikation der gulli:news. Jetzt ist die neueste Version erschienen, alle Verbesserungen basieren auf Vorschlägen der Community. Das App ist kostenlos. Gute Unterhaltung wünschen wir!
Occupy Kiel: Massiver Sachschaden...
Heute, 20:15 in gulli:news