========== bg.crawler ========== bg.crawler ermöglicht die Indexierung von Dateien und Dateibäumen im Dateisystem durch Solr. `bg.crawler`_ erlaubt auf der Komandozeile (Command line interface, CLI), einzelne Dateien oder Dateibäume von Solr indizieren zu lassen. .. _`bg.crawler`: http://pypi.python.org/pypi/bg.crawler Voraussetzungen =============== - Python 2.6 oder 2.7 - `curl`_ .. _`curl`: http://curl.haxx.se/ Installation ============ In einer ``virtualenv``-Umgebung lässt sich ``bg.crawler`` einfach installieren mit:: $ easy_install bg.crawler Optionen ======== Innerhalb dieser virtuellen Umgebung lässt sich ``bg.crawler`` einfach aufrufen mit:: $ ./bin/solr-crawler --help Folgende Parameter stehen Ihnen zur Verfügung: ``--solr-url`` definiert die URL des Solr-Servers. ``--render-base-url`` Basis-URL, die den ersten Teil von Solrs ``renderurl`` bildet. ``--max-depth`` begrenzt die Tiefe der Ordnerhierarchie bis zu der Dateien indiziert werden sollen. ``--commit-after`` Die Anzahl der Dokumente, die mit einem *commit* an Solr übergeben werden. ``--tag`` Die importierten Dokumente werden mit einer bestimmten Zeichenkette getagt. So lassen sich unterschiedliche Datenquellen auch bei einer späteren Suchanfrage in Solr noch durch unterschiedliche Tags unterscheiden. ``--clear-all`` leert den Solr-Index vollständig bevor die Daten neu importiert werden. ``--clear-tag`` entfernt alle Dokumente aus dem Solr-Index, die einen bestimmten Tag enthalten, bevor die Daten neu importiert werden. ``--verbose`` ermöglicht ein besseres Logging. ``--no-type-check`` Falls diese Option gewählt wird, wird nicht nach bestimmten Dateitypen gefiltert. Weitere Informationen zu ``bg.crawler`` erhalten sie unter `bg.crawler documentation`_. .. _`bg.crawler documentation`: http://packages.python.org/bg.crawler/