Nachdem ich auf meinem Homeserver, ein Beelink Mini S, Proxmox VE installiert habe, war die Einrichtung von Paperless NGX ein Kinderspiel. Man kann entweder ein Proxmox Helper Skript für die Installation in einem LXC Container verwenden, oder man lässt Paperless NGX, so wie ich, als Docker Container laufen. Mit Portainer ist die Einrichtung sehr einfach (Docker Compose Skript als Stack hinterlegen). Mit Deploy wird Paperless auch gleich ausgeführt.
In diesem Post soll es darum gehen, wie sich der Import von gescannten Dokumenten in Paperless NGX noch effizienter gestalten lässt. Ich habe bei mir noch ein Brother Multifunktionsgerät mit der Bezeichnung DCP-J315W stehen. Der dort eingebaute Flachbettscanner verfügt über Hardwaretasten, mit denen sich Scanvorgänge starten lassen, ohne am PC zu sein. Eigentlich waren die Buttons für die Brother Software gedacht, die mittlerweile zumindest für Windows veraltet ist. Interessant ist jedoch, dass Brother auch Linux Treiber für das Gerät inkl. Hardware Button Steuerung anbietet. Hiermit kann man beliebige Skripte für die Buttons hinterlegen. Somit habe ich es geschafft, dass ich Eingangspost direkt von meinem Homeserver scannen lassen kann, OCR auszuführen und danach in das Eingangsverzeichnis von Paperless zu legen, damit die Datei sofort verarbeitet wird. Paperless NGX führt bei der Verarbeitung der Dateien normalerweise auch OCR durch. Dies hat jedoch den Nachteil, dass in Paperless dann zwei Dateien gespeichert werden (das Original und die OCR-Datei). Das kostet unnötig Speicherplatz und der Export von Dateien mündet auch in Dopplungen. Somit empfehle ich Euch OCR immer außerhalb von Paperless durchzuführen. Damit Paperless kein erneutes OCR durchführt wenn bereits ein OCR Layer vorhanden ist, müssst Ihr „PAPERLESS_OCR_MODE: skip_noarchive“ als Environment Variable setzen.
Ich scanne meine Dokumente mit 250 PPI in Graustaufen. Das reicht um alles lesen zu können. Die Dateigröße ist mit rund 56 KB für eine Seite (normaler Brief) sehr klein.
Das ganze funktioniert folgendermaßen:
- Gem. folgender Anleitung die Brother Linux Treiber und das Scankey-Tool plus sane-utils installieren.
- Wenn der Scanner über die Kommandozeile ansprechbar ist, sind im Verzeichnis „/opt/brother/scanner/brscan-skey/script“ die Skripte für die einzelnen Hardware Tasten anzulegen. Die Namen der Dateien spielen keine Rolle. Per Config-Datei findet später die Zuordnung zu den Hardware Tasten statt. Die Skripte verwenden einige Tools wie „ocrmypdf“ und „tiff2pdf“. Stellt sicher, dass die Programme installiert sind.
- Das Skript, um nur eine Seite zu scannen findet findet Ihr hier: https://technikauswahl.de/Download/brscan_skey_single_page.txt
- Das Skript, um zunächst mehrere Seiten zu scannen ist in zwei Dateien aufgeteilt
- Mehrere Seiten scannen und temporär sammeln: https://technikauswahl.de/Download/brscan_skey_multi_page.txt
- Aus den gesammelten Dateien eine PDF-Datei erstellen: https://technikauswahl.de/Download/brscan_skey_multi_page_save.txt
- Letzlich muss in der Datei unter „/opt/brother/scanner/brscan-skey/brscan-skey.config“ angegeben werden, welches Skript für welche Taste vorgesehen ist.
- Damit das ganze funktioniert, muss das brscan-key Tool ausgeführt werden. Ich empfehle dies beim Booten über einen Crontab Eintrag zu erledigen: „@reboot /opt/brother/scanner/brscan-skey/brscan-skey“. Das Tool sollte nicht mit dem root User ausgeführt werden!
Ist der Scanner entsprechend konfiguriert, kann über den Brother Scanner sofort alles eingescannt werden ohne den PC starten zu müssen. Das macht es viel einfacher, sämtliche Post sofort zu scannen. So geht auch nicht verloren. Hier nochmal meine Empfehlung für den Beelink Mini S als bessere und vor allem viel schnellere (z.B. OCR Aufbereitung) Alternative für einen Raspberry Pi.
Schöner Artikel, muss ich mich mal mit meinem Brother auseinander setzen.
Wir haben einen ähnlichen, älteren Brother-Scanner im Einsatz. Dass die Tasten und Linux nutzbar sind, war mir nicht bekannt. Ich habe daher einen etwas krummen Workflow aufgebaut, der trotzdem gut läuft:
– Unter Proxmox läuft ein komplettes Windows 11 in einer VM
– Der Scanner ist über USB direkt an den Server angeschlossen, Proxmox reicht den Port (wichtig: Nicht das Gerät, denn das lief nicht zuverlässig) direkt an Windows durch
– Windows hat die ganz normale Brother-Software installiert und lauscht auf Knopfdrücke
– Der consume-Ordner von paperless-ngx ist über Samba im Netzwerk freigegeben und in Windows als Netzwerklaufwerk eingebunden
– Die Brother-Software ist so konfiguriert, dass sie scans direkt auf dem Netzwerklaufwerk in den consume-Ordner speichert
Das läuft zuverlässig, solange nichts unerwartetes passiert. Fehlermeldungen werden leider im (virtuellen) Windows angezeigt und müssen mit der Maus quittiert werden. Das bedingt einen Login über die Promox-Bildschirmkonsole.