Paperless-ngx ist eine hervorragende Lösung zur Dokumentenverwaltung und -archivierung. Standardmäßig unterstützt Paperless die Texterkennung (OCR) für Bilder und PDFs. Um jedoch Office-Dokumente (wie Word, Excel, PowerPoint) effizient verarbeiten zu können, müssen wir die Installation um zwei zusätzliche Dienste erweitern: Apache Tika und Gotenberg. Diese Dienste ermöglichen die Konvertierung und Extraktion von Text aus Office-Dokumenten.
Die installation von Paperless haben wir in diesem Post durchgeführt.

In diesem Beitrag zeige ich dir, wie du deine bestehende Paperless-Installation auf einem NAS um Office-Support erweitern kannst. Wir beginnen mit den notwendigen Änderungen an der docker-compose.yml
-Datei und führen dich dann durch die vollständige Installation auf einem Synology NAS.
Was ist Gotenberg und Tika?
Gotenberg ist ein Open-Source-Dienst, der Office-Dokumente (z. B. DOCX, XLSX, PPTX) und andere Dateiformate in PDF umwandeln kann. Paperless-ngx nutzt Gotenberg, um solche Dokumente in ein einheitliches Format zu bringen, damit sie leichter verwaltet und durchsucht werden können.
Apache Tika ist ein weiteres Tool, das Paperless-ngx nutzt, um den Inhalt von verschiedenen Dateitypen auszulesen und zu analysieren. Während Gotenberg primär für die Konvertierung zuständig ist, geht Tika noch einen Schritt weiter und extrahiert den reinen Text aus Dokumenten.
Erweiterung der bestehenden Paperless-Installation
Falls du Paperless bereits installiert hast, kannst du die folgenden Schritte ausführen, um Office-Support hinzuzufügen.
1. Erweitere den webserver
-Service
Wechsle in den Containermanager (auf Ugreen Docker) und stoppe das Projekt paperless. Füge die folgenden Environment-Variablen zum webserver
-Service in deiner docker-compose.yml
hinzu:
environment:
PAPERLESS_OCR_LANGUAGE: deu+eng
PAPERLESS_OCR_TESSERACT_MODE: 1
PAPERLESS_TIKA_ENABLED: 1
PAPERLESS_TIKA_GOTENBERG_ENDPOINT: http://gotenberg:3000
PAPERLESS_TIKA_ENDPOINT: http://tika:9998
2. Füge die neuen Dienste tika
und gotenberg
hinzu
Füge die folgenden Dienste am Ende deiner docker-compose.yml
hinzu:
tika:
image: apache/tika:latest
container_name: paperless-tika
restart: always
networks:
- paperless-network
gotenberg:
image: thecodingmachine/gotenberg:7
container_name: paperless-gotenberg
restart: always
networks:
- paperless-network
3. Starte die Dienste neu
Speichere die Datei und starte die Dienste neu. Paperless wird nun Office-Dokumente verarbeiten können.
Vollständige Installationsanleitung auf einem Synology NAS
Falls du Paperless noch nicht installiert hast, findest du hier eine vollständige Anleitung inklusive Office-Support.
1. Vorbereitung
- Stelle sicher, dass der Containermanager bzw. Docker auf deinem NAS installiert ist.
- Erstelle die folgenden Verzeichnisse für die Volumes:
/volume1/docker/paperless/redis
/volume1/docker/paperless/db
/volume1/docker/paperless/data
/volume1/docker/paperless/media
/volume1/docker/paperless/export
/volume1/docker/paperless/consume
2. Erstelle die docker-compose.yml
Erstelle eine neue docker-compose.yml
-Datei mit folgendem Inhalt:
services:
broker:
image: docker.io/library/redis
container_name: paperless-redis
restart: always
user: "1026:100" # Ersetze UID und GID durch deine eigenen
volumes:
- /volume1/docker/paperless/redis:/data
networks:
- paperless-network
db:
image: docker.io/library/postgres:17
container_name: paperless-db
restart: always
environment:
POSTGRES_DB: paperless
POSTGRES_USER: paperless
POSTGRES_PASSWORD: passwort # Ändere dieses Passwort! Nur Buchstaben, keine Sonderzeichen
volumes:
- /volume1/docker/paperless/db:/var/lib/postgresql/data
networks:
- paperless-network
webserver:
image: ghcr.io/paperless-ngx/paperless-ngx:latest
container_name: paperless-web
restart: always
depends_on:
- broker
- db
environment:
PAPERLESS_REDIS: redis://broker:6379
PAPERLESS_DBHOST: db
PAPERLESS_DBNAME: paperless
PAPERLESS_DBUSER: paperless
PAPERLESS_DBPASS: passwort # Passwort muss mit dem PostgreSQL-Passwort übereinstimmen
PAPERLESS_SECRET_KEY: thisisarandomsecretkey # Ändere diesen Wert!
PAPERLESS_URL: http://localhost:8000
PAPERLESS_ALLOWED_HOSTS: "*"
PAPERLESS_ADMIN_USER: admin
PAPERLESS_ADMIN_PASSWORD: passwort # Ändere dieses Passwort!
PAPERLESS_OCR_LANGUAGE: deu+eng
PAPERLESS_OCR_TESSERACT_MODE: 1
PAPERLESS_TIKA_ENABLED: 1
PAPERLESS_TIKA_GOTENBERG_ENDPOINT: http://gotenberg:3000
PAPERLESS_TIKA_ENDPOINT: http://tika:9998
UID: 1026 # Ersetze durch deine eigene UID
GID: 100 # Ersetze durch deine eigene GID
volumes:
- /volume1/docker/paperless/data:/usr/src/paperless/data
- /volume1/docker/paperless/media:/usr/src/paperless/media
- /volume1/docker/paperless/export:/usr/src/paperless/export
- /volume1/docker/paperless/consume:/usr/src/paperless/consume
ports:
- 8111:8000
networks:
- paperless-network
tika:
image: apache/tika:latest
container_name: paperless-tika
restart: always
networks:
- paperless-network
gotenberg:
image: thecodingmachine/gotenberg:7
container_name: paperless-gotenberg
restart: always
networks:
- paperless-network
networks:
paperless-network:
driver: bridge
Falls Du ein Ugreen NAS verwendest ändere hier die UID auf 1000 und GID auf 10 -> unter Broker und unter Webserver
3. Deploye das Projekt im Synology Container Manager
- Öffne den Container Manager auf deinem Synology NAS (Docker auf Ugreen).
- Gehe zu Projekt > Hinzufügen > Neues Projekt erstellen.
- Gib einen Projektnamen ein (z. B.
paperless
). - Wähle als Verzeichnis /docker/paperless/ aus
- Wähle im dropdown-Menü “docker-compose erstellen”.
- Füge den Inhalt der oben aufgeführen docker-compose in das Projekt ein.
- Klicke auf Weiter und dann auf Anwenden.
- Starte das Projekt.
4. Zugriff auf Paperless
Nachdem alle Container gestartet sind, kannst du Paperless über die folgende URL aufrufen:
http://<deine-synology-ip>:8111
Fazit
Mit diesen Schritten hast du Paperless erfolgreich um Office-Support erweitert. Du kannst nun nicht nur Bilder und PDFs, sondern auch Office-Dokumente effizient verwalten. Viel Spaß mit deiner erweiterten Paperless-Installation!
Hallo Modern Maverick,
Toller Beitrag über tika und gotenberg. Mein Komplement. Mich würde brennend interessieren, wie man paperless-ngx aus dem Internet erreichen kann, also über https. Sodass ich in der Lage bin von überall auf paperless zugreifen zu können. Bin halt viel unterwegs
Lg aus der Eifel und vielen Dank für die sehr guten Videos. Bitte weiter so
Auf meinem Youtubekanal findest du zwei Videos die das Thema genauer erklären: In ‘Diskstation von außen erreichbar machen‘ und ‘Synology Reverse Proxy‘ zeige ich Schritt für Schritt, wie du einen Dienst (in dem Fall Vaultwarden) mit SSL-Zertifikat und eigener Domain von außen erreichbar machst. Das Vorgehen ist bei Paperless identisch – nur der Dienst selbst unterscheidet sich. Schau gerne mal rein!
Habe deine Videos zufällig auf YouTube gefunden und war beeindruckt wie du alles so erklärt hast, dass ich als etwas älterer Mensch (73)alles verstehen konnte. Einzig deine schnelle Aussprache hat mich etwas überfordert. Aber dafür gibt es ja den Geschwindigkeitsregler bei YouTube. Sehr gut und zum leichten Verständnis gibt es ja außerdem noch deine(eure?) Webseite. Das mit dem “Synology Reverse Proxy” habe ich als erstes ausprobiert und hat funktioniert. Dann habe ich ein Docker Image installiert, inklusive SSL Zertifikat. Alles hat ohne eine hakelige Stelle auf Anhieb funktioniert. Allerdings hätte ich jetzt doch noch eine Frage: Wie kann ich den Aufruf der Docker-Images mit einem Login absichern? Ist bestimmt auch einfach, wenn man weiß wie es geht. Vielleicht gibt es da von dir eine Lösung. Aber wie auch immer, deine Videos inkl. Webseite sind für mich jedenfalls eine Benotung mit fünf Sternen wert.
Hi Miles,
Tika und Gotenberg hat hervorragend bei Word und Excel funktioniert. Sehr gutes Video, wie immer.
Mich würde tatsächlich noch das einbinden von Mails, d.h. eml. Dateien konvertieren in pdf um dann weiter verarbeiten mit paperless interessieren. Vielleicht hast du du noch einen Tip für die Erweiterung der Docker Compose yml Datei. Lg aus der Eifel