Hur du skapar din egen privata självvärda läsning-senare-app
Annons
Internet är en enorm skattkälla av kunskap. Men det är flyktigt och det finns inga garantier för att det innehåll du gillar kommer att finnas där i framtiden. Om du inte har råd att förlora innehållet kan du använda ett webbarkiveringsverktyg för att lagra en kopia av webbsidan.
Många använder läsningstjänster för att spara webbartiklar. Dessa appar fungerar bäst med textbaserat innehåll och hanterar inte komplicerade webbsidesdesign eller media korrekt. Vill du ha mer kontroll?
Låt oss se hur du kan skapa en klon av Instapaper eller Pocket i din dator utan att förlora någon webbsidans tillgång.
Vi presenterar ArchiveBox
ArchiveBox är en Open Source-lösning som kan hjälpa dig att vara värd för ditt eget alternativ till en arkiveringstjänst som Wayback Machine. Du lämnar inte upp din integritet eller förblir inlåst i en tjänst som du inte kan kontrollera.
Den tar listan över URL: er som du vill arkivera och skapar en lokal, surfbar HTML-klon av innehållet i flera format. Det inkluderar lokala kopior i HTML, en skärmdump av sidan, en PDF-fil och WARC (Web ARChive).
Dessa kopior finns kvar även om den ursprungliga webbsidan försvinner i framtiden.
ArchiveBox är skriven i Python 3. Den använder också beroenden som Wget, Headless Chrome, Youtube-dl och andra Unix-verktyg för att spara webbsidan. Du behöver inte en ständigt kör backend-server. Kör det bara varje gång du vill importera nya länkar och uppdatera den statiska utgången.
När arkiveringen är klar kan du öppna den genererade output / index.html i din webbläsare för att se arkivet.
Fördelar med ArchiveBox
- Den arkiverar länkarna i flera filformat som fungerar som säkerhetskopior.
- Den försöker behålla den ursprungliga webbsidan med hjälp av sofistikerade infångningsmetoder.
- Har förmågan att automatiskt extrahera innehållet och spara det i en enda mapp.
- Det ger också ett enkelt kommandoradgränssnitt för att hantera flera länkar, flöden och bokmärken. Du måste ställa in den en gång och köra den enligt ett schema för att arkivera nyare länkar.
Nackdelar med ArchiveBox
- ArchiveBox extraherar alla tillgångar från webbsidan. Det förbrukar betydande diskutrymme och är CPU-intensiv.
- Appen kräver tre eller fler beroenden utöver Python 3.5. Det krävs test-och-fel för att få dessa komponenter att fungera tillsammans.
- Appen stöder inte Windows OS helt. Du måste installera Docker eller aktivera Windows Subsystem för Linux (WSL) Hur man kör ett Linux-skrivbord med Windows-subsystemet för Linux Hur man kör ett Linux-skrivbord med hjälp av Windows-subsystemet för Linux Vill du köra Linux på din Windows-dator? Så här kör du ett Linux-skrivbord i Windows med Windows Subsystem för Linux. Läs mer . Även då fungerar eller kanske vissa funktioner inte.
Operativsystem som stöds
ArchiveBox stöder officiellt följande operativsystem:
- macOS: 10.12 Sierra med Homebrew.
- Linux: Ubuntu, Debian (med APT). Appen kanske (eller kanske inte) fungerar i distros som Fedora, CentOS, SUSE, Arch och mer.
- BSD: FreeBSD, OpenBSD, NetBSD (med pkg).
beroenden
ArchiveBox är ett flexibelt webbarkiveringsverktyg. Du måste installera följande beroenden och uppfylla minimikraven.
- Python 3. Använd inte standard Python 2.0 som levereras med macOS.
- Wget 1.16
- Chromium 59. Om du redan använder Google Chrome, installera inte Chromium.
- Youtube-dl (Valfritt): Medieresurser behöver mycket lagringsutrymme. Tänk på det innan du arkiverar dina bokmärken.
Ställ in ArchiveBox
Det finns två sätt att ställa in ArchiveBox - Automatisk och manuell .
I den automatiska metoden kommer ett hjälpskript att installera appen och deras beroenden. Men du kan inte felsöka problemet om något fel uppstår. Det är bättre att installera appen manuellt.
För demonstrationsändamål använder vi macOS 10.14.6.
Installera beroenden
Det bästa sättet att installera beroenden är genom en pakethanterare som heter Homebrew. För att förstå grunderna, kolla in den här artikeln om hur du installerar Mac-appar med Homebrew.
Öppna terminal och skriv in
brew install python3 git wget curl youtube-dl
brew cask install chromium
(Hoppa över detta om du redan har Google Chrome / Chromium installerat i applikationer)
Kontrollera versionens antal beroende
Skriv in om du vill kontrollera versionens antal för alla beroenden
dependency app --version
(Byt ut beroende-appen med python3, wget, youtube-dl och mer)
Ladda ner dina bokmärken exportera filen
Alla läs-senare tjänster och webbläsare kan exportera dina bokmärken som en HTML-fil. Följ instruktionerna i den här artikeln om hur du exporterar bokmärken från din webbläsare Hur man migrerar bokmärken mellan Chrome, Firefox och / eller Edge Hur man migrerar bokmärken mellan Chrome, Firefox och / eller Edge Vill du överföra dina bokmärken till en ny webbläsare eller säkerhetskopiera dem för förvaring? Så här gör du i Chrome, Firefox och Edge. Läs mer . Du kan också spara en enda länk eller listan med webbadresser i en textfil.
Installera ArchiveBox
Klona repo från GitHub. Öppna terminal och skriv in
git clone https://github.com/pirate/ArchiveBox
Sedan,
cd ArchiveBox/
När du klonar denna repo skapar installationsprogrammet en ArchiveBox-mapp i din hemkatalog. Den här mappen innehåller alla huvudprogram och konfigurationsfiler.
Lägg till din URL i arkivet
Om du vill arkivera en enda länk skriver du in
echo 'https://example.com'| ./archive
Navigera till din ArchiveBox-mapp för att se den nyskapade utmatningsmappen . Här ser du en index.html-fil.
Lägga till flera länkar till arkivet
När du vill spara flera länkar (dussintals eller fler) är det bättre att lägga till dina länkar i en textfil. Appen kommer att analysera URL: erna i filen och arkivera dem. Öppna terminal och skriv in
./archive [Path to Your File.txt]
Om din fil finns i mappen Nedladdningar ser din sökväg ut
./archive /Users/(Home directory name)/Downloads/links.txt
Vänta några minuter / timmar för att slutföra processen. Öppna ditt arkiv genom att öppna output / index.html i din webbläsare. Du kan sortera efter kolumn, söka titel med rutan i det övre högra avsnittet och se det totala antalet länkar längst ner.
Klicka på favikonet under kolumnen Filer för att besöka detaljsidan. Du hittar länkar till enskilt filformat som visas på skärmdumpen. Samma länk laddas också upp till archive.org.
På samma sätt exportera dina Instapaper- eller Pocket-länkar som en HTML-fil. Skriv sedan in
./archive ~/Downloads/instapaper-export.html
Du kan också importera en lista med länkar från flödesadressen. Men kom ihåg att du kan stöta på för många misslyckanden eller timeouts. Om det finns tusentals webbadresser är det bättre att dela upp dem i mindre filer för att öka framgångsgraden.
Konfigurera ArchiveBox
Standardinställningarna fungerar i de flesta fall, men det finns vissa viktiga parametrar som du kan justera för att få fler funktioner. Konfigurationsfilen lever i
~/ArchiveBox/etc/ArchiveBox.conf.default
Obs! Ändra inte den här filen eftersom de kommer att raderas när du uppdaterar appen. Om du vill skapa en ihållande konfigurationsfil skriver du in
cp ~/ArchiveBox/etc/ArchiveBox.conf.default ~/.ArchiveBox.conf
Cp- kommandot skapar en duplikatkopia av konfigurationsfilen i din hemkatalog. Som standard är filen inte synlig i din katalog. Tryck på Cmd + Shift + Period för att avslöja. Öppna konfigurationsfilen i TextEdit.
parametrar
ArchiveBox erbjuder många alternativ. Här är några viktiga;
- ONLY_NEW : Ställ in detta till True för att ladda ner arkivet för nyligen tillagda länkar. Passar bra om du regelbundet bokmärker länkar.
- TIMEOUT : Möjliga värden är 60 eller 120 sekunder. Om du ser ofta timeout-fel ökar det till 120 sekunder.
- URL_BLACKLIST : Du kan använda regex-uttryck för att utesluta vissa domäner, tillägg eller URL-mönster från arkivet.
- FETCH_MEDIA : Hämta alla ljud- och videofiler med youtube-dl. Ställ in detta på True endast när du har tillräckligt med lagringsutrymme.
- WGET_USER_AGENT : Använd den för att ändra användaragenten under arkivering. Om du blockeras av vissa servrar kommer det här alternativet att vara användbart.
För mer information om konfigurationsdetaljer, besök ArchiveBox-konfigurationen för mer information.
Publicera ditt arkiv
Arkivet som produceras av ArchiveBox är kompatibelt med alla leverantörer som kan vara värd för statisk HTML. Till exempel GitHub-sidor.
Du kan också betjäna den från en hemserver eller VPS genom att direkt ladda upp utmatningsmappen till din webbkatalog.
Se till att du inte kör något innehåll som CGI eller PHP, att du bara är värd för statiska HTML-filer.
Att vara värd för ditt arkiv har både för- och nackdelar. När du laddar ner länkar från slumpmässiga webbplatser måste du förstå farorna med att vara värd för skadliga CSS- och JS-filer i din delade domän. Du kanske också vill svartlista dina arkiv i robots.txt-filen för att förbli privat.
Ladda ner hela webbplatser offline
Webbarkivering har väckt uppmärksamhet under de senaste åren. De registrerar hela innehållet på en webbsida, inklusive käll-HTML, inbäddade bilder, formatmallar och JavaScript-kod. ArchiveBox passar rätt in i den breda kategorin webbverktygsverktyg och tjänster.
Om du är frustrerad över Instapaper eller Pocket är ArchiveBox ett utmärkt alternativ. Förutom webbartiklar, kanske du vill arkivera hela webbplatser för att komma åt dem offline eller för att bevara deras kunskap. Om detta intresserar dig, läs det här stycket om hur du laddar ner en webbplats för offlineläsning. Hur man laddar ner en hel webbplats för offlineläsning Hur man laddar ner en hel webbplats för offlineläsning Så här kan du ladda ner hela webbplatser för offlineläsning så att du har tillgång till när du inte har Wi-Fi eller 4G. Läs mer .
Utforska mer om: Instapaper, Online-bokmärken, Open Source, Pocket, Internetarkivet.