想法主要是來自 Feedly 這個網站,feed 是被餵食的概念,但他沒辦法追蹤到所有想追的網站,於是開始寫了這個 Side project,希望這專案能讓自己更留意平時被餵食的資訊,並利用串接 LineBot 後即時獲得重要資訊
可以瀏覽六大類型 (Google Official Blog、GTM Blog、SEO Blog、Google Analytics、FB Blog、E-Shop) 的文章內容,有各自的 RSS 訂閱,和 LineBot 即時更新通知群組
後台
可以確認目前爬蟲健康狀態,在網頁上新增爬蟲任務、修改目前爬蟲設定的 CSS 節點、刪除不需要的爬蟲任務,和 Restart 單隻爬蟲或多隻爬蟲
- 新增 - 爬蟲的控制模組完成
- 新增 - 資料庫串接
- 新增 Home Page - 文章列表
- 新增 Admin Page - 目前爬蟲狀態
- 新增 All Page - Menu Bar
- 新增 All Page - Login Page
- 新增 Admin Page - 新增爬蟲
- 新增 Admin Page - 修改爬蟲
- 新增 Admin Page - 刪除爬蟲
- 新增 Admin Page - Restart
- 新增 Admin Page - Read Only 的 Admin page
- 新增 - GCE 部署 (CentOS7 + Apache + Flask)
- 新增 - Hostname 處理
- 新增 - Crontab 爬蟲定時處理
- 新增:有新文章更新時 Line bot 通知(使用 RSS + ifttt )
- 調整:爬蟲時間錯亂 (修改主機時區和 CloudSQL 時區)
- 調整:文章列表頁(/),新增 “文章是幾天/分鐘前更新” 的欄位
- 調整:爬蟲狀態頁(/status),新增 “爬蟲是幾天/分鐘前更新” 的欄位
- 新增:新增爬蟲爬取網站*7
- 新增:Category 共四大類 (GoogleBlog, GTM, GA, SEO) 動態網頁
- 新增:Category 的 RSS 網址
- 調整:重構 Flask 架構,修改成使用工廠模式
- 調整:選擇深色模式,切換 Category 頁面後深色模式會跳回淺色模式 (用 cookie 存判斷值來解決)
- 調整:爬蟲爬到資訊會有 html 元素 - 使用正規處理
- 調整:手機版字體會擋到 - 調整手機版型
- 完成: Docker compose (Flask + Nginx) 部署在 GCP 上
- 完成: CDN Cloudflare 和 SSL Certificate 設定
- 完成: 定時爬蟲 Cron Job 設定
- 完成: Line Bot 串接 RSS 的 category 群組
- 調整: 選擇深色模式後,轉換頁面時,會先閃白色在轉成深色模式
- 調整: 處理爬蟲如果單一噴錯的話,會直接 drop 所有資訊
感謝 Huli 的每週固定時間討論專案和指導須改進的地方,以及前端引路人計劃