From 61f3b2f820f4687837e10fa9b067782807d49a4c Mon Sep 17 00:00:00 2001
From: blankie <blankie@nixnetmail.com>
Date: Tue, 9 Jan 2024 01:29:47 +1100
Subject: [PATCH 1/5] [hatenablog] add support

---
 docs/supportedsites.md             |   6 ++
 gallery_dl/extractor/__init__.py   |   1 +
 gallery_dl/extractor/hatenablog.py | 167 +++++++++++++++++++++++++++++
 scripts/supportedsites.py          |   7 +-
 test/results/hatenablog.py         | 144 +++++++++++++++++++++++++
 5 files changed, 324 insertions(+), 1 deletion(-)
 create mode 100644 gallery_dl/extractor/hatenablog.py
 create mode 100644 test/results/hatenablog.py
diff --git a/docs/supportedsites.md b/docs/supportedsites.md
index d046aad4b5..188d829498 100644
--- a/docs/supportedsites.md
+++ b/docs/supportedsites.md
@@ -259,6 +259,12 @@ Consider all listed sites to potentially be NSFW.
     <td>Folders</td>
     <td></td>
 </tr>
+<tr>
+    <td>HatenaBlog</td>
+    <td>https://hatenablog.com</td>
+    <td>Archive, Individual Posts, Home Feed, Search Results</td>
+    <td></td>
+</tr>
 <tr>
     <td>HBrowse</td>
     <td>https://www.hbrowse.com/</td>
diff --git a/gallery_dl/extractor/__init__.py b/gallery_dl/extractor/__init__.py
index 9e33f2c3c2..26ce209373 100644
--- a/gallery_dl/extractor/__init__.py
+++ b/gallery_dl/extractor/__init__.py
@@ -53,6 +53,7 @@
     "gelbooru_v01",
     "gelbooru_v02",
     "gofile",
+    "hatenablog",
     "hbrowse",
     "hentai2read",
     "hentaicosplays",
diff --git a/gallery_dl/extractor/hatenablog.py b/gallery_dl/extractor/hatenablog.py
new file mode 100644
index 0000000000..59e2f94e27
--- /dev/null
+++ b/gallery_dl/extractor/hatenablog.py
@@ -0,0 +1,167 @@
+# -*- coding: utf-8 -*-
+
+# This program is free software; you can redistribute it and/or modify
+# it under the terms of the GNU General Public License version 2 as
+# published by the Free Software Foundation.
+
+"""Extractors for https://hatenablog.com"""
+
+import re
+from .common import Extractor, Message
+from .. import text
+
+
+BASE_PATTERN = (
+    r"(?:hatenablog:https?://([^/]+)|(?:https?://)?"
+    r"([\w-]+\.(?:hatenablog\.com|hatenablog\.jp"
+    r"|hatenadiary\.com|hateblo\.jp)))"
+)
+QUERY_RE = r"(?:\?([^#]*))?(?:#.*)?$"
+
+
+class HatenaBlogExtractor(Extractor):
+    """Base class for HatenaBlog extractors"""
+    category = "hatenablog"
+    directory_fmt = ("{category}", "{domain}")
+    filename_fmt = "{category}_{domain}_{entry}_{num:>02}.{extension}"
+    archive_fmt = "{filename}"
+
+    def __init__(self, match):
+        Extractor.__init__(self, match)
+
+        self.domain = match.group(1) or match.group(2)
+        self._find_img = re.compile(r'<img +(.+?) */?>').finditer
+        self._is_image = re.compile(
+            r'(?: |^)class="hatena-fotolife"(?: |$)').search
+        self._find_img_src = re.compile(r'(?: |^)src="(.+?)"(?: |$)').search
+
+    def _handle_article(self, article: str):
+        extr = text.extract_from(article)
+        date = text.parse_datetime(extr('<time datetime="', '"'))
+        entry_link = text.unescape(extr(
+            '<a href="', '" class="entry-title-link bookmark">'))
+        entry = entry_link.partition("/entry/")[2]
+        title = extr('', '</a>')
+        content = extr(
+            '<div class="entry-content hatenablog-entry">', '</div>')
+
+        images = []
+        for i in self._find_img(content):
+            attributes = i.group(1)
+            if not self._is_image(attributes):
+                continue
+            image = text.unescape(self._find_img_src(attributes).group(1))
+            images.append(image)
+
+        data = {
+            "domain": self.domain,
+            "date": date,
+            "entry": entry,
+            "title": title,
+            "count": len(images),
+        }
+        yield Message.Directory, data
+        for data["num"], url in enumerate(images, 1):
+            yield Message.Url, url, text.nameext_from_url(url, data)
+
+
+class HatenaBlogEntriesExtractor(HatenaBlogExtractor):
+    """Base class for a list of entries"""
+    allowed_parameters = ()
+
+    def __init__(self, match):
+        HatenaBlogExtractor.__init__(self, match)
+        self.path = match.group(3)
+        self.query = {key: value for key, value in text.parse_query(
+            match.group(4)).items() if self._acceptable_query(key)}
+        self._find_pager_url = re.compile(
+            r'<span class="pager-next">\s*<a href="(.+?)"').search
+
+    def items(self):
+        url = "https://" + self.domain + self.path
+        query = self.query
+
+        while url:
+            page = self.request(url, params=query).text
+
+            extr = text.extract_from(page)
+            attributes = extr('<body ', '>')
+            if "page-archive" in attributes:
+                yield from self._handle_partial_articles(extr)
+            else:
+                yield from self._handle_full_articles(extr)
+
+            match = self._find_pager_url(page)
+            url = text.unescape(match.group(1)) if match else None
+            query = None
+
+    def _handle_partial_articles(self, extr):
+        while True:
+            section = extr('<section class="archive-entry', '</section>')
+            if not section:
+                break
+
+            url = "hatenablog:" + text.unescape(text.extr(section,
+                '<a class="entry-title-link" href="', '"'))
+            data = {"_extractor": HatenaBlogEntryExtractor}
+            yield Message.Queue, url, data
+
+    def _handle_full_articles(self, extr):
+        while True:
+            attributes = extr('<article ', '>')
+            if not attributes:
+                break
+            if "no-entry" in attributes:
+                continue
+
+            article = extr('', '</article>')
+            yield from self._handle_article(article)
+
+    def _acceptable_query(self, key: str) -> bool:
+        return key == "page" or key in self.allowed_parameters
+
+
+class HatenaBlogEntryExtractor(HatenaBlogExtractor):
+    """Extractor for a single entry URL"""
+    subcategory = "entry"
+    pattern = BASE_PATTERN + r"/entry/([^?#]+)" + QUERY_RE
+    example = "https://BLOG.hatenablog.com/entry/PATH"
+
+    def __init__(self, match):
+        HatenaBlogExtractor.__init__(self, match)
+        self.path = match.group(3)
+
+    def items(self):
+        url = "https://" + self.domain + "/entry/" + self.path
+        page = self.request(url).text
+
+        extr = text.extract_from(page)
+        while True:
+            attributes = extr('<article ', '>')
+            if "no-entry" in attributes:
+                continue
+            article = extr('', '</article>')
+            return self._handle_article(article)
+
+
+class HatenaBlogHomeExtractor(HatenaBlogEntriesExtractor):
+    """Extractor for a blog's home page"""
+    subcategory = "home"
+    pattern = BASE_PATTERN + r"(/?)" + QUERY_RE
+    example = "https://BLOG.hatenablog.com"
+
+
+class HatenaBlogArchiveExtractor(HatenaBlogEntriesExtractor):
+    """Extractor for a blog's archive page"""
+    subcategory = "archive"
+    pattern = BASE_PATTERN + r"(/archive(?:/\d+(?:/\d+(?:/\d+)?)?" + \
+        r"|/category/[^?#]+)?)" + QUERY_RE
+    example = "https://BLOG.hatenablog.com/archive/2024"
+
+
+class HatenaBlogSearchExtractor(HatenaBlogEntriesExtractor):
+    """Extractor for a blog's search results"""
+    subcategory = "search"
+    pattern = BASE_PATTERN + r"(/search)" + QUERY_RE
+    example = "https://BLOG.hatenablog.com/search?q=QUERY"
+    allowed_parameters = ("q",)
diff --git a/scripts/supportedsites.py b/scripts/supportedsites.py
index 798a6830d4..d29001c76a 100755
--- a/scripts/supportedsites.py
+++ b/scripts/supportedsites.py
@@ -50,6 +50,7 @@
     "fanbox"         : "pixivFANBOX",
     "fashionnova"    : "Fashion Nova",
     "furaffinity"    : "Fur Affinity",
+    "hatenablog"     : "HatenaBlog",
     "hbrowse"        : "HBrowse",
     "hentai2read"    : "Hentai2Read",
     "hentaicosplays" : "Hentai Cosplay",
@@ -102,7 +103,6 @@
     "pornimagesxxx"  : "Porn Image",
     "pornpics"       : "PornPics.com",
     "pornreactor"    : "PornReactor",
-    "postmill"       : "Postmill",
     "readcomiconline": "Read Comic Online",
     "rbt"            : "RebeccaBlackTech",
     "redgifs"        : "RedGIFs",
@@ -189,6 +189,11 @@
     "fapello": {
         "path": "Videos, Trending Posts, Popular Videos, Top Models",
     },
+    "hatenablog": {
+        "archive": "Archive",
+        "entry"  : "Individual Posts",
+        "home"   : "Home Feed",
+    },
     "hentaifoundry": {
         "story": "",
     },
diff --git a/test/results/hatenablog.py b/test/results/hatenablog.py
new file mode 100644
index 0000000000..8ca7876fb7
--- /dev/null
+++ b/test/results/hatenablog.py
@@ -0,0 +1,144 @@
+# -*- coding: utf-8 -*-
+
+# This program is free software; you can redistribute it and/or modify
+# it under the terms of the GNU General Public License version 2 as
+# published by the Free Software Foundation.
+
+from gallery_dl.extractor import hatenablog
+
+
+__tests__ = (
+{
+    "#url"     : "https://cosmiclatte.hatenablog.com/entry/2020/05/28/003227",
+    "#category": ("", "hatenablog", "entry"),
+    "#class"   : hatenablog.HatenaBlogEntryExtractor,
+    "#count"   : 20,
+},
+
+{
+    "#url"     : "https://moko0908.hatenablog.jp/entry/2023/12/31/083846",
+    "#category": ("", "hatenablog", "entry"),
+    "#class"   : hatenablog.HatenaBlogEntryExtractor,
+},
+
+{
+    "#url"     : "https://p-shirokuma.hatenadiary.com/entry/20231227/1703685600",
+    "#category": ("", "hatenablog", "entry"),
+    "#class"   : hatenablog.HatenaBlogEntryExtractor,
+},
+
+{
+    "#url"     : "https://urakatahero.hateblo.jp/entry/2ndlife",
+    "#category": ("", "hatenablog", "entry"),
+    "#class"   : hatenablog.HatenaBlogEntryExtractor,
+},
+
+{
+    "#url"     : "hatenablog:https://blog.hyouhon.com/entry/2023/12/22/133549",
+    "#category": ("", "hatenablog", "entry"),
+    "#class"   : hatenablog.HatenaBlogEntryExtractor,
+},
+
+{
+    "#url"     : "https://cetriolo.hatenablog.com",
+    "#category": ("", "hatenablog", "home"),
+    "#class"   : hatenablog.HatenaBlogHomeExtractor,
+    "#range"   : "1-7",
+    "#count"   : 7,
+},
+
+{
+    "#url"     : "https://moko0908.hatenablog.jp/",
+    "#category": ("", "hatenablog", "home"),
+    "#class"   : hatenablog.HatenaBlogHomeExtractor,
+},
+
+{
+    "#url"     : "https://p-shirokuma.hatenadiary.com/",
+    "#category": ("", "hatenablog", "home"),
+    "#class"   : hatenablog.HatenaBlogHomeExtractor,
+},
+
+{
+    "#url"     : "https://urakatahero.hateblo.jp/",
+    "#category": ("", "hatenablog", "home"),
+    "#class"   : hatenablog.HatenaBlogHomeExtractor,
+},
+
+{
+    "#url"     : "hatenablog:https://blog.hyouhon.com/",
+    "#category": ("", "hatenablog", "home"),
+    "#class"   : hatenablog.HatenaBlogHomeExtractor,
+},
+
+{
+    "#url"     : ("https://8saki.hatenablog.com/archive/category/%E3%82%BB%E3"
+                  "%83%AB%E3%83%95%E3%82%B8%E3%82%A7%E3%83%AB%E3%83%8D%E3%82"
+                  "%A4%E3%83%AB"),
+    "#category": ("", "hatenablog", "archive"),
+    "#class"   : hatenablog.HatenaBlogArchiveExtractor,
+    "#range"   : "1-30",
+    "#count"   : 30,
+},
+
+{
+    "#url"     : "https://moko0908.hatenablog.jp/archive/2023",
+    "#category": ("", "hatenablog", "archive"),
+    "#class"   : hatenablog.HatenaBlogArchiveExtractor,
+    "#count"   : 13,
+},
+
+{
+    "#url"     : "https://p-shirokuma.hatenadiary.com/archive/2023/01",
+    "#category": ("", "hatenablog", "archive"),
+    "#class"   : hatenablog.HatenaBlogArchiveExtractor,
+    "#count"   : 5,
+},
+
+{
+    "#url"     : "https://urakatahero.hateblo.jp/archive",
+    "#category": ("", "hatenablog", "archive"),
+    "#class"   : hatenablog.HatenaBlogArchiveExtractor,
+    "#range"   : "1-30",
+    "#count"   : 30,
+},
+
+{
+    "#url"     : "hatenablog:https://blog.hyouhon.com/archive/2024/01/01",
+    "#category": ("", "hatenablog", "archive"),
+    "#class"   : hatenablog.HatenaBlogArchiveExtractor,
+},
+
+{
+    "#url"     : "hatenablog:https://blog.hyouhon.com/search?q=a",
+    "#category": ("", "hatenablog", "search"),
+    "#class"   : hatenablog.HatenaBlogSearchExtractor,
+    "#range"   : "1-30",
+    "#count"   : 30,
+},
+
+{
+    "#url"     : "https://cosmiclatte.hatenablog.com/search?q=a",
+    "#category": ("", "hatenablog", "search"),
+    "#class"   : hatenablog.HatenaBlogSearchExtractor,
+},
+
+{
+    "#url"     : "https://moko0908.hatenablog.jp/search?q=a",
+    "#category": ("", "hatenablog", "search"),
+    "#class"   : hatenablog.HatenaBlogSearchExtractor,
+},
+
+{
+    "#url"     : "https://p-shirokuma.hatenadiary.com/search?q=a",
+    "#category": ("", "hatenablog", "search"),
+    "#class"   : hatenablog.HatenaBlogSearchExtractor,
+},
+
+{
+    "#url"     : "https://urakatahero.hateblo.jp/search?q=a",
+    "#category": ("", "hatenablog", "search"),
+    "#class"   : hatenablog.HatenaBlogSearchExtractor,
+},
+
+)

From be6949c55d994d4a62d783d20c3a9d92bc81a53a Mon Sep 17 00:00:00 2001
From: blankie <blankie@nixnetmail.com>
Date: Tue, 9 Jan 2024 01:36:52 +1100
Subject: [PATCH 2/5] [hatenablog] fix linting error

---
 gallery_dl/extractor/hatenablog.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/gallery_dl/extractor/hatenablog.py b/gallery_dl/extractor/hatenablog.py
index 59e2f94e27..322f2ca5f4 100644
--- a/gallery_dl/extractor/hatenablog.py
+++ b/gallery_dl/extractor/hatenablog.py
@@ -101,8 +101,8 @@ def _handle_partial_articles(self, extr):
             if not section:
                 break
 
-            url = "hatenablog:" + text.unescape(text.extr(section,
-                '<a class="entry-title-link" href="', '"'))
+            url = "hatenablog:" + text.unescape(text.extr(
+                section, '<a class="entry-title-link" href="', '"'))
             data = {"_extractor": HatenaBlogEntryExtractor}
             yield Message.Queue, url, data
 

From 2cfe788f936a532784e66e7906dfb54c7c678e1f Mon Sep 17 00:00:00 2001
From: blankie <blankie@nixnetmail.com>
Date: Tue, 9 Jan 2024 01:42:57 +1100
Subject: [PATCH 3/5] [hatenablog] fix extractor naming errors

---
 gallery_dl/extractor/hatenablog.py | 18 +++++++-------
 test/results/hatenablog.py         | 40 +++++++++++++++---------------
 2 files changed, 29 insertions(+), 29 deletions(-)

diff --git a/gallery_dl/extractor/hatenablog.py b/gallery_dl/extractor/hatenablog.py
index 322f2ca5f4..dd1e45a5de 100644
--- a/gallery_dl/extractor/hatenablog.py
+++ b/gallery_dl/extractor/hatenablog.py
@@ -19,7 +19,7 @@
 QUERY_RE = r"(?:\?([^#]*))?(?:#.*)?$"
 
 
-class HatenaBlogExtractor(Extractor):
+class HatenablogExtractor(Extractor):
     """Base class for HatenaBlog extractors"""
     category = "hatenablog"
     directory_fmt = ("{category}", "{domain}")
@@ -65,12 +65,12 @@ def _handle_article(self, article: str):
             yield Message.Url, url, text.nameext_from_url(url, data)
 
 
-class HatenaBlogEntriesExtractor(HatenaBlogExtractor):
+class HatenablogEntriesExtractor(HatenablogExtractor):
     """Base class for a list of entries"""
     allowed_parameters = ()
 
     def __init__(self, match):
-        HatenaBlogExtractor.__init__(self, match)
+        HatenablogExtractor.__init__(self, match)
         self.path = match.group(3)
         self.query = {key: value for key, value in text.parse_query(
             match.group(4)).items() if self._acceptable_query(key)}
@@ -103,7 +103,7 @@ def _handle_partial_articles(self, extr):
 
             url = "hatenablog:" + text.unescape(text.extr(
                 section, '<a class="entry-title-link" href="', '"'))
-            data = {"_extractor": HatenaBlogEntryExtractor}
+            data = {"_extractor": HatenablogEntryExtractor}
             yield Message.Queue, url, data
 
     def _handle_full_articles(self, extr):
@@ -121,14 +121,14 @@ def _acceptable_query(self, key: str) -> bool:
         return key == "page" or key in self.allowed_parameters
 
 
-class HatenaBlogEntryExtractor(HatenaBlogExtractor):
+class HatenablogEntryExtractor(HatenablogExtractor):
     """Extractor for a single entry URL"""
     subcategory = "entry"
     pattern = BASE_PATTERN + r"/entry/([^?#]+)" + QUERY_RE
     example = "https://BLOG.hatenablog.com/entry/PATH"
 
     def __init__(self, match):
-        HatenaBlogExtractor.__init__(self, match)
+        HatenablogExtractor.__init__(self, match)
         self.path = match.group(3)
 
     def items(self):
@@ -144,14 +144,14 @@ def items(self):
             return self._handle_article(article)
 
 
-class HatenaBlogHomeExtractor(HatenaBlogEntriesExtractor):
+class HatenablogHomeExtractor(HatenablogEntriesExtractor):
     """Extractor for a blog's home page"""
     subcategory = "home"
     pattern = BASE_PATTERN + r"(/?)" + QUERY_RE
     example = "https://BLOG.hatenablog.com"
 
 
-class HatenaBlogArchiveExtractor(HatenaBlogEntriesExtractor):
+class HatenablogArchiveExtractor(HatenablogEntriesExtractor):
     """Extractor for a blog's archive page"""
     subcategory = "archive"
     pattern = BASE_PATTERN + r"(/archive(?:/\d+(?:/\d+(?:/\d+)?)?" + \
@@ -159,7 +159,7 @@ class HatenaBlogArchiveExtractor(HatenaBlogEntriesExtractor):
     example = "https://BLOG.hatenablog.com/archive/2024"
 
 
-class HatenaBlogSearchExtractor(HatenaBlogEntriesExtractor):
+class HatenablogSearchExtractor(HatenablogEntriesExtractor):
     """Extractor for a blog's search results"""
     subcategory = "search"
     pattern = BASE_PATTERN + r"(/search)" + QUERY_RE
diff --git a/test/results/hatenablog.py b/test/results/hatenablog.py
index 8ca7876fb7..4a306f9a18 100644
--- a/test/results/hatenablog.py
+++ b/test/results/hatenablog.py
@@ -11,38 +11,38 @@
 {
     "#url"     : "https://cosmiclatte.hatenablog.com/entry/2020/05/28/003227",
     "#category": ("", "hatenablog", "entry"),
-    "#class"   : hatenablog.HatenaBlogEntryExtractor,
+    "#class"   : hatenablog.HatenablogEntryExtractor,
     "#count"   : 20,
 },
 
 {
     "#url"     : "https://moko0908.hatenablog.jp/entry/2023/12/31/083846",
     "#category": ("", "hatenablog", "entry"),
-    "#class"   : hatenablog.HatenaBlogEntryExtractor,
+    "#class"   : hatenablog.HatenablogEntryExtractor,
 },
 
 {
     "#url"     : "https://p-shirokuma.hatenadiary.com/entry/20231227/1703685600",
     "#category": ("", "hatenablog", "entry"),
-    "#class"   : hatenablog.HatenaBlogEntryExtractor,
+    "#class"   : hatenablog.HatenablogEntryExtractor,
 },
 
 {
     "#url"     : "https://urakatahero.hateblo.jp/entry/2ndlife",
     "#category": ("", "hatenablog", "entry"),
-    "#class"   : hatenablog.HatenaBlogEntryExtractor,
+    "#class"   : hatenablog.HatenablogEntryExtractor,
 },
 
 {
     "#url"     : "hatenablog:https://blog.hyouhon.com/entry/2023/12/22/133549",
     "#category": ("", "hatenablog", "entry"),
-    "#class"   : hatenablog.HatenaBlogEntryExtractor,
+    "#class"   : hatenablog.HatenablogEntryExtractor,
 },
 
 {
     "#url"     : "https://cetriolo.hatenablog.com",
     "#category": ("", "hatenablog", "home"),
-    "#class"   : hatenablog.HatenaBlogHomeExtractor,
+    "#class"   : hatenablog.HatenablogHomeExtractor,
     "#range"   : "1-7",
     "#count"   : 7,
 },
@@ -50,25 +50,25 @@
 {
     "#url"     : "https://moko0908.hatenablog.jp/",
     "#category": ("", "hatenablog", "home"),
-    "#class"   : hatenablog.HatenaBlogHomeExtractor,
+    "#class"   : hatenablog.HatenablogHomeExtractor,
 },
 
 {
     "#url"     : "https://p-shirokuma.hatenadiary.com/",
     "#category": ("", "hatenablog", "home"),
-    "#class"   : hatenablog.HatenaBlogHomeExtractor,
+    "#class"   : hatenablog.HatenablogHomeExtractor,
 },
 
 {
     "#url"     : "https://urakatahero.hateblo.jp/",
     "#category": ("", "hatenablog", "home"),
-    "#class"   : hatenablog.HatenaBlogHomeExtractor,
+    "#class"   : hatenablog.HatenablogHomeExtractor,
 },
 
 {
     "#url"     : "hatenablog:https://blog.hyouhon.com/",
     "#category": ("", "hatenablog", "home"),
-    "#class"   : hatenablog.HatenaBlogHomeExtractor,
+    "#class"   : hatenablog.HatenablogHomeExtractor,
 },
 
 {
@@ -76,7 +76,7 @@
                   "%83%AB%E3%83%95%E3%82%B8%E3%82%A7%E3%83%AB%E3%83%8D%E3%82"
                   "%A4%E3%83%AB"),
     "#category": ("", "hatenablog", "archive"),
-    "#class"   : hatenablog.HatenaBlogArchiveExtractor,
+    "#class"   : hatenablog.HatenablogArchiveExtractor,
     "#range"   : "1-30",
     "#count"   : 30,
 },
@@ -84,21 +84,21 @@
 {
     "#url"     : "https://moko0908.hatenablog.jp/archive/2023",
     "#category": ("", "hatenablog", "archive"),
-    "#class"   : hatenablog.HatenaBlogArchiveExtractor,
+    "#class"   : hatenablog.HatenablogArchiveExtractor,
     "#count"   : 13,
 },
 
 {
     "#url"     : "https://p-shirokuma.hatenadiary.com/archive/2023/01",
     "#category": ("", "hatenablog", "archive"),
-    "#class"   : hatenablog.HatenaBlogArchiveExtractor,
+    "#class"   : hatenablog.HatenablogArchiveExtractor,
     "#count"   : 5,
 },
 
 {
     "#url"     : "https://urakatahero.hateblo.jp/archive",
     "#category": ("", "hatenablog", "archive"),
-    "#class"   : hatenablog.HatenaBlogArchiveExtractor,
+    "#class"   : hatenablog.HatenablogArchiveExtractor,
     "#range"   : "1-30",
     "#count"   : 30,
 },
@@ -106,13 +106,13 @@
 {
     "#url"     : "hatenablog:https://blog.hyouhon.com/archive/2024/01/01",
     "#category": ("", "hatenablog", "archive"),
-    "#class"   : hatenablog.HatenaBlogArchiveExtractor,
+    "#class"   : hatenablog.HatenablogArchiveExtractor,
 },
 
 {
     "#url"     : "hatenablog:https://blog.hyouhon.com/search?q=a",
     "#category": ("", "hatenablog", "search"),
-    "#class"   : hatenablog.HatenaBlogSearchExtractor,
+    "#class"   : hatenablog.HatenablogSearchExtractor,
     "#range"   : "1-30",
     "#count"   : 30,
 },
@@ -120,25 +120,25 @@
 {
     "#url"     : "https://cosmiclatte.hatenablog.com/search?q=a",
     "#category": ("", "hatenablog", "search"),
-    "#class"   : hatenablog.HatenaBlogSearchExtractor,
+    "#class"   : hatenablog.HatenablogSearchExtractor,
 },
 
 {
     "#url"     : "https://moko0908.hatenablog.jp/search?q=a",
     "#category": ("", "hatenablog", "search"),
-    "#class"   : hatenablog.HatenaBlogSearchExtractor,
+    "#class"   : hatenablog.HatenablogSearchExtractor,
 },
 
 {
     "#url"     : "https://p-shirokuma.hatenadiary.com/search?q=a",
     "#category": ("", "hatenablog", "search"),
-    "#class"   : hatenablog.HatenaBlogSearchExtractor,
+    "#class"   : hatenablog.HatenablogSearchExtractor,
 },
 
 {
     "#url"     : "https://urakatahero.hateblo.jp/search?q=a",
     "#category": ("", "hatenablog", "search"),
-    "#class"   : hatenablog.HatenaBlogSearchExtractor,
+    "#class"   : hatenablog.HatenablogSearchExtractor,
 },
 
 )

From 293f1559dfb24ccdb823f4bd023f6a9d1b88fb6f Mon Sep 17 00:00:00 2001
From: blankie <blankie@nixnetmail.com>
Date: Sat, 13 Jan 2024 10:42:22 +1100
Subject: [PATCH 4/5] [hatenablog] implement suggestions

---
 gallery_dl/extractor/hatenablog.py | 30 +++++++++++++++---------------
 1 file changed, 15 insertions(+), 15 deletions(-)

diff --git a/gallery_dl/extractor/hatenablog.py b/gallery_dl/extractor/hatenablog.py
index dd1e45a5de..40c36bb66b 100644
--- a/gallery_dl/extractor/hatenablog.py
+++ b/gallery_dl/extractor/hatenablog.py
@@ -13,7 +13,7 @@
 
 BASE_PATTERN = (
     r"(?:hatenablog:https?://([^/]+)|(?:https?://)?"
-    r"([\w-]+\.(?:hatenablog\.com|hatenablog\.jp"
+    r"([\w-]+\.(?:hatenablog\.(?:com|jp)"
     r"|hatenadiary\.com|hateblo\.jp)))"
 )
 QUERY_RE = r"(?:\?([^#]*))?(?:#.*)?$"
@@ -28,29 +28,26 @@ class HatenablogExtractor(Extractor):
 
     def __init__(self, match):
         Extractor.__init__(self, match)
-
         self.domain = match.group(1) or match.group(2)
-        self._find_img = re.compile(r'<img +(.+?) */?>').finditer
-        self._is_image = re.compile(
-            r'(?: |^)class="hatena-fotolife"(?: |$)').search
-        self._find_img_src = re.compile(r'(?: |^)src="(.+?)"(?: |$)').search
+
+    def _init(self):
+        self._find_img = re.compile(r'<img +([^>]+)').finditer
 
     def _handle_article(self, article: str):
         extr = text.extract_from(article)
         date = text.parse_datetime(extr('<time datetime="', '"'))
-        entry_link = text.unescape(extr(
-            '<a href="', '" class="entry-title-link bookmark">'))
+        entry_link = text.unescape(extr('<a href="', '"'))
         entry = entry_link.partition("/entry/")[2]
-        title = extr('', '</a>')
+        title = text.unescape(extr('>', '<'))
         content = extr(
             '<div class="entry-content hatenablog-entry">', '</div>')
 
         images = []
         for i in self._find_img(content):
             attributes = i.group(1)
-            if not self._is_image(attributes):
+            if 'class="hatena-fotolife"' not in attributes:
                 continue
-            image = text.unescape(self._find_img_src(attributes).group(1))
+            image = text.unescape(text.extr(attributes, 'src="', '"'))
             images.append(image)
 
         data = {
@@ -74,8 +71,11 @@ def __init__(self, match):
         self.path = match.group(3)
         self.query = {key: value for key, value in text.parse_query(
             match.group(4)).items() if self._acceptable_query(key)}
+
+    def _init(self):
+        HatenablogExtractor._init(self)
         self._find_pager_url = re.compile(
-            r'<span class="pager-next">\s*<a href="(.+?)"').search
+            r' class="pager-next">\s*<a href="([^"]+)').search
 
     def items(self):
         url = "https://" + self.domain + self.path
@@ -117,7 +117,7 @@ def _handle_full_articles(self, extr):
             article = extr('', '</article>')
             yield from self._handle_article(article)
 
-    def _acceptable_query(self, key: str) -> bool:
+    def _acceptable_query(self, key):
         return key == "page" or key in self.allowed_parameters
 
 
@@ -154,8 +154,8 @@ class HatenablogHomeExtractor(HatenablogEntriesExtractor):
 class HatenablogArchiveExtractor(HatenablogEntriesExtractor):
     """Extractor for a blog's archive page"""
     subcategory = "archive"
-    pattern = BASE_PATTERN + r"(/archive(?:/\d+(?:/\d+(?:/\d+)?)?" + \
-        r"|/category/[^?#]+)?)" + QUERY_RE
+    pattern = (BASE_PATTERN + r"(/archive(?:/\d+(?:/\d+(?:/\d+)?)?"
+               r"|/category/[^?#]+)?)" + QUERY_RE)
     example = "https://BLOG.hatenablog.com/archive/2024"
 
 

From 9f53daabb8e031871a604707bcc46f5359818910 Mon Sep 17 00:00:00 2001
From: blankie <blankie@nixnetmail.com>
Date: Sat, 13 Jan 2024 10:43:25 +1100
Subject: [PATCH 5/5] [hatenablog] implement additional suggestion

---
 gallery_dl/extractor/hatenablog.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/gallery_dl/extractor/hatenablog.py b/gallery_dl/extractor/hatenablog.py
index 40c36bb66b..792f666431 100644
--- a/gallery_dl/extractor/hatenablog.py
+++ b/gallery_dl/extractor/hatenablog.py
@@ -12,7 +12,7 @@
 
 
 BASE_PATTERN = (
-    r"(?:hatenablog:https?://([^/]+)|(?:https?://)?"
+    r"(?:hatenablog:https?://([^/?#]+)|(?:https?://)?"
     r"([\w-]+\.(?:hatenablog\.(?:com|jp)"
     r"|hatenadiary\.com|hateblo\.jp)))"
 )