-
Notifications
You must be signed in to change notification settings - Fork 8.1k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
見出しが訳されて id が変化したのにリンクの [~](~#id) が訳されていないものが多い #11562
Comments
リンク先を日本語に修正するとして、意図したリンク先になっているか意味的に判断しないといけないと思われるので大変そうです。 |
作業優先度の参考になるかと思い、Grep結果の一覧をスプレッドシートに保存しました(件数は違いますが、検索条件は同じなので合っているはず) スクリプトで機械的に置換できるのが理想かと思いますが、環境構築に手間取り、今日はそこまではいけませんでした。 リンク先ドキュメントの英語版と日本語版の見出しを比較して、章の構成さえずれていなければ、上手くマッチングできるかも?と思いますが、検証できていません。 |
調査ありがとうございます!(それにしてもすごい量ですね…) 日本語のID未訳リンクをblameしてみて、リンク追加当時のen-USの記事を見て章の構成を比較してあれやこれやするといいかもしれないですね。 ちなみに件数ですが、最初に「2675件」と書いたのはまあまあ関係ないのも混じってる数です。 |
あまり役に立つ情報ではないのですが、調査してみた結果を書いておきます。
ドキュメントをパースして、英語版と日本語版の見出しテキストを抽出してみました。残念ながら、意外と英語版と日本語版で「見出しの個数がずれている」ページが多いようです。そのため、見出しの位置だけでマッピングしようとすると全く関係ない見出しになってしまう可能性があります。見出しの個数が一致していたとしても、その対応が正しい保証がありませんね。 そして、スクリプトを組んで本格的にドキュメント全体をパースしてみたのですが、パースした結果をどうするんだというところで止まっています。手元でページのリダイレクトなども考慮しつつ「日本語ページへの英語ハッシュ付きリンクのうち、ページ側に対応する id 属性値がないリンク一覧」を抽出してみました。そのようなリンクは約3000件見つかりました。 しかし、実はその中に適切なリンクが存在することがわかりました。https://developer.mozilla.org/ja/docs/web/html/element/input#src このようなケースです。見出しではなく dt 要素に id 属性が振られています。こういうケースは全体の中でそれほど数が多くないと思いますが、スクリプトで自動処理しようとする場合には考慮が必要なリンクと言えるかもしれません。 他に、注意すべき点として以下のようなリンクも存在しています。
うーん、この問題は一括処理をするにも置換の対応表を用意するのが難しく、手作業でやるにしても量が多いため対応は困難かもしれません。何かよいアイデアがあればよいのですが。 |
MDN URL
https://developer.mozilla.org/ja/docs/Glossary/baseline
この問題に関する節や見出しはどこですか。
技術リファレンス
不完全、不親切、不完全であった情報は何ですか。
例えばこのページの「CSS ボックス配置」というリンクは
https://developer.mozilla.org/ja/docs/Web/CSS/CSS_Box_Alignment#types_of_alignment
というURLをリンク先に指定していますが、リンク先の日本語のページには Types of alignment という見出しが存在しないため、id="types_of_alignment" が存在せずページトップへのリンクになります。
en-US版ではちゃんと Types of alignment という見出しが存在するため、
https://developer.mozilla.org/en-US/docs/Web/CSS/CSS_Box_Alignment#types_of_alignment
というURLでちゃんと目的の見出しに到達します。
どう表示されるべきだと思いますか。
日本語のURLは本来は
https://developer.mozilla.org/ja/docs/Web/CSS/CSS_Box_Alignment#配置の種類
となっているべきだと思われます。
補足情報となるリンク、参考資料、引用文献はありますか。
No response
他に共有したいことはありますか。
とりあえず、/files/ja/**/* から
(?<=\]\()((?<!http)[^)])*#[ -$&-(*-~]+(?=\))
の正規表現で検索したところ、2675件の結果がヒットしました…。参考:ヒットした結果の上の方の何行か
MDN metadata
Page report details
ja/glossary/baseline
The text was updated successfully, but these errors were encountered: