document.titleからサイト名などの装飾を取り除きたい

document.titleからサイト名などの装飾を取り除きたい

記事タイトルに続けてサイト名が書かれていると単語解析時にノイズとなる

以下のようなタイトル文字列から「遠足」だけを取り出したい
遠足 - Daikiの日記
遠足 | Daikiの日記
遠足 · Daikiの日記

課題
接続記号が統一されていないので都度マッチパターンを追加していく必要がある
とは言っても冒頭の3通りで大半をカバーできる?

タイトルの前に装飾が付いている例もあった
(20+) Facebook
daiizさんはTwitterを使っています 「崎陽軒のシウマイ弁当食べたい」 / Twitter

提案
HTMLのtitle要素への属性追加の提案
後方で装飾
html
Copied!
<head>
<title suffix=" - Daikiの日記">遠足</title>
</head>
前方と後方の両方で装飾
html
Copied!
<head>
<title prefix="daiizさんはTwitterを使っています 「" suffix="」 / Twitter">崎陽軒のシウマイ弁当食べたい</title>
</head>
ウェブブラウザのタブに表示される内容
${prefix}${innerText}${suffix}
document.title の値
${innerText}
後方互換性も問題ない
セマンティック・マークアップの観点からも良いのではないか


前方の装飾に対応できないためボツ
HTMLにsite要素 (仮称) を新たに導入したらどうか
title要素にサイト名を含めないで済む
html
Copied!
<head>
<title>遠足</title>
<site joiner="-">Daikiの日記</site>
</head>
ウェブブラウザのタブに表示される内容
${title} ${joiner} ${site}
document.title の値
${title}
Powered by Helpfeel