宝塚の芸名の頻出文字ランキングを作った話

先日、タカラジェンヌの一覧を作成するスクリプトを書いた話を書いたが、これを作る際に「宝塚の芸名に多く使われてる文字のランキングを作りたい」という動機もあった。

宝塚の芸名には明らかに人気の文字があって、ぱっと見の印象が似通っているので、混同しやすい。現在の雪組では1期違いで彩凪さん彩風さんが活躍していて、最初は「ひっかけ問題か!」と思ったものだ。(逆にセットで覚えやすいという側面もあります)

感覚として「彩」、「紫」、「音」、「ら行」あたりが上位にくるのではと思っていたのだが、出来上がった一覧を眺めている段階で「あー、これは『子』だな」と分かってしまった。初期はかなりの割合で名前の最後が「子」なのだ。
やはりと言うかなんと言うか、これまでの宝塚の芸名全てに多く使われている文字のランキングを作ったら↓のようになった。

宝塚の芸名 頻出文字ランキング(1~101期)

順位 文字 登場回数
1 1146
2 522
3 420
4 359
5 350
6 322
7 277
8 222
9 210
10 208
11 197
12 ま・里 175
14 172
15 166
16 158
17 い・代 153
19 151
20 148
21 146
22 144
23 128
24 123
25 111
26 109
27 108
28 106
29 105
30 97
31 95
32 94
33 93
34 山・川・風 92
37 91
38 90
39 89
40 85
41 春・水 83
43 れ・ち 79
45 朝・麻 78
47 白・や・華 77
50 76

「子」がダブルスコアで優勝!
うーん、最近は「子」の付く名前が少ないから、どうもしっくりこない。
試しに、(期内の「子」の登場回数)÷(期内全員の文字数の合計)×100を、期内「子」含有率として計算したことろ、↓のような結果になった。

takarazuka_name_graph

やはり、「子」はどんどんと減り続け、80期前後からは0%の期が多くなっている。
私自身の名前にも「子」がついているが、80期が初舞台を踏んだ頃、子どもながらに「~子って何か古い感じがするから、~美とかが良かったな」と思っていた記憶がある。
お父さん、お母さん、ごめんなさい。今では割と気に入ってます。
最近は、モダンな名前流行の揺り戻しで、古風な名前の人気も上がってるらしいですね。

閑話休題。
上記を受けて、81~101期に絞って文字のランキングを出してみたら以下の様になった。

宝塚の芸名 頻出文字ランキング(81~101期)

文字 回数
1 115
2 80
3 78
4 71
5 66
6 華・ゆ 57
8 56
9 い・美・あ 55
12 な・真 53
14 50
15 49
16 47
17 46
18 45
19 44
20 41
21 40
22 39
23 ひ・風・希 38
26 37
27 35
28 34
29 33
30 32
31 羽・城・う 31
34 30
35 千・と 28
37 27
38 桜・天・夏 26
41 夢・瀬・星 23
44 央・く 21
46 麻・紫・は・水・せ 20

これなら感覚値に近い。
101年間で85回の「海」が21年間で41回と、半分を占めているのは、天海祐希のトップスター就任後に入団していることが関係しているのだろうか。(適当)

登場回数をその文字の「宝塚らしさ」として、芸名の各文字の「宝塚らしさ」の合計値÷文字数を出してみた。これが、81~101期の宝塚らしい芸名ランキングだ!(勝手)

宝塚らしい芸名ランキング(81~101期)

順位 芸名 宝塚らしさ
1位 花咲りりか 85.00
2位 音花ゆり 75.25
3位 華雅りりか 72.80
4位 紫りら 71.00
5位 花咲あいり 69.80
6位 花乃まりあ 69.40
7位 彩花まり 68.75
8位 桜花りな 68.50
9位 琴羽りり 67.75
10位 舞風りら 67.00
11位 華雪りら・舞華みりあ 66.00
13位 華那みかり 64.20
14位 花風みらい 63.40
15位 萌花ゆりあ・華央あみり 62.80
17位 花夏ゆりん 62.40
18位 純花まりい 61.40
19位 萌野りりあ 61.00
20位 花森まゆり 60.40
21位 きらり杏 60.25
22位 逢月あかり 59.60
23位 麻華りんか 59.40
24位 雪乃かさり 59.20
25位 愛咲まりあ 58.60
26位 結乃かなり・蓮月りらん 58.40
28位 花陽みら 58.25
29位 華宮あいり・華耀きらり・春花きらら・天翔りいら 58.00
33位 美弥るりか 57.80
34位 桜帆ゆかり 57.60
35位 舞咲りん 57.50
36位 七瀬りりこ 56.40
37位 憧花ゆりの・夢華あやり 56.00
39位 美夢ひまり・成花まりん 55.60
41位 星乃あんり 55.40
42位 花音舞 55.33
43位 夢咲みのり・白羽ゆり 55.00
45位 彩乃かなみ 54.60
46位 芽華らら 54.50
47位 華美ゆうか・瀬央ゆりあ 54.20
49位 真吹みのり 54.00
50位 舞乃ゆか・夢花らん 53.75

1位の花咲りりかさんは、退団後RiRiKAというお名前で、歌手・女優としてご活躍ですね。

花(80)+咲(44)+り(115)+り(115)+か(71)÷5文字=85点

5文字中4文字を4位までの文字で構成し、それでいて違和感のないきれいな名前に仕上げてくるあたり、カラオケバトル番組にご出演の際の、高得点を取りつつも感情が伝わる歌声に通ずるものがあります。

娘役さんが上位を占める結果となったが、何となく娘役さんの方が似た名前が多い気がしていたので納得の結果だ。男役と娘役を分けてランキングを作ったら、また興味深い結果が出るかもしれない。
他にも「花・月・星・雪・宙を名前に入れている人は、その組に配属される確率が上がるのか。」など、芸名に関する興味は尽きないのだが、組に関する情報が取得できないのが惜しい。現時点の情報ならば「宝塚おとめ」(宝塚版「プロ野球選手名鑑」みたいな本)で分かるが、できれば過去も含めた初配属の組が知りたいところ
組の情報が分かれば、2者が同じ組で過ごした期間も割り出せるし、色々楽しそうなんだけどな。
また何か思いついたらコードを書くことにしよう。

というか、そんなことより観劇に行きたい。
これを見ている方で詳しい方がいらっしゃいましたら、私にチケットの取り方をご指南ください。
早朝から当日券に並ぶのに付き合ってくれる方でも良いです。

タカラジェンヌ一覧を作成するためにスクリプトを書いた話

約2年ぶりだが、唐突にblogを更新しようと思う。
大体、暮れが押し迫ってくると、「1年あっという間だったな」と思うものだが、昨年末はその感覚が全くなかった。

何故か。

実は昨年の7月頃に宝塚に興味を持ったのだが、そのせいで宝塚のことを全然知らなかった1年前が遠い昔のように感じていたのではないかと思い至った。

 

きっかけは運動会

7月頃に、劇団新感線の「五右衛門VS轟天」の予習として、過去作を調べていたところ「天海祐希」がファンから「ゆりちゃん」と呼ばれていることに気が付いた。「宝塚は愛称で呼ぶんだなー」と思って、色々調べている内に、宝塚で10年に一度開催される大運動会の存在を知り、そこで何かが私の琴線に触れた。

宝塚歌劇大運動会とは、綱引きや玉入れをしたり、選抜メンバーでリレーをしたり、応援合戦でソーラン節を踊ったり、本当に中学や高校でやるような運動会だ。
ゆるい気持ちでやっていたならば見られたものじゃないが、本気で自分の組を勝たせようと頑張って、泣きじゃくったりしているのが感動的だった。

昔からくだらないことを大真面目にやっているのに弱い。

そしてそれをやっているのが、スタイル抜群の美女ばかりだという事実。
入場行進で各組のパフォーマンスがあるのだが、宙組のパフォーマンスが以前勤務先のイベントで偶然観ていた「銀河英雄伝説@TAKARAZUKA」だということにも心惹かれた。

私の人生に、他人の運動会のDVDを購入する日が来るとは。
分からないものだ。

普通ならばそこから劇場に通うものなのかもしれないが、チケットの入手方法がよく分からないので、映像作品や専門誌を見て、タカラジェンヌの顔と名前を覚える作業にはまっている。宝塚は現在102周年目なので、現時点で101期分のタカラジェンヌがいる。覚えても覚えても終わりが見えないのが楽しい。

前述の通り「愛称」で呼び合う文化があるのだが、「愛称」は本名に由来するものが多く、「芸名」との関連がないので、名前を2個覚えるのと同じ労力がかかる。また、最初の内は舞台化粧がみんな同じ顔に見えるし、難易度が高いのだが、むしろそこが燃えるのだ。


 

で、本題

これまで全然知らなかったタカラジェンヌの名前を大量に覚えたので、何人覚えたのか数えてみようと思った。

Wikipediaに入団の期ごとに「宝塚歌劇団n期生」というページがあるので、それを自動取得してCSVファイルに出力するスクリプトを書いて、名簿を作成した。
それをざっと眺め、名前を見て顔が思い浮かぶ人に丸を付けていったところ、255人に丸がついた。その内、23人は以前から知っていた人だったので除くと、約半年間で日常生活に関係ない人の名前を232個を覚えたことになる。これが多いのか少ないのか分からないが、ちょっとした達成感がある。

これを読んでいるみなさんも知っているタカラジェンヌを数えたくなってきたことだろう。分かってますよ。
タカラジェンヌ一覧抽出スクリプトをgithubで公開したので、ご自由にお使いください。

https://github.com/ymda/takarazuka-list-generator

コードを実行すると、↓こんな感じのファイルが出来ます。

芸名 読み仮名 誕生日 出身地 出身校 芸名の由来 愛称 役柄 退団年 備考

データはWikipediaのAPIから取得した。wikitableをCSVに変換するときに、要素中の脚注とかリンクとかを消さないと区切りがずれるのが面倒で、結構試行錯誤した。途中、「Webページを直接スクレイピングした方が楽なのでは」とも思ったが、APIを用意しているサイトをスクレイピングするのは「清く正しく美しく」ない気がしたので我慢。
また、基本的には「宝塚歌劇団n期生」のnを1からカウントアップしていくのだが、7期と8期だけ「宝塚歌劇団7・8期生」となっているので置き換えが必要だった。これは「7・8期生問題」と呼ばれている。私の中で。7・8期生は詳細な期が分からないので、便宜上7期生として扱っている。

それ以外も、基本Wikipedia情報なので、信頼性はご自分で判断していただきたい。

もっといい方法がありそうな気もするけど、とりあえず目的は果たしたので、良しとする。
レンタルサーバでcron起動する都合上Rubyを選択したが、あんまり経験のない言語なので自信はない。人の目に触れてブラッシュアップされていくことを期待して公開したので、ツッコミ大歓迎です。他力本願!
あと、Wikipedia側の表の構造が変えられると動きがおかしくなるんで、その時はお知らせいただきたい。対応できるものはしたいと思います。

何なら、直して Pull Request 送ってくれてもいいんですよ。