存在しない漢字を、なぜ入力できるのか? 世にも恐ろしい技術的負債の話。【文字コード3】#94

Поділитися
Вставка
  • Опубліковано 2 жов 2024

КОМЕНТАРІ • 469

  • @yurucom
    @yurucom  11 місяців тому +69

    【コピペして使って遊んでね】

    【参考文献】
    ◯プログラマのための文字コード技術入門
    amzn.to/46c6jqf
    【サポーターコミュニティ加入はこちらから】
    yurugengo.com/support
    【おたよりフォーム】
    forms.gle/BLEZpLcdEPmoZTH4A
    ※皆様からの楽しいおたよりをお待ちしています!

    • @kettle9265
      @kettle9265 11 місяців тому +1

      「U+599B」って打って変換してもこの文字が出てくることを初めて知ったわ
      Unicodeって変換できるんだ

  • @kotolabo
    @kotolabo 11 місяців тому +139

    07:36 莉翫↑繧薙※縺翫▲縺励c繧、縺セ縺励◆縺疑^

    • @yurucom
      @yurucom  11 місяців тому +41

      冗談で言ってたらホントに来ちゃって草。誰か解読して!!!!!

    • @yh9756
      @yh9756 11 місяців тому +56

      @@yurucom
      解読しました↓
      「今なんておっしゃイましたか^^」です。

  • @ba-el2wl
    @ba-el2wl 11 місяців тому +345

    妛が有名になりすぎたので忌避されるようになり、代わりに2番目に有名な彁がUA-camでクリシェ化した結果妛が再評価される流れ、興味深い

  • @Yune2651
    @Yune2651 11 місяців тому +120

    Wikipediaにも載っているので割とクリシェかもしれませんが、彁がマシュマロというサービスにおいてマシュマロ絵文字に置き換えられる文字として役割を貰ったというエピソードが好きです。

  • @sabak7390
    @sabak7390 11 місяців тому +90

    /と\は並ぶと、どっちがどっちだか区別しづらいので、円マークになってる処理系の方が助かる。
    正規表現を書くときとか。

  • @smithken2837
    @smithken2837 11 місяців тому +31

    大学の英語教授で先祖がポルトガル人の移民。先祖がアメリカに渡ってくるときにアメリカ式の綴り字がわからず、適当に港で書いた名前がそのまま登録されてしまい、到底読める綴りではない名前が爆誕した。という教授がいたので、存在しない漢字を使う苗字の方と似てるなと思い出しました。

  • @Lidy-Shin
    @Lidy-Shin 11 місяців тому +25

    今技術的負債となっている物のほとんどは「作った時には」優れた設計だったんだよな

    • @TarisukeAriki
      @TarisukeAriki 11 місяців тому +2

      そのソフトを使う社会のほうが変わっていくのは止められないからですかね・・・

    • @isamich1535
      @isamich1535 5 місяців тому +3

      それら全部が「優れた」ものであったかどうかは疑問。

    • @hiramenta
      @hiramenta Місяць тому

      @@isamich1535応急処置の可能性も大いにあるからね

  • @J_CHICKEN137
    @J_CHICKEN137 11 місяців тому +70

    9:42 ことラボ、「りょうさん」か「りょーさん」かが自分にとっては円記号問題以上に悩ましい問題でした。前回のコラボのおかげで「りょー」さんだと判明して安心していたのですが、ここのテロップを見て「りょ」さんだった(Xでもそうなっている)ことに気づいて愕然としています

    • @kotolabo
      @kotolabo 11 місяців тому +99

      ご関心をお寄せいただきありがとうございます。
      名称の正式な表記は「りょ」ですが、「さん」などの敬称をつける場合は、「りょさん」あるいは、発音上の自然な変化形である「りょーさん」のいずれも認めています。
      ご参考になれば幸いです。

    • @J_CHICKEN137
      @J_CHICKEN137 11 місяців тому +21

      @@kotolabo りょさん自らご返信頂けるとは…
      これで安心してテキストでもりょさんの話ができます。ありがとうございました!

  • @aiueokakikukeko587
    @aiueokakikukeko587 11 місяців тому +98

    幽霊文字で「彁」がよく出てくるのは、「なぜ収録されたのか理由がわからない」というのが要因の一つなのではと思います
    書き間違いや読み間違いなどで間違った文字が新たに存在してしまうことは他のケースでもよく出てくるので、「理由が分からない」という面白みのなさが、逆にユニークであることから、話の面白さになっているのではないでしょうか。

    • @雨天-z9m
      @雨天-z9m 11 місяців тому +34

      「幽霊文字」と呼ばれているだけに、
      なにかいきさつがあって生まれたらしいと分かっているものよりも,どうして居るのか本当に分からないもの の方が不気味さや幽霊的な面白さを感じますね

  • @南大樹-x6c
    @南大樹-x6c 11 місяців тому +7

    9:17 堀本さんの「俺のNotionの台本」が「俺の脳漿の台本」に聞こえてマジで水野さんと脳交換してんのかなと一瞬思ってしまった

  • @mozi122
    @mozi122 11 місяців тому +164

    「㍻」「㍼」「㍽」「㍾」という年号の合字はそれぞれ U+337B 〜 U+337E に連番に登録されていたのが、新元号の「㋿」はついに空きがなくなり離れた U+32FF に登録された話が個人的には技術的負債!って感じで大好きです。
    ちなみに、次の元号の合字が出たとしたら、もう近くにも置けなさそうですw(空きがないので)

    • @AqueousDroplet
      @AqueousDroplet 11 місяців тому +19

      ㌠が一番意味分からなくて好きです。
      負債かどうかも判断できないレベルで意味が分からないですw

    • @mozi122
      @mozi122 11 місяців тому +20

      @@AqueousDroplet ㌠はフランの補助通貨単位ですね。これは特に技術的負債ではないと思います!
      たしかに、よく変な使い方されますけどね…

    • @しさみさん
      @しさみさん 11 місяців тому +11

      合字の一覧見たら順番にイライラしてしょうがなくなりそうw

    • @Sakurada.Familia
      @Sakurada.Familia 11 місяців тому +6

      また、ンの丸囲み文字はそのせいで一生収録されなくなった模様

  • @すっとんきょー
    @すっとんきょー 11 місяців тому +73

    妛しみに待ってました!

  • @すぃにき
    @すぃにき 11 місяців тому +8

    13:16 宮沢賢治が「岩手軽便鉄道の一月」で使った、鏡を4つ並べた字のことかな?

  • @kaz-jn7ro
    @kaz-jn7ro 11 місяців тому +35

    ガラケーの絵文字をUnicodeに取り込むときも、携帯各社毎に異なる文字の割当や
    日本文化に偏ったものばかり入っている部分をどうするかで議論があって負債が残ってますね。
    Unicodeにモヤイ像(🗿)はあるけどモアイ像はないとか。
    そして海外ではモヤイ像なんて知らないからか、モヤイ像という文字の定義のまま絵だけモアイ像が割り当てられていてさらなる負債が……

  • @zauberharfe
    @zauberharfe 11 місяців тому +21

    始めは 0x24 ($) を 日本では yen に割り当てようとしていたが、$ は変えてはいけないということになったため、仕方なく、yen を 0x1C (backslash) に移した、とどこかで読みました(ウラはとってません)。もし、$ と yen が同じコードであったなら、それはそれで、大混乱になっていたことでしょう。

    • @akikan-jp
      @akikan-jp 11 місяців тому +2

      円と元が同じ記号で通販サイトで問題に
      なってましたが$と¥が同じ割り当てなら
      同じようになってたんですかね?

  • @NarrativeWorks
    @NarrativeWorks 11 місяців тому +12

    彁はなんとなく不気味な印象を受けるのが幽霊文字という言葉のイメージと合致しているから人気があるんじゃないでしょうか。

  • @19-885
    @19-885 11 місяців тому +63

    電流と電子の流れの向きが逆とかいう修正見込みのない物理学のバグ

    • @早川眠人
      @早川眠人 11 місяців тому +9

      お陰で陽子の電荷を+で表すことが出来て結果良かった

    • @ayyyyaka
      @ayyyyaka 11 місяців тому +17

      πが半径で定められてしまった数学界のバグ

    • @早川眠人
      @早川眠人 11 місяців тому +5

      @@ayyyyaka
      円周=直径×πだから直径から決められた。
      2πrから積分してπr²になるのは分りやすいのでは?

    • @ponpoko_jump
      @ponpoko_jump 11 місяців тому

      @@早川眠人
      πが6.28…であれば、
      オイラーの公式が
      e^πi = 1 になるんですよね

    • @ぐりぐりザウルス
      @ぐりぐりザウルス 11 місяців тому +5

      ⁠@@早川眠人
      せっかく半径基準に書いてるんだから円周は
      半径×(真の円周率)
      みたいな形で描きたいし、面積については、なにかの2乗に比例するものは
      1/2×(定数)×(なにかの2乗)
      の形していがちなのでそれにも合わせたい

  • @KiyokazuOami
    @KiyokazuOami 11 місяців тому +137

    これは歴史的経緯なんだよね。
    1. バックスラッシュはASCIIの中でローカライズして良い文字の一つだった
    2. エスケープ記号は元々制御コードだった
    3. エスケープ記号をキーボードで入力できなかったからUNIX/Cではバックスラッシュに割り当てた
    Cを設計した人はローカライズで問題が起こることは想像していなかったのでしょうね。

    • @mugen_gamelab
      @mugen_gamelab 11 місяців тому +3

      あの面倒臭いのそんな理由だったのか

    • @jojxi
      @jojxi 11 місяців тому +22

      1は前回動画で出てきたISO/IEC 646の交換可能のうちの1字がバックスラッシュで、日本では円マークを割り当てたんですね。日本以外でも各国で別の文字が割り当てられがちです。
      Cを設計した人はASCIIのことしか考えてなかったんでしょうけど、それよりも想像力が足りてなかったのは、MS-DOSのディレクトリ区切り記号をよりによってバックスラッシュにしてしまったやつでしょうねぇ。ASCIIだけ使っててもディレクトリ区切り文字がエスケープ文字と重なってしまってダルい。

    • @user-bp7fy2qp9m
      @user-bp7fy2qp9m 11 місяців тому +46

      > 1. バックスラッシュはASCIIの中でローカライズして良い文字の一つだった
      ASCII ではなくて、ISO/IEC 646。
      > 2. エスケープ記号は元々制御コードだった
      ESC(0x1B)のことであれば、これは元々は機械(コンピュータや周辺装置など)を制御するためのコード。後続の文字を修飾するものではありません。
      > 3. エスケープ記号をキーボードで入力できなかったからUNIX/Cでは
      これは事実ではありません。ESC(0x1B)のことであれば、一般的なASCIIキーボードにはEscキーが存在していますし、^[ で入力も可能です。
      > バックスラッシュに割り当てた
      バックスラッシュは英文では使われない文字、つまり幽霊文字みたいなものです。ですから、平文中での修飾表現に使うことには一定の合理性があると思います。ただ、
      > UNIX/Cを設計した人はローカライズで問題が起こることは想像していなかった
      これはおっしゃる通り。

    • @user-bp7fy2qp9m
      @user-bp7fy2qp9m 11 місяців тому +9

      @@jojxi MS-DOS は、/ (スラッシュ) をコマンドラインスイッチに使ってしまっていたのが大きそう。もちろん、MSが採っていた非互換政策の可能性もありますが。

    • @KiyokazuOami
      @KiyokazuOami 11 місяців тому

      @@user-bp7fy2qp9mフォローありがとう
      > ASCII ではなくて、ISO/IEC 646。
      そうだと思ったけど確認するの面倒だからASCIIって書いてしまった
      エスケープシーケンスは制御コードの ESC でした。ESCキーはあったけど機能キーだからそれで文字入力には使えなかったのですよね。
      これにヒントを得てCのエスケープ文字ができたのだろうと考えています。
      それまでは文字コードを関数で変換して文字列と連結するみたいなことをしていました。
      バックスラッシュの是非はおいておいて、Cではエスケープシーケンスで制御コードが表現できるようになったので便利になりました。

  • @saya_tsukada
    @saya_tsukada 11 місяців тому +183

    手違いによって発生してしまった『妛』について言及すればするほど消去するのが難しくなるの、SCP的怖さがあってとてもいいですね

    • @ちくわ-e9g
      @ちくわ-e9g 11 місяців тому +7

      「ゐる」とか的な

    • @pana-napa
      @pana-napa 11 місяців тому +29

      実はミーム災害を引き起こすオブジェクトで、カバーストーリーとして幽霊文字という扱いにしてる…みたいな笑

    • @YY-jq7rk
      @YY-jq7rk 11 місяців тому +7

      ゐるってそうなんですか、、?
      短歌やってる自分はめっちゃ使うんですが、、。

    • @ぼふぃ
      @ぼふぃ 11 місяців тому +22

      上記の"ゐる"とは、恐らくSCP-161-JPという作品に登場する"伊る"という(読みも示されていない)存在しない動詞の事を指しているのだろうと思われます

    • @aetos382
      @aetos382 11 місяців тому +7

      佐うです。

  • @bombipap2687
    @bombipap2687 11 місяців тому +30

    FORTRANやCOBOLには文字列リテラルのエスケープシーケンスがなく、C言語の前身のB言語のエスケープ文字は'*'であることから、エスケープ文字にバックスラッシュを使うようになったのはUNIX / Cの文化であると考えられる。
    そうするとそれ以前に制定されたJIS C 6220(JIS X 0211)で考慮できなかったのは仕方ないのでは?

  • @kantoheiya
    @kantoheiya 11 місяців тому +8

    その外観から植物のアケビを山女と書くことがあり、これが合字となって𡚴っていう字になった説を聞いたことがあります
    アケビの外観は「アケビ、アケビなに見て開く、下のマツタケ見て開く」というような小唄から連想していただければ・・・
    人名の幽霊文字に関しては、動画中にもあるように届出人が書き間違えた事例だけではなく、
    役場の戸籍係が書き間違えた事例や、集落内の他家との区分のため敢えて一画追加したり削除したりという事例などがあるようです
    祖父が「今」を使いますが戸籍上「山笠にテ」のため電算化された今の戸籍には外字で収録されていました

  • @toryskeep
    @toryskeep 11 місяців тому +22

    111111とよく似ていたので思い出した話です。
    点字は1マス縦3×横2の6点なのですが、打ち損じた時は6点全てを打ちます。ただそれでは「メ」と読めてしまうので、3マス連続して「メメメ」と打つことで、間違った文字を消した跡であることを示します。
    まるで「メメメ」が「×××」みたいではありませんか?

    • @kamodomon0913
      @kamodomon0913 11 місяців тому +1

      RADWIMPSのDVDに「青とメメメ」という物がありますが、点字ではどのように表現するのでしょうか?
      (最初は「実生活では使う機会がないと思いますがメメメはどうしますか?」とお聞きしようとしたら存在してビックリしてますw)
      お聞きした後に自分でも気づきましたがカタカナでも「このバ✕ヤロウ」と書かれていたら伏字かと思いますが、本当に✕と表示するものだとしたら区別付きませんね。この場合は「伏字ではなく本当に✕と書くんです」と説明するしかないですね。

    • @toryskeep
      @toryskeep 11 місяців тому +5

      @@kamodomon0913様
      「メメメ」と書きたい時は、わたしなら一文字ずつスペースを入れますね。
      点字はスペースを文節ごとに入れるので、一文にたくさんスペースが入っていても違和感ないし、「メ メ メ」と書いてあればそこは修正部分でなく「メ」の並びに意味があると伝わりそうです。

    • @kamodomon0913
      @kamodomon0913 11 місяців тому

      @@toryskeep 回答ありがとうございます。確かにスペース区切りで伝わりそうですね。
      ここからはワザと意地悪な突っ込みをしますが、ご容赦ください。
      イマジナリー悪堀元「本当に「メ(スペース)メ(スペース)メ」を表したい時にどうするんですか!」
      この考え方が100%の解決策を求めるIT関係者の思考であり、技術的負債にブチ切れる要因の一つになっています。
      ブチ切れると言っても負債を理解し諦めた上で対応がメンドクサイから怒るポーズを取ってるだけなんですけどw
      逆に100%を目指すと「メ(スペース)メ(スペース)メ」のような柔軟で実用に十分耐える方法を見つけられないことにもなりますね。
      やはり実際に運用している方の解決策は素晴らしいです。
      失礼を恐れずに言うと「頭の良い人だなぁ」と感動しました。

  • @thesaito2721
    @thesaito2721 11 місяців тому +5

    /と¥の交換の背景を他の方は規格の都合でご説明されていますが…
    (マイコンの頃のプログラマならご存知だと思いますが)メインメモリが16~32k(メガじゃなくてキロ)バイトとか時代はマジで「メモリがあと64バイト(キロすらつかないよ)足りない…」なんて事が頻繁にあって、その頃は「フォントに割りててあるメモリは好きに使っていいメモリ」という認識でした(Q.フォントがぐちゃぐちゃになったらどうするの?→A.頑張って対応する)、そんな「文字におおらかで寛容な時代」がこのあたりの問題をうんだ背景なんじゃないかな…と私は思ってます

  • @midoriakibao8726
    @midoriakibao8726 11 місяців тому +30

    元来存在も意味もなかった漢字が、こうして話題として取り上げられて意味やストーリーを伝播されていくことによって、その存在を強固にしていくあたり哲学味があっておもしろい
    少なくとも自分にとっては、他のまだ知りえていない実在漢字よりも幽霊漢字の「妛」のほうが実感としての存在を感じる

  • @GomaQchan
    @GomaQchan 11 місяців тому +12

    自分は「彁」の「由来不明」というのがそれこそ幽霊っぽくて好きですね
    出自や正体の判明している幽霊は怖くありませんから

  • @taiki7826
    @taiki7826 11 місяців тому +5

    エンジニアではないですが
    なんで¥使ってるのだろうと思って検索しましたが見つからずこの動画を見て感動しました

  • @lacolmena1973
    @lacolmena1973 11 місяців тому +41

    バックスラッシュ・円記号問題はもとはといえば、前回の動画で説明していた国ごとに勝手に使っていい領域でアメリカがバックスラッシュを割り当てているコードに日本では円記号を割り当てたのが発端のはず。ということはフォルダ区切りやエスケープ記号に韓国では₩を使ったりフランスではçを使ったりしていたのだろうか。
    だから、「バックスラッシュと円記号を同じ記号に割り当てた」というのは不正確で、「バックスラッシュの代わりに円記号を割り当てた」が正解。日本のコンピューターではバックスラッシュ記号は扱えなかった。時系列としてもエスケープ記号が使われた最初はわからないがMS-DOSやC言語の誕生よりコード制定のほうが先なので「一緒に割り当てちゃった奴」を責めるのはお門違いで、責められるべきはどちらかというと「国ごとに違う文字が割り当てられているようなコードにそんな重要な意味を持たせちゃった奴」の方だと思う。

  • @jojxi
    @jojxi 11 місяців тому +26

    26:14 前回 ISO/IEC 646の解説してるのに、\ がその交換可能文字に含まれていたことを調べてないとは、惜しい!

  • @田中太郎-z1v
    @田中太郎-z1v 11 місяців тому +30

    彁の元になった文字は彊であるという話がありますね

  • @-mio-4358
    @-mio-4358 11 місяців тому +17

    13:13 宮沢賢治の「鏡」を4つ並べた字のことですかね
    『岩手軽便鉄道の一月』という作品の中で「鏡」と同じ意味で使われているそうです、雄花の花序を4本垂らすハンノキが凍って輝くさまを視覚的に表したものだとか(笹原宏之『日本の漢字』より)

  • @metalcollar
    @metalcollar 11 місяців тому +3

    水野さんは円マークは全角「¥」で使ってるから気にしていないのかも
    「表示される結果」を重視するのか、「内部構造(表現形式)」を重視するのかの問題なのかもしれませんね
    「妛」についても、「最終的な表示結果」を重視したための結果なのかも

  • @しおやきさばの
    @しおやきさばの 11 місяців тому +4

    2001〜2年ぐらいに漢字についてインターネット上の記事を読んだりして幽霊文字の話に触れていつかこの謎を解ける日がくるのだろうかって思ってたんですが2006〜8年ぐらいに調査会が発足して解決してたので専門家すげ〜ってなりました

  • @nandemotsukuruyo
    @nandemotsukuruyo 11 місяців тому +16

    「11111111」のくだりは競馬やtotoのマークシートで「取消」欄として
    形は違えど今でも現役で使われてますね。

  • @oboro307
    @oboro307 11 місяців тому +23

    「彁」は、字体の気味の悪さと、由来不明という幽霊っぽさがあるので代表は変わらないのではないかと
    由来がわかると幽霊というより誤植になってしまうだけなので……

  • @ridingHIACEeveryday
    @ridingHIACEeveryday 11 місяців тому +6

    11:50 ここ哲学、形而上学みたいで面白い

  • @YO-ot4uu
    @YO-ot4uu 11 місяців тому +5

    ωを鼻だと思っててびっくり。口のイメージでした(´・ω・`)

  • @UberUbrigens-id1qh
    @UberUbrigens-id1qh 11 місяців тому +17

    他の顔文字でも目・口・目なのでωは鼻じゃなくて口でしょう('ω')
    オッカムの剃刀は文理どちらも関係する話題だと思うので、ぜひメインで取りあげてほしいです!

  • @childsnowborder808
    @childsnowborder808 11 місяців тому +2

    22:25
    バックスラッシュをお○ん○んに例える……って逆w
    そっちは実物

    • @inacpan6706
      @inacpan6706 9 місяців тому +1

      夫と¥はもともと同じ文字でした。

  • @hebihenge
    @hebihenge 11 місяців тому +21

    パンチカードの1111…は点字でも同じ作法がありますね。点字は厚紙に点を打って書いていくのでパンチカードの穴と同じくやり直しが効きません。そのため「メ」(6つの点すべてを打つ)を3つ重ねて「メメメ」とするとデリート(無視する)とするそうです。(便宜的なものだそうですが)

  • @tambaren
    @tambaren 11 місяців тому +10

    Windowsのファイルパスを¥に割り当てたことで
    「お金が気になる」というより「なんでエスケープコードと同じもの割り当てた」と文句を言いたい
    フォルダ名の最初にに"n"が入っとると
    改行コード"
    "と被るんじゃ
    水野さんのいうURL・MacOS・Linuxは / 区切りだし……

    • @早川眠人
      @早川眠人 11 місяців тому

      MacOS X以前のHFSではパス区切りは:(コロン)でした。ファイル名に時刻が書けなくて泣く。

    • @KiyokazuOami
      @KiyokazuOami 11 місяців тому

      MS-DOSの前身になったCP/Mにルーツがあるらしいですよ
      CP/Mではコマンド ラインのオプション指定に/を使っていたから、MS-DOSでUNIXを真似してサブディレクトリを実装したときに問題が出てしまってディレクトリ セパレータに\を使ったとのこと

  • @h.n.7422
    @h.n.7422 11 місяців тому +16

    書道学を観た後だと、「文字コードができたのが、明治政府による変体仮名粛清後でよかった~」という気持ちになります。

    • @早川眠人
      @早川眠人 11 місяців тому +5

      変体仮名はUNICODEに有ります。ただ別のコード領域なので良かったと思う。

  • @aa-uy3un
    @aa-uy3un 11 місяців тому +10

    尻の九が丸で先祖が書き損じた例って、斎藤さんが散々間違われまくっていっぱいできたのと同じだよな
    (サイトウさんは元々斎藤さんだけだった)

    • @hanatomar
      @hanatomar 11 місяців тому +1

      名前は書き間違いで出来たものは沢山ありそうですよね。昔は、もちろん戸籍も手書きだったので、役所の人や本人が書き間違えていたら、そのまま使われるようになりますもんね。

    • @midoriakibao8726
      @midoriakibao8726 11 місяців тому

      「ワタナベ」さんの旧字体シリーズもそうですね
      データの管理、運用目線だと本当に面倒ですけど、発生した当時の様子とかを想像するとおおらかでいいなー、ってちょっと思っちゃいますねw

    • @aa-uy3un
      @aa-uy3un 11 місяців тому

      @@hanatomar
      「昔」といいつつ、近年でも漢字間違いでの名前(戸籍)登録はありますよね。
      新しい漢字ができることは少ないでしょうが。
      他のUA-camrさんで恐縮ですが、QuizKnockのふくらPは御両親は普通の「拳」で提出したけれど、事務方が上の点々が「八」向きの異字体で戸籍を登録したとか。

  • @ぱぴぱぴ-e9w
    @ぱぴぱぴ-e9w 11 місяців тому +6

    ( ^ω^ )←ωって鼻だったの!?
    猫の口のぷっくりした部分を表してると思ってた!

  • @カピバラ-b4c
    @カピバラ-b4c 11 місяців тому +13

    点字でも消す時は全凸(ひらがなの「め」)で消すときがありますね。連続で書かないと「め」を打ちたいのか修正なのかわかりませんが。

    • @ayyyyaka
      @ayyyyaka 11 місяців тому

      え、それめっちゃ面白い!!

  • @jsuzu
    @jsuzu 11 місяців тому +3

    UNICODEの歴史であれば、CJK統合漢字の悪魔合体とハングルの大移動はぜひ語って欲しいです。

  • @大学お芋
    @大学お芋 11 місяців тому +3

    もしかしてExcelの絶対参照記号が$なのも文字コード的理由が…!?と思って調べたところ全然関係なさそうで勝手にがっかりしました

  • @chumatsuz1758
    @chumatsuz1758 11 місяців тому +1

    異体字も変体仮名もある意味技術的負債のカタマリみたいなものですね。コンピュータフォントが今ほど文字数が無かったころ、偏と旁をバラして作字した経験がある人は「山一女」の逸話を見ると苦笑いしてしまいます。

  • @そらぞめ
    @そらぞめ 11 місяців тому +5

    C:ωUsersω◯◯ωDesktopωGame
    \じゃないと馴染んでしまう

    • @早川眠人
      @早川眠人 11 місяців тому

      韓国の₩記号がまさにそれ

  • @Gadona143
    @Gadona143 11 місяців тому +23

    前の文字を消すって話で、パソ通時代に「^H」(バックスペース)使ってたのを思い出して懐かしかったw
    「余計な^H^H^H^H^H^H暖かい心遣いありがとう」みたいな。2バイト文字の時は2個つける派と1個でいい派があった

    • @SonodaMai74
      @SonodaMai74 11 місяців тому +1

      懐かしすぎて鼻からコーヒー吹きそうになった(^^;

  • @cancrow916
    @cancrow916 11 місяців тому +4

    ω鼻論者に初めて会った。私はω口論者。
    あとωの話の後に水野さんがチソチソの話をしたのでキャンタマに見え始めた。

  • @mozhigengo9479
    @mozhigengo9479 11 місяців тому +6

    非エンジニアの経理部ですが、¥だとバックスラッシュになってしまうし、中国元と区別つかないので、通貨記号などやめにして、ISO通貨コード(JPY, CNY, EUR, USD, GBPなど)に統一した方が良いと思います。

    • @二宮秀幸
      @二宮秀幸 4 місяці тому

      (いわゆる)全角¥ を自分は使うように気をつけてます。
      (いわゆる)半角 ¥ はあまり使わないようにしてる ^^

  • @efo1187
    @efo1187 11 місяців тому +4

    言語によって数字の数え方に12進数の名残が残ってたりとかは技術的負債と言えるんだろうか
    例.英語のeleven、twelve、〇〇〇〇teen

  • @京風Hello注意報
    @京風Hello注意報 5 місяців тому +1

    あー!Windows使っててファイルの場所が書いてある時に¥が出てくるのってそれか!

  • @coat_of_damocles
    @coat_of_damocles 11 місяців тому +11

    逆に日本円の文脈で"¥"を見て区切り文字だな、と思っちゃうのもエンジニアあるあるなのかもしれない

    • @chigitakazuhiro7835
      @chigitakazuhiro7835 5 місяців тому

      この間、WindowsのExcelで作った請求書をMacのNumbersで開いたら、¥50が\50に文字化けしていました。

  • @マイラー-m4w
    @マイラー-m4w 11 місяців тому +7

    昔、基本情報処理を勉強した時、「¥」をエスケープ文字として使っているのを見て、「なんで¥なんだろう」と思っていましたが、本来は「\」だったのですね。

  • @tenrai3065
    @tenrai3065 11 місяців тому +35

    23:57 バックスラッシュは通常の文字列であまり使わないからエスケープ記号とされたんですけどね。
    そもそも、バックスラッシュを割り当てた0x5Cはローカライズの際に変更できるエリアでした。
    バックスラッシュをエスケープ文字やパスの区切りに使用したのは、システム側の問題です。変更の可能性がある文字コードを割り当てたやつがバカだったとも言えます。
    ところで、日本の文字コードで一番大きな技術的負債は半角カナでしょう。言及されないことにちょっと違和感。

    • @kuma056
      @kuma056 11 місяців тому

      技術者泣かせの「半角」カナですねぇ。
      ・8ビット1文字でASCII128文字を除いた部分に入れるために、カナだけを採用した
      ・8ビット2文字で1文字の「全角文字」を表わすというアイディアが生まれたが...
      ・1文字カナをそのまま残した「シフトJIS」が生まれた。
        が、1文字カナを避けるために、JISの文字コード表と2バイト文字との変換計算が複雑に。
      ・EUC-JPは1文字カナとの互換性を捨てた。
        が、その結果「半角カナばかりのシフトJISの文章」と「EUC-JPの文章」の自動判定が困難になった。
       (また、EUC-JPにも半角カナがあるけど、実際に対応しているソフトが少なく、使おうとすると文字化けが起こったり、最悪クラッシュすることもあった)
      ・Unicodeは半角カナを残したが、シフトJISとの互換は捨ててたため「1バイトカナ」では無くなった

    • @二宮秀幸
      @二宮秀幸 4 місяці тому +1

      全角スペースもなぁ。。。
      極力使わないようにしてます。設定できるfepでは半角スペース使うよう設定してます

    • @二宮秀幸
      @二宮秀幸 4 місяці тому

      全角 ↔️ 半角 っちゅう表現もあれだが。。。。
      印刷業界用語らしい

    • @0hhigh
      @0hhigh Місяць тому

      0x5C も呪いが掛かっている

  • @felix-jp
    @felix-jp 11 місяців тому +9

    日本語Windowsだとファイルパスの区切りは¥(円)だけど韓国語Windowsだと₩(ウォン)だね

    • @q_165
      @q_165 11 місяців тому +2

      ¥はまだ分かるけど₩でアルファベット区切られると本当に読みづらそうだ

  • @yanechan
    @yanechan 11 місяців тому +5

    35:56 「8bitのやつを考えて」とありますが、これは間違いで、ASCIIコードは7bitです。7bit(7桁の2進数)で考えて1111111b、すなわち10進数で言う127がDELに割り当てられております。

  • @小豆はん
    @小豆はん 11 місяців тому +6

    プログラミングやったことないけど、texで卒業論文書くときに円とバックスラッシュは慣れたなぁ。

  • @シャトー-e8z
    @シャトー-e8z 11 місяців тому +2

    堀元さんまたディストピア作ろうとしてて草

  • @mozhigengo9479
    @mozhigengo9479 11 місяців тому +1

    間違ったら全部開けるのは点字もそう。ただし点字は1マスに6点だが全部埋めた⠿は「め」と読むので、わざと複数回繰り返すことで、打ち消したことを示す。⠿⠿⠿=めめめ
    カタカナだとメメメになるので×××みたいだ。

  • @田中舘
    @田中舘 11 місяців тому +6

    疆が当時の印字の技術だと潰れてしまって弓哥に見えたらしいですよ

  • @puranoia
    @puranoia 11 місяців тому +12

    技術的負債と言うかはわからないけど、どの学問にも先人がやっちゃったシリーズはありそう。個人的には円周率を円周率÷半径じゃなくて円周率÷直径にしたのは戦犯だと思ってる。

    • @aa-iz9eu
      @aa-iz9eu 11 місяців тому +6

      電流の向きや生物の命名(トゲアリトゲナシトゲトゲ等)とかももう変えられないでしょうね
      ちょっとズレるけどアメリカのポンド法とかも

    • @ATI_PC
      @ATI_PC 11 місяців тому +1

      キレイなオイラーの公式が汚くなるので、、。

    • @櫻井佳明
      @櫻井佳明 11 місяців тому +2

      @@aa-iz9eu
      トゲトゲはトゲハムシに変わってますね。
      トゲナシトゲトゲもホソヒラタハムシが使われるようになりました(例: 日本列島の甲虫全種目録, 2023年)。
      意外に生物名(和名)は変更されることがあります。メクラ○○のように差別用語とされた言葉が使われているものなんかが代表的です。
      学名は分類の見直しがない限り変わりませんが、和名はその限りではありません。
      ちなみにトゲアリトゲナシトゲトゲと正式に命名された昆虫は存在しません。
      海外のホソヒラタハムシにトゲがあるものがいて、過去の愛好家にそう呼ばれたことはあるらしいのですが、それは俗称ですね。

    • @aa-iz9eu
      @aa-iz9eu 11 місяців тому

      @@櫻井佳明
      おー詳しい方ありがとうございます
      これは蘊蓄プルスウルトラですね!

  • @KIKKOMANamawa
    @KIKKOMANamawa 11 місяців тому +5

    11111111(無視する)ってのは現状、技術的負債だと思うけれど
    未来の人からしたら、「何の意味があるんだ?え!パンチカード??いやー合理的な発想」って歴史的資料として使えそう
    パンチカードの存在のに負わせと、その時代の合理的な解決策

  • @mudaso-heavy-user
    @mudaso-heavy-user 11 місяців тому +8

    楽しみに待ってました

  • @tambaren
    @tambaren 11 місяців тому +5

    さいとうの「さい」の字も誤記が元だという説がありますが
    それと似ていますね 齋 斉 斎 齊

    • @ahosaka
      @ahosaka 11 місяців тому +5

      職場のわたなべさんがみんな字が違っててめちゃ面倒でした
      渡辺? 渡邊? 渡邉? と思わせての 渡部とか 実は わたべさんだったり

    • @ダレカサン_イラスト
      @ダレカサン_イラスト 11 місяців тому

      ひらがなで さいとう と見ると、某イラストレーターを思い出してしまう...

    • @早川眠人
      @早川眠人 11 місяців тому +2

      平仮名のさいとうさんだと「さいとうたかを」が真っ先に思い浮かぶ。ギネスに載った人だし。

  • @akinaka7543
    @akinaka7543 11 місяців тому +10

    27:42 もしかしてこの問題が例の「64文字に収めないとならない」つまり容量制限の問題のせいだとしたら、「無能」だったのは制定者じゃなくその狭いコード容量のほうだったのかもしれない…

  • @kettleegasira
    @kettleegasira 9 місяців тому +2

    ㌦(ドル)や㌣(セント)のようにタイの通貨の「バーツ」を組文字で入れたかったのに誤って「㌬(パーツ)」をUnicodeに収録してしまった話

  • @Clops073
    @Clops073 11 днів тому

    ひらがなで えん って入力すると\が変換候補にくるのずっと謎だったけどこれ由来なのか

  • @mudaso-heavy-user
    @mudaso-heavy-user 11 місяців тому

    5:33 わかる気がする、こないだ堀元さんの書いた鬱をつくったときに同じ状況になったわ

  • @akinaka7543
    @akinaka7543 11 місяців тому +1

    20:44 「テキスト(エディタ)」回、期待します!!w

  • @nishi7343
    @nishi7343 11 місяців тому +4

    技術的負債と単なるバグは違う気もする

  • @すっとんきょー
    @すっとんきょー 11 місяців тому +16

    そうか…いまここで「妛」とコメントすることで妛は存在する漢字になるのか…

    • @rivieramente
      @rivieramente 11 місяців тому +1

      つまりデカルト味???

  • @はいわし
    @はいわし 11 місяців тому +4

    教科書には「
    」って入力しろって書いてあるのにどうやっても「¥n」になっちゃう…どうして…
    って経験は誰にでもあったと思う
    初学者の頃は誰でもやる

  • @his58enc8odk310
    @his58enc8odk310 8 місяців тому +2

    2:28
    斎藤という名字の斎の字が何種類もあるのは書き間違いが原因だって確か前に日本人のおなまえって番組で言ってたっけ。
    元々は同じ漢字だったのに、明治になって国民の戸籍を作るために自分の名前を書いて役所に出したのだけど、当時は字を書けない、または書く習慣が無いために自分の名前の漢字でさえ間違える人が大勢いたそう。
    その間違えた漢字のまま戸籍に登録されたもんだから、それが結果的に正式な漢字として定着したとか

    • @isamich1535
      @isamich1535 5 місяців тому

      実際に字を書いた役所の戸籍係のせいですよ。

  • @Camio_Shirota
    @Camio_Shirota 11 місяців тому

    \と¥の文字コード同一問題は、初学者にはややこしいですが、慣れるのはまだ易しいといいますか
    OSごとに改行コードの派閥が異なることにはそこそこ苦労したので、それも結構な技術的負債だなと思います

  • @kamijyo
    @kamijyo 11 місяців тому +6

    言語沼の話題になった瞬間に水野さんのテンションがマイナスになった

  • @クアントロ大尉
    @クアントロ大尉 11 місяців тому +8

    ¥と\が区別つかないの、そういうことだったのか…
    サンプルコードくん「¥¥こうするとコメントアウトになります」
    ワイ「¥マーク出せないよ〜(泣」
    Google先生「¥と\は同じです」
    ワイ「なんでだよ」
    あるある

  • @dhmo1529
    @dhmo1529 11 місяців тому +6

    言うて彁もガリ版刷りの見辛さのせいで起きた見間違いとか言われてたような

  • @soumoukukki100
    @soumoukukki100 11 місяців тому +6

    妛については早稲田の笹原宏之先生がフィールドワークした話が面白かった思い出

  • @ponpoko_jump
    @ponpoko_jump 11 місяців тому +18

    「幽霊文字クリシェは『妛』と『彁』」という認識だったからちょっと心外
    幽霊文字の概念がある程度定着した結果、曲のタイトルに敢えて『彁』を使うといった流れが出来てて、人間の創作力の素晴らしさを感じます
    それで言うと、太鼓の達人のオリジナル曲「彁」のMVに幽霊文字が飛び散るシーンがあるので是非見られたし。

  • @irori-citrunte
    @irori-citrunte 11 місяців тому +5

    初歩的なミスなのですが、¥の小文字が\なのだとずっと勘違いしており、自身の浅学さと駄駲さに打ちひしがれるとても閠繚とした回でした!

  • @ベリ-u8q
    @ベリ-u8q 11 місяців тому +3

    2:57
    昔、出生届を登録する際に、漢字を書き間違えてしまった親戚がおりました。
    途中で気付いたため、二重線で消し、隣に正しい漢字を書いて提出したのですが、その書き損じも名前として登録されたようです。
    そのため、戸籍謄抄本を取るときなどは、わざと間違えて二重線で訂正した上で正しい名前を書かなければならなくなった…とのこと。
    (なお現在、戸籍がコンピュータ管理されるようになり、それはなくなったそうです)
    下記間違えから新たに漢字が生まれる、というのは案外よくあることなのかもしれません。

  • @shachah_svaahaa
    @shachah_svaahaa 11 місяців тому

    35:08 ファイル転送サービスで日本語のファイル名のデータを送ろうとすると%まみれになって、リンク名だけでは何を送ったのかわからなくなります。
    なので、無駄にzip圧縮して半角英数字のファイル名に表面上変更するってのはよくやったりします。

  • @highjumptaka
    @highjumptaka 11 місяців тому +4

    コメント欄を読むと「ローカライズしていい文字コード」の存在が問題にならなかった時代に決められたことが、言語をまたいでデータが交換される時代が来て問題になった、ということなんでしょうね。
    堀元さんの説明を聞くと、後者の時代にコンピュータを学んだ人なんだなぁと思うことが度々あります。

  • @brainwashkenny1
    @brainwashkenny1 29 днів тому

    妛は蚩に異体字、康熙字典が收錄してる

  • @Kazu-cx6uu
    @Kazu-cx6uu 8 місяців тому

    13:55 こんな感じでさ(漢字の話)

  • @hipopo_tamagawa
    @hipopo_tamagawa 11 місяців тому +3

    円マークとして「¥198」と書きたかったんだろうけど、「\198」みたいな記述が複数並んでる文章を読んだときは混乱した。

  • @diplomaorbit
    @diplomaorbit 11 місяців тому +6

    8:11
    堀元さんが急に『天体の回転について』の序文みたいなことを言い出して吹いた

  • @Tomo_Kanada
    @Tomo_Kanada 11 місяців тому +3

    ご先祖様が書き間違えた!?
    学生時代、同じ下宿に「淵○」という人がいて、「俺の"淵"は、中の横線が無いんだ」
    と言って、三文判を削っていたのを思い出しました。

  • @renk1310
    @renk1310 11 місяців тому +6

    32:39 41:37 水野さんの発想がギャルすぎて笑

  • @チーバさん-b7m
    @チーバさん-b7m 11 місяців тому +2

    13:12 宮沢賢治が創作した「かがみ(鏡を4回書くやつ)」かな?

  • @garhyla
    @garhyla 11 місяців тому +2

    JIS X 0201が1969年、C言語が1972年、MS-DOSが1981年なので、¥を割り当てた人に罪を着せるのは可哀想。

  • @ttaguchi3458
    @ttaguchi3458 11 місяців тому

    円城塔『文字渦』に収録されている『誤字』を思い出した。頭蓋骨を開くって表現も出てくるし。

  • @のっぴ
    @のっぴ 11 місяців тому

    山一女って文字コード掘ると必ずでてくるクリシェと認識してる。
    あと、Oracleの波線とチルダ問題。
    JISの波線が日本語の縦書きベースで左に膨らんで右に膨らむ形らしい。
    これをUnicodeに申請する際で横書きのフォントにするのに、長音と同じように左に90度倒したことで、横書きの波線は下に膨らんでから上に膨らむ形になってしまった。
    一般には横書きの波線は上に膨らんでから下に膨らむ形なので、見た目としてはチルダ(〜)のほうが波線に見えるので、システムでは見た目優先でチルダで入力が行われてる。

  • @antimon2_jl387
    @antimon2_jl387 11 місяців тому

    43:10
    次回の話題の正字とは少し違うけれど拙著を組版してもらうときにある記号をグリフが似ている別の記号文字に勝手に置き換えられたのは良い想い出(良くない)。見た目やバランスが良くなかったからという理由だったっぽいけれど電子版だと誤字だとはっきり分かる(文字コードが違うことが分かる)適切なフォント使えばいいだけの問題だったのに。なお出版後に気付いて出版社に連絡して電子版は修正済み。そういう話も出てくるのかな。

  • @howa72
    @howa72 11 місяців тому +9

    妛 が広められないのは山+女でアケビを表すのがど下ネタだからだと思う

  • @reikoamano102
    @reikoamano102 2 місяці тому

    妛という字は新漢語林に載っていました。おっしゃる通り、山+女という字の俗字として載ってます。面白い由来があったんですね。でも、使っている例がアケンバラぐらいでしかない文字の俗字ってどういう事?その上、この字書には山+女の読みが出ていません。アケンバラは[字義]として地名の説明があります。滋賀県犬上郡多賀町の地名です。

  • @inaho-174
    @inaho-174 11 місяців тому

    thunderbirdでも半角の¥は\になりますね

  • @adfgnote
    @adfgnote 11 місяців тому +1

    仕事で、共有フォルダのファイルパスをメールで送ることがあって、なんで¥になるのかなって思ってたやつだ!