Розмір відео: 1280 X 720853 X 480640 X 360
Показувати елементи керування програвачем
Автоматичне відтворення
Автоповтор
【参考文献・参照URLへのリンク】◯現代日本語書き言葉均衡コーパスclrd.ninjal.ac.jp/bccwj/◯書き言葉コーパス 設計と構築(講座 日本語コーパス 2)amzn.to/48CImZT◯講義「日本語の表記―指針と実態―」(柏野和佳子)/言語学レクチャーシリーズ Vol.17ua-cam.com/video/B1ckyMTqH_s/v-deo.html◯『現代日本語書き言葉均衡コーパス』におけるサンプル構成比の算出法 : 現代日本語書き言葉の文字数調査doi.org/10.15084/00002838◯『現代日本語書き言葉均衡コーパス』利用の手引 第1.0版doi.org/10.15084/00003227【サポーターコミュニティへの加入はこちらから!】yurugengo.com/support
当時、何の許諾だかよくわからずOKした一人です。あれが何だったのか初めてわかりました。なんかちょっと得した気分です。思い出しついでに探してみたら、その時にいただいたKOTONOHAの図書カードが出てきました。
学部生です。BCCWJには大変お世話になりました。本当にありがとうございました。
堀元さんと水野さんが感想からちょっと話が膨らんで雑談っぽくなったとき、一段落したタイミングを絶妙に読んでぱっと話を戻す丸山先生の知的反射神経すごいです。入る呼吸がよくて聞いていて気持ちがいいです。❤
私言語学を志している学生なのですがコーパスには本当にお世話になりました。あの網羅性を持ったコーパスがなければ私の研究はうまくいかなかったでしょう。このようなコーパスのお話を聞けてとても感激です。改めてありがとうございます。
22:14 赤毛連盟です。ちなみに辞書筆写してた理由はアリバイ作りではないのでネタバレではありません。
書こうと思ったら、先人がおられましたね。書き写していたのはたしか大英百科事典でした。
46:00 に出てくるMy hair is red. が赤毛連盟の原著に出てくるかどうかが気になってますw
今年も楽しみに待ってました
ことしもたのまち
ことしもたのくに
ことしもよろぼくも!
米粒を数えたことがある堀元さんでも本の文字数は数えたくないのが面白かったです。
丸山先生のお声と話し方がとても好きで聞いてて耳が心地いい
本当に心地良くて丸山先生ずっと話してて欲しい
ゆる言語学ラジオはじめてユーチューブで拝見しました。私は国語研のコーパス中納言のおかげで卒論が書けました。BCCWJに救われた学部生は数知れずですしこの先もたくさんの人間がお世話になる素晴らしいものだと思います。
6:12 「もしかして1億語集めるの大変だったんですか?」「当たり前だろ」好きw
うぽつです英単語帳6冊に掲載されてる英文でコーパスもどきを作ったことがあるのですが、1冊に丸一日以上かかったのでその規模でも非常に骨が折れたのを覚えています。それを遥かに上回る情報をまとめた先生には感服するばかりです
こういう辛いときに楽しい動画が見れてよかった
先生の話し方が非常に明解ですごい
1人で見ていたのですが妖怪”文字数え”で声を出して笑いました。年末年始自分の時間が無くてUA-cam自体見れてなかったのですが、やっぱりゆる言語学ラジオは面白いです。
先生が言うBCCWJがちょっと速いの好き
丸山先生の笑顔が素敵ですね
「時代のスナップショットを撮る」って感覚、いいな
コーパス言語学…、すごく興味あります。丸山先生の話し方や声が非常に聴きやすく、内容もとても興味深いものでした。今年も地道に聴き続けていきますので、よろしくお願いします。
大量に本を集めるのは楽しそうだけどそれをデータにする苦労考えるとびっくりしちゃう集めた本きっかけに何かの趣味始めたとかやけに詳しくなったコンテンツとかもありそう
途方もない作業量を要求するボケに追いついてくる現実こわい
お話を聞く過程で、何度も気が遠くなりそうになるお話でした。ほんと地味で単調で重要なお仕事お疲れ様です。
堀元さんが言ってたコメヌカにいる虫を探すためにコイン精米機を探すというエピソードは多分 宮武貴久先生の「したがるオスと嫌がるメスの生物学」ですね。めちゃくちゃ面白い本でしたが意外にこういう生物学の本も読むんですね
「デンスケ_(録音機)」でウィキペJに立項されてました。自分もチラリと現物みたこと有った気がします。当時のイイカンジな録音機。
国会図書館は国立(国会)図書館で、国民への情報提供サービスがメインであって国会に対する提供サービスは一部ということを子どもの頃は知りませんでした。「一般人は入れるの?」ってな感じ。
もしマンガが調査対象になっていたら、以前Twitterで「自分が作った同人誌は国立国会図書館に納本して永久に遺せる」みたいなのがバズってましたけど、実際に納本しちゃったエロ同人作家の本も国語研究者の目に晒されてたかもしれないかと思うとちょっと面白い。
形態素分析のグループの苦悩なんかを聞きたいです。「形容動詞」って合理的じゃなくない?みたいな日本語文法の本質に迫れる知見があるのではないかと感じました。
先生の発音がcorpusで、堀元さん, 水野さんがコーパスなのやっぱ研究って英語主体なんだなって思う。
立川市図書館が出てきてびっくり!立川在勤なのでよく利用しています。蔵書が豊富で、新刊もすぐ入る素晴らしい図書館ですよね…!
漫画コーパスは気になるけど擬音まで入れたら日本語コーパス作るのと同じくらいコストがかかりそう
若い二人はマイクロフィッシュ知らないんだ!、私知ってる〜と、ちょっとうれしくなった。国会図書館で、「この資料は現在マイクロフィッシュ化中のため貸し出しできません」というのがあったな。
ウィーズリー家みたいな髪色の方の話ですね水野さんも丸山先生もピンときていらっしゃらない事が驚きでした
新年から蟹のミソみたいなラジオ聞けて幸せです
日本語話し言葉コーパス(CSJ)には学部時代にお世話になりました!
出版物とかって文字数データベースを発行の段階で作ってくれててもいいのにね
IT屋がいう「データベース」は大抵がデータベースそのものじゃなくデータベース「マネージメントシステム」のほう…なのだろうなあ。(IT以外の「データベース」というコトバが原義なのだとすれば。)
サンプリングにベストセラー(閲覧率?)の重みをつけると、結果はどれくらい変わるのか気になる。
現在院生ですが、学部生の頃からBCCWJにはお世話になっております
背景 ホワイトボードのころより視聴しております。言葉の収集方法、0次資料から得られる貴重な情報たいへん興味深く拝見しました。ところで。歌の歌詞から言葉を採取するようなことはないのでしょうか?詩集や歌集も出版された印刷物ですが、歌謡曲などの歌詞まではあつめられないのでしょうか。やはり、早々に収集するのは難しいのですかね…
27:57「詰んでる」のイントネーションが「積んでる」と同じなのって、最近の現象なのか昔から二派いたのか気になる
本編と関係ないですが、今井むつみ先生が朝日新聞の対談で「アブダクション推論を…」「人気UA-cam番組で、子供の面白い言い間違いを…」などと話されていました😊
55:18刹那過ぎる
漫画も文字はあるし、もっと言えば発行されてない物でも社内文書とか契約書とか、あるいはメモや日記みたいなのも「書き言葉」じゃないかなぁと思った。ただ、言語学の対象が「ラング」なのであれば、自分自身が読むためのメモとか日記は含まないのかも知れない。あと、「文章として正しい日本語」として考えるなら、漫画とかはセリフ主体だし、どの部分をサンプリングするか微妙なコマも多そうだから落とすのも仕方ないのかなぁ…?
風邪引いてるから画面見なくてもいいの助かる気になったとこだけ確認してる
「書かれる文章」と「読まれる文章」は別なんじゃないかと思ったんですが、そういう研究って有るんですか?例えば、前回のクイズの「卵・玉子・たまご・タマゴ」の問題で、書かれる文章としては料理本とかで「玉子」って書かれる事が多そうだと思ったんですが、実際に読む中では、料理本で読む文章はごくわずかで、小説とかで読まれる普通の文章では「卵」が多そうだと思いました。
そういわれてみれば、納本制度はあるけど、「おのおのの本のデータ(たとえばここでは文字数)」も提出しろというルールではないんですね…
あぶねえ、ホームズのやつ書き込むところだった💦
もしパッパがまた手に入るならこんな人がいいお堀〇潤さん似の柔らかい表情と聴き心地のいい声エピソードトークおもろ今年初笑いでした、オネションマンありがとう。
今回も面白かったです
「たほいや」放送は1993年だから、BCCJWコーパスに入っていそうですね!
最後のサンプリングについての話2001年から2005年の日本の書き言葉全体の実態を波のように考えてみると、その波の特徴の一部を有するページをサンプリングすることで実態を捉えようとしているのだなと思いました。ただ、音の波形であれば時間をスパンにサンプリングすればいいですが、今回の場合は何を基準とするスパンでサンプリングすればいいのかわからないためにランダムサンプリングをするのだなと、だとすると1万3000サンプルはどういった根拠のもとなんだろうななどと考えられて興味深かったです。また、書き言葉は日常で書くメモやチラシなども含まれている中、新聞や書籍に限定すること自体も一種のサンプリングなのではないかとか、それらを分解して1万3000サンプルを集めるのもサンプリングだし、最後の堀本さんみたいに、作ったコーパス自体を一時代を切り取ったサンプルと考えることもできるなと思ってとても面白かったです
今回の動画を見て、私は喜んで文字の奴隷になりたいと思いました。大好きな文字のお話、大好きな図書館のお話が聞けてとても嬉しかったです。そしてなにより、なんて魅力的な作業(お仕事)…!!文字に触れ文字を集め実際の書籍に触れ、ずっと思考を文字のために費やして会議する…永遠にそんなお仕事が出来たら、タダでも喜んでやりたいくらいです。素人ではありますが、人生を文字に費やしたい、という意味で、文字の奴隷になりたいと思いました。※誤解を避ける為に先生やコーパスに携わる方を文字の奴隷だと言うつもりはなく、私がただ研究者でもなんでもない素人として文字の奴隷になりたいっていうドM意見晒してるだけです、すみません
堀元「ヤバない!?」水野「ヤバない悠」丸山先生「さて、魅せますか…………ファッ」
49:05 うんうん。それ。試しに小さいの試作する工程、やらせてもらいたいですよねえ…(IT屋のつぶやき)
コーパスの狙いにもよると思いますが、サンプリングの重みづけに関しておおよその読者数を掛けるような調整があったほうが普段目にする文章の比率を反映できそうな気がするんですがそういうのは無いんでしょうか
中国の書籍って必ず文字数が奥付に記載してあったんですが、そういえば日本の書籍って、書いてありませんね。
前回の「卵」「玉子」「たまご」「タマゴ」が、どうカウントされたのか知りたいです。特に「卵」が(らん)として書かれていても「卵」とカウントすると調査の意味をなさないし、用例採取者がこれは(らん)だと勝手に判断するのもコーパスとしての正確性が落ちる気もします。
BCCWJで「卵」だけ調べたら9270件で、これは生物学用語が多く含まれる前回動画では「卵(たまご)」は3719件これならちゃんと考慮してんじゃないの?BCCWJ無料版(小納言)しか使ってないから、有料版ならより高度な検索機能があって3719件を引っ張って来れるのかも知れない
やっぱ本業と被るだけあって堀本さんと相性良い分野だな
そもそも存在を知らなかったけど初めて検索してみて、身近な日本語の疑問を考察するのに使えそうだなと思った素人でそう思えたということは研究者にとっては涙が出るほどありがたいんだろうな
新年もよろしくお願いします
15:48 「~ないべき」という日本語はない と大学の講義で習いました。コーパスを参照したいですね
それはどっかの動画で触れられてた気がする
電子書籍などデータ化されたものが多くなってきているのでデータベースは作りやすくなっている、みたいな単純な話じゃないのが良く分かった
言語の基礎研究データですねぇこれを元に形態素解析だのLLMだのいろんな技術が進んだはずで、自動化して更新・再生産コストはだいぶ下がってるのかも検証コストの方に移行するのかな…
全く素人の疑問ですが、第一回の「ら抜きがどれだけ使われているのか」みたいなことを調べるのに、元となるソースは全て平等な重みで扱っていいのでしょうか?例えば1人にしか読まれていないYahoo知恵袋の回答とベストセラーの一文は同じ1回と数えて使用頻度の実態を把握できるのでしょうか?
非常に聞きにくい動画でした。先生の体験談がメインなはずが2人の感想や例え話し等が長くて本題の内容が忘れてしまいそうになりそれを機転の効いた先生によって軌道修正されるのを繰り返しで非常に話しの内容が聞き取り理解しにくかったです。
この研究めちゃくちゃ日本語LLMの研究に使えそう
16:25 Hunter×Hunterは文字主体なので対象に入れて下さい
堀元さんと水野さんはゆるく喋ってるかんじの喋りだけど丸山先生は伝えるために喋ってるかんじするな堀元水野のターンは昼休みに飯食いながら友達が喋ってるのを聴いてる感覚に近くて丸山先生が喋ってる間は講演とかテレビ番組の解説聴いてる感覚
薄い本をコーパスに入れるか議論はなかったようです。
スキャンしてOCR通すなり、出版社や新聞社から元データの提供を受けるとかできないのか🙄
これ思った。特に新聞社。
新聞って同じ日も時刻で内容差し替えられてたりするので縮刷版と違う可能性も。
国語研、立川にある…あれか。極地研の一般公開展示しているところに行く途中に前を通り過ぎた気がする。
あまりよろしくないと自覚してはいるんですが、先生の声がどうしても呪術〇戦の伊○知潔高(cv.岩○光央)に重なる部分が多く、いつの間にか呪術の世界線で自分がレクチャーされてる気分になってしまった…伊地知さんにコーパス説明されるってどんな世界線?呪霊特殊すぎやろ。
三省堂のウィズダムに代表されるcorpus-basedの英和辞典がありますが、日本語辞典の現状がどうなっているのか関心があります。
国会図書館に納本するときに、全ページをOCRしてデジタルデータとしても納本する、あるいは図書館側でデータ化するとよいのだろうけど、現実的ではないのだろうな。。
いやぁ大変だなぁ
2人のフェルミ推定が優秀過ぎる!
ホームズのネタバレ注意件の作品は『赤毛連盟 (The Red‐headed League)』ですね。
頭が大きいと脳みそが大きく賢いというデマを植え付けられましたね
著作権は学問の敵だとショーペンハウエルがおっしゃっていた
58:40 2ヶ月以上以前に録画した動画を今配信している堀元さんに鏡をそっと渡したい!
6:14 大爆笑ポイント
21:47 赤毛組合ですね
楽しい動画をあざす!
1:00 今回フォント いつもと違う感じがする…
サムネが昔見た餃子の王将のCMみたいに!
サンプルに誤植とかがあった場合はどうするのでしょうか本人が勘違いした誤用なら実態として入れたほうがいいと思いますが、単純な誤字などは、そう使おうとしたわけではないので言語の実態を見るには除外したほうがいいように思います。しかし、誤字なのか誤用なのかわからないようなものもあると思うのです。この辺りどう対処したのかが気になりました。
「XページのY文字目」だと、たまたま文字数が少ないページにあたってY文字目がない場合が頻出しそうだけどどうするんだろう?
これを観ている10代羨ましい🎉
バランス良くとってくるために文字数をカウントするの、株式のインデックスで時価総額平均を使っているのに似てるね
最近は書き言葉が軒並み生成aiに汚染されて大変だと聞く。
マイクロフィッシュは若者にはピンと来なかったか・・・マイクロフィルムと言えば分かるかも?
確かフィルム状のマイクロフィルムのコマをアレイ状に沢山並べて1枚の大きな版にしたのがマイクロフィッシュだった気がします。
冒頭の問に答えてしまうなんてw
2020年付近の新しいコーパスは生まれているのでしょうか?
25:40 「恣意的」のよくある誤用
57:10 デジタル化するというのはサンプリングするのではなく量子化すると言わないか?
ただ「量子化理論」を「サンプリング理論」とは言うんですよね。
インド人を右とかどうなるんだろ?
オネションマンの著者もびっくりしてるわ
ブラウンコーパスの”ウンコ”の部分
トウモロコシの実
コーパスで年越したのか。
アリバイ作りの為じゃなくて、留守にするためだったような? だから、ネタばれでは、ないー
【参考文献・参照URLへのリンク】
◯現代日本語書き言葉均衡コーパス
clrd.ninjal.ac.jp/bccwj/
◯書き言葉コーパス 設計と構築(講座 日本語コーパス 2)
amzn.to/48CImZT
◯講義「日本語の表記―指針と実態―」(柏野和佳子)/言語学レクチャーシリーズ Vol.17
ua-cam.com/video/B1ckyMTqH_s/v-deo.html
◯『現代日本語書き言葉均衡コーパス』におけるサンプル構成比の算出法 : 現代日本語書き言葉の文字数調査
doi.org/10.15084/00002838
◯『現代日本語書き言葉均衡コーパス』利用の手引 第1.0版
doi.org/10.15084/00003227
【サポーターコミュニティへの加入はこちらから!】
yurugengo.com/support
当時、何の許諾だかよくわからずOKした一人です。あれが何だったのか初めてわかりました。なんかちょっと得した気分です。思い出しついでに探してみたら、その時にいただいたKOTONOHAの図書カードが出てきました。
学部生です。
BCCWJには大変お世話になりました。
本当にありがとうございました。
堀元さんと水野さんが感想からちょっと話が膨らんで雑談っぽくなったとき、一段落したタイミングを絶妙に読んでぱっと話を戻す丸山先生の知的反射神経すごいです。
入る呼吸がよくて聞いていて気持ちがいいです。❤
私言語学を志している学生なのですがコーパスには本当にお世話になりました。
あの網羅性を持ったコーパスがなければ私の研究はうまくいかなかったでしょう。
このようなコーパスのお話を聞けてとても感激です。
改めてありがとうございます。
22:14 赤毛連盟です。
ちなみに辞書筆写してた理由はアリバイ作りではないのでネタバレではありません。
書こうと思ったら、先人がおられましたね。書き写していたのはたしか大英百科事典でした。
46:00 に出てくるMy hair is red. が赤毛連盟の原著に出てくるかどうかが気になってますw
今年も楽しみに待ってました
ことしもたのまち
ことしもたのくに
ことしもよろぼくも!
米粒を数えたことがある堀元さんでも本の文字数は数えたくないのが面白かったです。
丸山先生のお声と話し方がとても好きで聞いてて耳が心地いい
本当に心地良くて丸山先生ずっと話してて欲しい
ゆる言語学ラジオはじめてユーチューブで拝見しました。
私は国語研のコーパス中納言のおかげで卒論が書けました。BCCWJに救われた学部生は数知れずですしこの先もたくさんの人間がお世話になる素晴らしいものだと思います。
6:12 「もしかして1億語集めるの大変だったんですか?」「当たり前だろ」好きw
うぽつです
英単語帳6冊に掲載されてる英文でコーパスもどきを作ったことがあるのですが、1冊に丸一日以上かかったのでその規模でも非常に骨が折れたのを覚えています。それを遥かに上回る情報をまとめた先生には感服するばかりです
こういう辛いときに楽しい動画が見れてよかった
先生の話し方が非常に明解ですごい
1人で見ていたのですが妖怪”文字数え”で声を出して笑いました。年末年始自分の時間が無くてUA-cam自体見れてなかったのですが、やっぱりゆる言語学ラジオは面白いです。
先生が言うBCCWJがちょっと速いの好き
丸山先生の笑顔が素敵ですね
「時代のスナップショットを撮る」って感覚、いいな
コーパス言語学…、すごく興味あります。
丸山先生の話し方や声が非常に聴きやすく、内容もとても興味深いものでした。
今年も地道に聴き続けていきますので、よろしくお願いします。
大量に本を集めるのは楽しそうだけどそれをデータにする苦労考えるとびっくりしちゃう
集めた本きっかけに何かの趣味始めたとかやけに詳しくなったコンテンツとかもありそう
途方もない作業量を要求するボケに追いついてくる現実こわい
お話を聞く過程で、何度も気が遠くなりそうになるお話でした。ほんと地味で単調で重要なお仕事お疲れ様です。
堀元さんが言ってたコメヌカにいる虫を探すためにコイン精米機を探すというエピソードは多分 宮武貴久先生の
「したがるオスと嫌がるメスの生物学」ですね。めちゃくちゃ面白い本でしたが意外にこういう生物学の本も読むんですね
「デンスケ_(録音機)」でウィキペJに立項されてました。自分もチラリと現物みたこと有った気がします。当時のイイカンジな録音機。
国会図書館は国立(国会)図書館で、国民への情報提供サービスがメインであって
国会に対する提供サービスは一部ということを子どもの頃は知りませんでした。
「一般人は入れるの?」ってな感じ。
もしマンガが調査対象になっていたら、以前Twitterで「自分が作った同人誌は国立国会図書館に納本して永久に遺せる」みたいなのがバズってましたけど、実際に納本しちゃったエロ同人作家の本も国語研究者の目に晒されてたかもしれないかと思うとちょっと面白い。
形態素分析のグループの苦悩なんかを聞きたいです。「形容動詞」って合理的じゃなくない?みたいな日本語文法の本質に迫れる知見があるのではないかと感じました。
先生の発音がcorpusで、
堀元さん, 水野さんがコーパス
なのやっぱ研究って英語主体なんだなって思う。
立川市図書館が出てきてびっくり!立川在勤なのでよく利用しています。蔵書が豊富で、新刊もすぐ入る素晴らしい図書館ですよね…!
漫画コーパスは気になるけど擬音まで入れたら日本語コーパス作るのと同じくらいコストがかかりそう
若い二人はマイクロフィッシュ知らないんだ!、私知ってる〜と、ちょっとうれしくなった。国会図書館で、「この資料は現在マイクロフィッシュ化中のため貸し出しできません」というのがあったな。
ウィーズリー家みたいな髪色の方の話ですね
水野さんも丸山先生もピンときていらっしゃらない事が驚きでした
新年から蟹のミソみたいなラジオ聞けて幸せです
日本語話し言葉コーパス(CSJ)には学部時代にお世話になりました!
出版物とかって文字数データベースを発行の段階で作ってくれててもいいのにね
IT屋がいう「データベース」は大抵がデータベースそのものじゃなくデータベース「マネージメントシステム」のほう…なのだろうなあ。(IT以外の「データベース」というコトバが原義なのだとすれば。)
サンプリングにベストセラー(閲覧率?)の重みをつけると、結果はどれくらい変わるのか気になる。
現在院生ですが、学部生の頃からBCCWJにはお世話になっております
背景 ホワイトボードのころより視聴しております。
言葉の収集方法、0次資料から得られる貴重な情報たいへん興味深く拝見しました。
ところで。歌の歌詞から言葉を採取するようなことはないのでしょうか?
詩集や歌集も出版された印刷物ですが、歌謡曲などの歌詞まではあつめられないのでしょうか。
やはり、早々に収集するのは難しいのですかね…
27:57
「詰んでる」のイントネーションが「積んでる」と同じなのって、最近の現象なのか昔から二派いたのか気になる
本編と関係ないですが、今井むつみ先生が朝日新聞の対談で「アブダクション推論を…」「人気UA-cam番組で、子供の面白い言い間違いを…」などと話されていました😊
55:18
刹那過ぎる
漫画も文字はあるし、もっと言えば発行されてない物でも社内文書とか契約書とか、あるいはメモや日記みたいなのも「書き言葉」じゃないかなぁと思った。
ただ、言語学の対象が「ラング」なのであれば、自分自身が読むためのメモとか日記は含まないのかも知れない。あと、「文章として正しい日本語」として考えるなら、漫画とかはセリフ主体だし、どの部分をサンプリングするか微妙なコマも多そうだから落とすのも仕方ないのかなぁ…?
風邪引いてるから画面見なくてもいいの助かる
気になったとこだけ確認してる
「書かれる文章」と「読まれる文章」は別なんじゃないかと思ったんですが、そういう研究って有るんですか?
例えば、前回のクイズの「卵・玉子・たまご・タマゴ」の問題で、書かれる文章としては料理本とかで「玉子」って書かれる事が多そうだと思ったんですが、実際に読む中では、料理本で読む文章はごくわずかで、小説とかで読まれる普通の文章では「卵」が多そうだと思いました。
そういわれてみれば、納本制度はあるけど、「おのおのの本のデータ(たとえばここでは文字数)」も提出しろというルールではないんですね…
あぶねえ、ホームズのやつ書き込むところだった💦
もしパッパがまた手に入るならこんな人がいいお
堀〇潤さん似の柔らかい表情と聴き心地のいい声
エピソードトークおもろ
今年初笑いでした、オネションマンありがとう。
今回も面白かったです
「たほいや」放送は1993年だから、BCCJWコーパスに入っていそうですね!
最後のサンプリングについての話
2001年から2005年の日本の書き言葉全体の実態を波のように考えてみると、その波の特徴の一部を有するページをサンプリングすることで実態を捉えようとしているのだなと思いました。
ただ、音の波形であれば時間をスパンにサンプリングすればいいですが、今回の場合は何を基準とするスパンでサンプリングすればいいのかわからないためにランダムサンプリングをするのだなと、だとすると1万3000サンプルはどういった根拠のもとなんだろうななどと考えられて興味深かったです。
また、書き言葉は日常で書くメモやチラシなども含まれている中、新聞や書籍に限定すること自体も一種のサンプリングなのではないかとか、それらを分解して1万3000サンプルを集めるのもサンプリングだし、最後の堀本さんみたいに、作ったコーパス自体を一時代を切り取ったサンプルと考えることもできるなと思ってとても面白かったです
今回の動画を見て、私は喜んで文字の奴隷になりたいと思いました。大好きな文字のお話、大好きな図書館のお話が聞けてとても嬉しかったです。そしてなにより、なんて魅力的な作業(お仕事)…!!文字に触れ文字を集め実際の書籍に触れ、ずっと思考を文字のために費やして会議する…永遠にそんなお仕事が出来たら、タダでも喜んでやりたいくらいです。素人ではありますが、人生を文字に費やしたい、という意味で、文字の奴隷になりたいと思いました。
※誤解を避ける為に
先生やコーパスに携わる方を文字の奴隷だと言うつもりはなく、私がただ研究者でもなんでもない素人として文字の奴隷になりたいっていうドM意見晒してるだけです、すみません
堀元「ヤバない!?」
水野「ヤバない悠」
丸山先生「さて、魅せますか…………ファッ」
49:05 うんうん。それ。試しに小さいの試作する工程、やらせてもらいたいですよねえ…(IT屋のつぶやき)
コーパスの狙いにもよると思いますが、サンプリングの重みづけに関しておおよその読者数を掛けるような調整があったほうが普段目にする文章の比率を反映できそうな気がするんですがそういうのは無いんでしょうか
中国の書籍って必ず文字数が奥付に記載してあったんですが、そういえば日本の書籍って、書いてありませんね。
前回の「卵」「玉子」「たまご」「タマゴ」が、
どうカウントされたのか知りたいです。
特に「卵」が(らん)として書かれていても「卵」とカウントすると
調査の意味をなさないし、用例採取者がこれは(らん)だと勝手に判断する
のもコーパスとしての正確性が落ちる気もします。
BCCWJで「卵」だけ調べたら9270件で、これは生物学用語が多く含まれる
前回動画では「卵(たまご)」は3719件
これならちゃんと考慮してんじゃないの?
BCCWJ無料版(小納言)しか使ってないから、有料版ならより高度な検索機能があって3719件を引っ張って来れるのかも知れない
BCCWJで「卵」だけ調べたら9270件で、これは生物学用語が多く含まれる
前回動画では「卵(たまご)」は3719件
これならちゃんと考慮してんじゃないの?
BCCWJ無料版(小納言)しか使ってないから、有料版ならより高度な検索機能があって3719件を引っ張って来れるのかも知れない
BCCWJで「卵」だけ調べたら9270件で、これは生物学用語が多く含まれる
前回動画では「卵(たまご)」は3719件
これならちゃんと考慮してんじゃないの?
BCCWJ無料版(小納言)しか使ってないから、有料版ならより高度な検索機能があって3719件を引っ張って来れるのかも知れない
やっぱ本業と被るだけあって堀本さんと相性良い分野だな
そもそも存在を知らなかったけど初めて検索してみて、身近な日本語の疑問を考察するのに使えそうだなと思った
素人でそう思えたということは研究者にとっては涙が出るほどありがたいんだろうな
新年もよろしくお願いします
15:48 「~ないべき」という日本語はない と大学の講義で習いました。
コーパスを参照したいですね
それはどっかの動画で触れられてた気がする
電子書籍などデータ化されたものが多くなってきているのでデータベースは作りやすくなっている、みたいな単純な話じゃないのが良く分かった
言語の基礎研究データですねぇ
これを元に形態素解析だのLLMだのいろんな技術が進んだはずで、自動化して更新・再生産コストはだいぶ下がってるのかも
検証コストの方に移行するのかな…
全く素人の疑問ですが、第一回の「ら抜きがどれだけ使われているのか」みたいなことを調べるのに、元となるソースは全て平等な重みで扱っていいのでしょうか?
例えば1人にしか読まれていないYahoo知恵袋の回答とベストセラーの一文は同じ1回と数えて使用頻度の実態を把握できるのでしょうか?
非常に聞きにくい動画でした。先生の体験談がメインなはずが2人の感想や例え話し等が長くて本題の内容が忘れてしまいそうになりそれを機転の効いた先生によって軌道修正されるのを繰り返しで非常に話しの内容が聞き取り理解しにくかったです。
この研究めちゃくちゃ日本語LLMの研究に使えそう
16:25 Hunter×Hunterは文字主体なので対象に入れて下さい
堀元さんと水野さんはゆるく喋ってるかんじの喋りだけど丸山先生は伝えるために喋ってるかんじするな
堀元水野のターンは昼休みに飯食いながら友達が喋ってるのを聴いてる感覚に近くて丸山先生が喋ってる間は講演とかテレビ番組の解説聴いてる感覚
薄い本をコーパスに入れるか議論はなかったようです。
スキャンしてOCR通すなり、出版社や新聞社から元データの提供を受けるとかできないのか🙄
これ思った。特に新聞社。
新聞って同じ日も時刻で内容差し替えられてたりするので縮刷版と違う可能性も。
国語研、立川にある…あれか。
極地研の一般公開展示しているところに行く途中に前を通り過ぎた気がする。
あまりよろしくないと自覚してはいるんですが、先生の声がどうしても呪術〇戦の伊○知潔高(cv.岩○光央)に重なる部分が多く、いつの間にか呪術の世界線で自分がレクチャーされてる気分になってしまった…伊地知さんにコーパス説明されるってどんな世界線?呪霊特殊すぎやろ。
三省堂のウィズダムに代表されるcorpus-basedの英和辞典がありますが、日本語辞典の現状がどうなっているのか関心があります。
国会図書館に納本するときに、全ページをOCRしてデジタルデータとしても納本する、あるいは図書館側でデータ化するとよいのだろうけど、現実的ではないのだろうな。。
いやぁ大変だなぁ
2人のフェルミ推定が優秀過ぎる!
ホームズのネタバレ注意
件の作品は『赤毛連盟 (The Red‐headed League)』ですね。
頭が大きいと脳みそが大きく賢いというデマを植え付けられましたね
著作権は学問の敵だとショーペンハウエルがおっしゃっていた
58:40 2ヶ月以上以前に録画した動画を今配信している堀元さんに鏡をそっと渡したい!
6:14 大爆笑ポイント
21:47 赤毛組合ですね
楽しい動画をあざす!
1:00 今回フォント いつもと違う感じがする…
サムネが昔見た餃子の王将のCMみたいに!
サンプルに誤植とかがあった場合はどうするのでしょうか
本人が勘違いした誤用なら実態として入れたほうがいいと思いますが、単純な誤字などは、そう使おうとしたわけではないので言語の実態を見るには除外したほうがいいように思います。
しかし、誤字なのか誤用なのかわからないようなものもあると思うのです。
この辺りどう対処したのかが気になりました。
「XページのY文字目」だと、たまたま文字数が少ないページにあたってY文字目がない場合が頻出しそうだけどどうするんだろう?
これを観ている10代
羨ましい🎉
バランス良くとってくるために文字数をカウントするの、株式のインデックスで時価総額平均を使っているのに似てるね
最近は書き言葉が軒並み生成aiに汚染されて大変だと聞く。
マイクロフィッシュは若者にはピンと来なかったか・・・マイクロフィルムと言えば分かるかも?
確かフィルム状のマイクロフィルムのコマをアレイ状に沢山並べて1枚の大きな版にしたのがマイクロフィッシュだった気がします。
冒頭の問に答えてしまうなんてw
2020年付近の新しいコーパスは生まれているのでしょうか?
25:40 「恣意的」のよくある誤用
57:10 デジタル化するというのはサンプリングするのではなく量子化すると言わないか?
ただ「量子化理論」を「サンプリング理論」とは言うんですよね。
インド人を右とかどうなるんだろ?
オネションマンの著者もびっくりしてるわ
ブラウンコーパスの”ウンコ”の部分
トウモロコシの実
コーパスで年越したのか。
アリバイ作りの為じゃなくて、留守にするためだったような? だから、ネタばれでは、ないー