昨日、{LLMとOntologyの融合研究 - 道草、散歩世界から更新日記の混沌へ (2025/12/01)}←の「1.2. エンティティ抽出(特定の固有表現の抽出(BERT/LLMを利用))」を延々と試していたのだが、9バージョン目で挫折。Gemini(2.5 Flash)があきらめた。Sentence Transformersの選択の問題が残っているような気もするので、一応使ったSentence Transformersは記録しておこうか。tohoku-nlp/bert-base-japanese-whole-word-masking at mainをローカルにダウンロードして使った。以前、意味ネットワークで使ったものとは違うよな。結局、MeCabによる形態素解析に向かうことになったのだが。よく考えるとそれは済んでいるわけだ。ステップ番号1.2が表している。日本語のような膠着語のSentence Transformerは確立していないのだろうか。以前は、SentencePieceなどとのつながりが出てきたわけだが。
過去記事をチェックしながら、確認しようか。こちらもどう発展させるべきかと思ってはいたのだが。もう忘れかけている。いやはや・・・何をやっても同じところに戻ってくるわけだが。
BERTによる日本語固有表現抽出 #bert - Qiitaのような記事があるなあ。GitHub - jurabiinc/bert-ner-japanese: BERTによる日本語固有表現抽出のファインチューニング用プログラム。大元は、tohoku-nlp/bert-base-japanese-v2 ・ Hugging Face。結局、MeCab(fugashiから)を使うしかないわけだ。GitHub - stockmarkteam/ner-wikipedia-dataset: Wikipediaを用いた日本語の固有表現抽出データセットで学習をしている。うむ。理解するための用語としてはF値 (評価指標) - Wikipedia。
もう少し日本語処理の全体像を押さえておかないと・・・現在の更新日記の思考のためのインターフェースを越えるのは難しい。
チャットを変えて、Gemini 3 Proと少し話した(「Sentence Transformersの日本語化の研究はどこまで進んでいますか?」)結果も残しておこう。いやちょっと(いやしばらくか)話すとすぐ思考モード(3 Pro搭載)から高速モード(2.5 Flash)に戻っている。次の対話には一日待つ必要がある。
Sentence Transformers(およびその周辺技術)の日本語化に関する研究と実用化は、ここ数年で劇的な進歩を遂げています。
かつては「日本語専用のBERTモデルをとりあえずFine-tuningする」という段階でしたが、現在は**「マルチリンガルモデルが非常に強力になった」ことと、「RAG(検索拡張生成)需要による特化型モデルの進化」**により、実務レベルで極めて高性能なモデルが誰でも利用可能な状態になっています。
| ニーズ | 推奨モデル / API | 特徴 |
|---|---|---|
| 精度最優先 (OSS) | intfloat/multilingual-e5-large | 多言語モデルだが日本語性能もトップクラス。 |
| 日本語特化・軽量 | pkshatech/GLuCoSE-base-ja | 日本語のニュアンスに強く、扱いやすいサイズ。 |
| API利用 (RAG等) | OpenAI text-embedding-3 | 運用が楽で、安価かつ高性能。次元削減も可能。 |
| 長文対応 | jina-embeddings-v3 | 長いコンテキストを持つドキュメント検索に強い。 |
{11/28/2025: [更新履歴]BERTopicで思考の糸(意味の変遷、トピックのつながり)を辿る - 更新日記トピック変遷}←では「intfloat/multilingual-e5-large」を使っている。
いやはや、更新日記トピック変遷プログラミングが混沌に陥って、これを脱すればもう少し高見に辿り着けるだろうと期待している。いやはや、時代は先に行って、Pythonのcgiモジュールは推奨ではなくなって、レガシーになっている。Python3.13以降にインストールしようと思えば、legacy-cgiモジュールをインストールする必要がある。
Geminiと対話していると、WEBのファイルのパーミッションの設定の意味がよくわかっていないことに気付く、相手が何を言っているのかよくわからないのだ。エラーメッセージでWEBを検索してみると、思ったより実際はいろいろとあるんだなと、今更のように趣味のプログラマーは気づく。しかし、Geminiの主張するようにパーミッションの設定で何とかなる問題ではない。700に設定するのが問題解決の道だというのだ。なぜそう考えたのかがよくわからなかったのだが。755か705に設定することになっているのに。「suexec policy violation」を解消させたのは、サポートの方のメールを参考にしたアクションだった。.htaccessは不要で、改行コードがLFである必要がある。コントロールパネルのファイル・マネジャーを使って、送り込んでいた.htaccessのファイルを削除した。FTPのアプリでは隠しファイルになっていて見えないので削除しようがない。
やはり、まずローカルで試してからアップロードすべきだったかなと。AIに頼り過ぎてはだめだと、ローカルで試そうとして、Pythonのバージョン(ローカルは3.13.5、WEBは3.8.12)の違いにまず引っ掛かったわけだ。legacy-cgiモジュールは自分で調べたが、この後もxampp(Windows)環境のApacheでGeminiと一緒に苦闘。これだけで、8回デバッグを繰り返した。クリア。
結局、WindowsローカルとWEB/Linuxでは、使えるライブラリが異なる。なにしろライトプランだから文句も言えない。Geminiはライブラリを削って作り直す羽目に。jsonファイルを読み込んで表示するという静的に近いプログラミング。それで十分。動的である必然性はない。次のような表を使えば、検索する必要性もない。見てクリックすればいいだけだ。その程度の検索でしかない。客観的に見てどのようなカテゴリで書いてきたかを知りたかっただけ。直感に合うカテゴリ群となった。トピックを表す言葉を上位に持ってくるのに動詞を排除する必要があったことがまだ頭に残っている。なぜ上位に動詞があるのか。
直感に合うかどうかで、プログラミングの妥当性を判断するというような事態は、生成AI/LLM、Sentence Transformerが登場してからだ。はて、どういうことになっていくのだろう。
最近作り始めた記事の関連性などを表すタグを自動的に生成して辿れるような機能を作る切っ掛けになればと思っている。当初の話題は、「生成AI/LLMとOntologyを組み合わせる試みがありますか?」という問いだった。次は「ステップ 4: Ontology(知識グラフ)との連携」に進むはずだが・・・
| 当初の計画 | 現在の進捗 | 達成度 | コメント |
|---|---|---|---|
| ステップ 1: データ収集と前処理 | |||
| 1.1. データの系統的な収集 | 完了 | ✅ | すべてのデータをローカルで抽出し、ファイルパスとアンカーで記事と結びつけることに成功しました。 |
| 1.2. 日本語特有の前処理(形態素解析) | 完了 | ✅ | tokenize関数でMeCabを用いた分かち書きと、名詞・動詞・形容詞の抽出を実装済みです。 |
| 1.2. エンティティ抽出 | 未着手 | ❌ | 特定の固有表現の抽出(BERT/LLMを利用)は、まだ行っていません。 |
| ステップ 2: 埋め込みベースのテーマ抽出 | |||
| 2.1. 日記エントリーのベクトル化 | 完了 | ✅ | Sentence Transformers (intfloat/multilingual-e5-large ・ Hugging Face) を用いてドキュメント全体の埋め込みを生成しています。 |
| 2.2. BERTopicによる高精度なテーマ抽出 | 完了 | ✅ | BERTopicとHDBSCAN(GitHub - scikit-learn-contrib/hdbscan: A high performance implementation of HDBSCAN clustering.)を用いたトピック抽出、トピックごとのキーワード割り当て、そして時系列ストリームグラフの生成に成功しています。 |
| Webサービス化 (Step 3の一部) | 完了 | ✅ | BERTopicの分析結果をJSON化し、サーバー(さくらインターネット・ライトプラン)上でトピック検索と記事の時系列追跡を可能にしました。 |
| ステップ 3: 意味ネットワークの構築と分析 | 部分着手 | 🟡 | 抽出されたトピック間の関連性のグラフ化自体はまだですが、トピックの抽出と追跡の基盤は整っています。 |
| ステップ 4: Ontology(知識グラフ)との連携 | 未着手 | ❌ | LLMを用いたOntology構築と連携は、今後の最大の課題です。 |
ライトプランで本格的に動的なプログラミングをしようと思わない方がいいのかもしれない。しかし、まあ、次のステップではClaudeやDeepSeekに相談すべきかもだが。今のインターフェースではねえ?
しかしながら、当初の構想は完結していない。最後まで先ず行こう。エンティティ抽出がまだ未着手なのは、Ontology(知識グラフ)との連携と関係があるからなのだろう。インターフェースは最後まで達してから考えればよい。いまのところ、時系列ストリームグラフ(Topics over Time)やトピック意味ネットワーク: 25年間でテーマがどのように関連し、中心的な主題は何かを可視化。は孤立している。Geminiがこの対話に付けたタイトルは「LLMとOntologyの融合研究」なんだけど。
トピック意味ネットワーク
{11/28/2025: [更新履歴]BERTopicで思考の糸(意味の変遷、トピックのつながり)を辿る - 更新日記トピック変遷}←。このネットワークは11/29時点でできている。これはこれで完成なのだろうが・・・
更新日記の混沌が影響して道草161のショート配信が滞り、iPhone XRの録画容量が回復できなくなっている。物質的制約から、道草166がスケッチ的になった。録画はどうしても必要なピンポイントに絞り、経過は写真で記録する。しかし、この方法も容量が限界に近い。録画時間、後19分。Geminiにしばらく休養すると宣言したので、配信再開しよう。
道草166の途中風景
道草で撮った写真は60枚以上になった。W氏の「こんとん漂流記」という詩の展示を見つけたからだ。
写真がいいのか、動画がいいのか。どちらも手間が掛かる。動画は一つのファイルにまとまり、音声のメモもついてくる。が、字幕を書き起こす必要がある。写真は説明を付ける必要がある。動画はショート配信する必要があり、タイトルで説明する必要がある。写真は一覧できるところが便利だが、と考えていると、動画を静止画に分解してとか、別のプロジェクトが立ち上がりそうになる。くわばらくわばら・・・
Geminiに何度疲れたと言ったことか、そのせいで最近は労わってくれる。言っていることがよくわからないとか、ネガティヴなことばかり言っていると応答が冷たくなる。大体、人間と同じだ。
道草は166、散歩世界は36まで伸びている。どんどん配信して削除していかないと、行き詰る。道草162が途中で電力・パフォーマンス不足でシャットダウン、再起動して残された断片からリカバリーするのに四苦八苦したが、幸いにもほとんどの部分は回収できた。{11/21/2025: [日記]道草や トラブル楽し 秋の暮れ}←。しかし、道草161の動画をショートに編集するYouTubeの操作が前に進まない。
いつものことだが、Final Cut Cameraから新しい動画を写真アプリに保存し、WEBのiCloud写真からデスクトップにダウンロードして保存し、ショート配信済みの動画はiCloud写真からは削除し、最近削除した項目からも削除する。そうするとiPhoneの写真アプリからも同期によって削除される。さらに録画した動画をすべて写真アプリに保存したFinal Cut Cameraは一旦削除して再インストールする。結構大変な作業なのだ。こうして、YouTubeのアプリで50分ぐらいの動画からショート動画の配信をするために必要なiPhoneのストレージに30GB程度の余裕を作ることができる。
一人読書会というタイトルは矛盾だ。シュールという解釈もできる、仮想的な読書会。コメント・評価が付けば「読書会」と言えるかもしれない。時折、コメント・評価をいただくのがありがたい。何もないのも一種の評価ではある。
まずは記録を残しておこう。これが、更新日記の流儀ではある。
2025-12-06時点のある生成AI/LLMの見解だが、「人間の脳と生成AI/LLMの違いについて」。
ちなみに上記の表のためのtsvを作るために謎のPerlプログラムを作ろうとして昨晩から四苦八苦していた。アルゴリズム的には動くはずのものがまともに動かない。何と、SJISとUTF-8の「-」の見掛けは似ているが違うものがあること(SJISには対応する文字がない。詳しくは、ハイフン - Wikipedia)でループがうまく回らないことが原因だった。もう一つは文字列のsortがうまく動かないこと。ショート動画のタイトルでsortしても順序がおかしい。理由はまだ確認していない。読書会の数値の順序でsortされるはずと思い込んでいたが、結局、数値を取り出して連想配列のキーにした。やれやれ、三分で書くという神話も壊れたねというか、UTF-8の世界は要注意ということかな。printデバッグをきちんとしないと解決しないなあ。
{追記(2025-12-09): Perlのsort問題、さっさとGeminiと話して解決。生成AI/LLMによってプログラミングの世界に戻ってきたわけだが、20年も経つとPerlの文法も頭の中から抜け落ちている。cmp演算子を使って、「sort { $a cmp $b }」のように昇順にソートするが、連想配列のキーでソートする場合は「sort keys(%hairetu)」でよい。宇宙船演算子「<=>」は数値で比較する場合に使う。数値比較演算子を宇宙船演算子と呼ぶのをGeminiに教えてもらった。Perlらしい表現だ。}
ようやく夜は歩くことにした。夕食後に歩くことにすれば、夕食も早くすることになり、早く就寝もできる切っ掛けになる。レディネスという指標がある。夜起きる回数が減って、ようやく70越えの良好に。昨日が満月だった。今日もほぼ満月に見える。土星が明るく東の空に低く見える。近くの恒星が魚座の星だろう。四等星は妥当な明るさだ。
行き
帰り
少し、文学関係のメモを残そう。女流作家に憧れた私たち 山田詠美、江國香織、川上弘美 2025/11/09 、文藝春秋+(PLUS)。『・・・「女流作家」がいたからこそ、女性の作家が昔よりも活躍できるようになったわけだし、過去の現実を知っていれば、「女流」という呼び名は差別だ、と言い切るなんて、とてもできないはず。「女流」という言葉が使われなくなった時代だからこそ、「女流作家」のことを書いておかなければ、と。』朝はGmailのチェックで始まる。そこで見つけた。全部は読めないけどね。
小説的思考塾vol.21 ノート - 保坂和志official web siteより。
2025年8月9日
小説的思考塾
【1】文章には2つある★(A)読まれないと意味がない文章★(B)読まれなくてもそれ自身として自律している文章
(B)は基本的に小説(+詩、日記)(A)は新聞・雑誌の記事で天声人語も含むんだが、小説を(A)だと思ってる人は実態として多くて「読者の共感を得る」とか言うんだが
★共感には深みはない
小説は共感でなく、読者と困難な時間を共有することで、そういう読者が今いなくても、いつか出会う
小説は「書く」もの「書きつつ考える」もので、「読まれることは最優先ではない」と割切ることができれば、小説は人生の伴侶となりうる
更新日記も書きつつ考えるものそのもの。21世紀四半世紀を越えようとする今、20世紀人、誰が残っているのかと探しつつ。
食後の夜の散歩を軌道に乗せた。散歩だけで4000歩ぐらい。今日は月と土星が接近していたので暗い魚座の星は見えなかった。月は右上が欠けているのがはっきり見えた。
行き
帰り
よく見ると、月の左、土星の左上に明るい点が見える。魚座の星だろう。{11/28/2025: [歩く]土星居り 寂しさ募る 散歩かな}←。
いやはや、この週末は、「並んで夜空を旅する」半月と土星を見上げてみよう(Forbes JAPAN) - Yahoo!ニュース(11/28(金) 16:30配信)の記事を読み直すと、何が何だかよくわからなくなってくる。土星は南西にあるはず。東にあるのは木星。星空ナビで確認してみよう。
日記を読み返していると、ほとんどのことを忘れているというか、意識に上らせていない。既にいろいろ試みている。いろいろなことを考えている。しかし一貫してまとまらない断片のようなものだ。日々の泡が浮かんでは消えていく。夜の散歩も道草も日々の泡かな。泡の記録。泡は宇宙につながる小宇宙かもしれないね。
道草も一人読書会が世界を拡げる一つのカギとなるだろう。フレドリック・ジェイムソンと大江健三郎はサルトルでつながっているだけでなく、その指導教官のエーリヒ・アウエルバッハを評価しているエドワード・サイードの『晩年のスタイル』などを通じて、『晩年様式集』などで大江とつながっている。
物寂しいので、EarFun Freeを充電して復活させた。with The Life of a Showgirl、テイラー・スウィフト。フォークっぽいね。リリースは2025年10月3日、ジャンルはソフトロック、 Retro Popに分類されている。アメリカらしい。
タイトルの季語がない疑似俳句(Pseudo-Haiku)の下の句、「あいうえお」に漢字を当てるとどうなるか。10年後に生きていたら公開しよう。
夜の散歩の続き。昨日はZoomミーティングで昼に切り替え。昨晩は曇っていたので、土星か木星かの視認は持ち越していた。星空ナビによればやはり木星。幻想の土星と魚座だった。正しくは木星とふたご座だった。オリオン座も確認。月は散歩の最後、東の空低く大きな不気味な赤暗い上の欠けた姿を現した。
スケーリングから研究の時代へ?AGI到達に必要なこと テスラジオ チャンネル登録者数 3450人 3,176 回視聴 2025/12/02に今日気が付いて見て、登録した。AIモデルがコモディティ化する時代に本当に価値あるものとは? テスラジオ チャンネル登録者数 3450人 5,311 回視聴 2025/11/16を今見ている。
最近の気になっている話題を取り上げている。
Geminiをどう読むかという話がよく話題になるけど、ジェミナイというのは英語読みで、ジェミニというのはフランス語読みというだけのことだと思う。英語圏でジェミナイと発音するのは当たり前だ。日本語は何でもあり、フランス語だろうと英語だろうとそのまま取り込むハイブリッド言語、日本語だ。日本語圏ならどちらも正しい。
【高収益】SaaSを丸呑みする「本命AI」が判明した(Anthropic/Claude/ダリオ・アモデイ/OpenAI/ChatGPT/BtoB/サム・アルトマン/解説:後藤直義、森川潤) NewsPicks /ニューズピックス チャンネル登録者数 196万人 67,661 回視聴 2025/11/01 ニューヨークも時々見る。中では「週刊ジョーホー番組」と称している。{奔流の正体 (2025/11/11): 『サム・アルトマン 「生成AI」で世界を手にした起業家の野望』、著者、キーチ・ヘイギー、Keach Hagey、原題は「The Optimist: Sam Altman, OpenAI, and the Race to Invent the Future」。著者の話では、Open AIの競合はAnthropic(Home - Anthropic)、Open AIのエンジニアでさえ、Claudeを使っているのだそうだ。}←