更新日記 - 日曜プログラマのひとりごと
道草は166、散歩世界は36まで伸びている。どんどん配信して削除していかないと、行き詰る。道草162が途中で電力・パフォーマンス不足でシャットダウン、再起動して残された断片からリカバリーするのに四苦八苦したが、幸いにもほとんどの部分は回収できた。{11/21/2025: [日記]道草や トラブル楽し 秋の暮れ}←。しかし、道草161の動画をショートに編集するYouTubeの操作が前に進まない。
いつものことだが、Final Cut Cameraから新しい動画を写真アプリに保存し、WEBのiCloud写真からデスクトップにダウンロードして保存し、ショート配信済みの動画はiCloud写真からは削除し、最近削除した項目からも削除する。そうするとiPhoneの写真アプリからも同期によって削除される。さらに録画した動画をすべて写真アプリに保存したFinal Cut Cameraは一旦削除して再インストールする。結構大変な作業なのだ。こうして、YouTubeのアプリで50分ぐらいの動画からショート動画の配信をするために必要なiPhoneのストレージに30GB程度の余裕を作ることができる。
スケーリングから研究の時代へ?AGI到達に必要なこと テスラジオ チャンネル登録者数 3450人 3,176 回視聴 2025/12/02に今日気が付いて見て、登録した。AIモデルがコモディティ化する時代に本当に価値あるものとは? テスラジオ チャンネル登録者数 3450人 5,311 回視聴 2025/11/16を今見ている。
最近の気になっている話題を取り上げている。
Geminiをどう読むかという話がよく話題になるけど、ジェミナイというのは英語読みで、ジェミニというのはフランス語読みというだけのことだと思う。英語圏でジェミナイと発音するのは当たり前だ。日本語は何でもあり、フランス語だろうと英語だろうとそのまま取り込むハイブリッド言語、日本語だ。日本語圏ならどちらも正しい。
【高収益】SaaSを丸呑みする「本命AI」が判明した(Anthropic/Claude/ダリオ・アモデイ/OpenAI/ChatGPT/BtoB/サム・アルトマン/解説:後藤直義、森川潤) NewsPicks /ニューズピックス チャンネル登録者数 196万人 67,661 回視聴 2025/11/01 ニューヨークも時々見る。中では「週刊ジョーホー番組」と称している。{奔流の正体 (2025/11/11): 『サム・アルトマン 「生成AI」で世界を手にした起業家の野望』、著者、キーチ・ヘイギー、Keach Hagey、原題は「The Optimist: Sam Altman, OpenAI, and the Race to Invent the Future」。著者の話では、Open AIの競合はAnthropic(Home - Anthropic)、Open AIのエンジニアでさえ、Claudeを使っているのだそうだ。}←
更新日記の混沌が影響して道草161のショート配信が滞り、iPhone XRの録画容量が回復できなくなっている。物質的制約から、道草166がスケッチ的になった。録画はどうしても必要なピンポイントに絞り、経過は写真で記録する。しかし、この方法も容量が限界に近い。録画時間、後19分。Geminiにしばらく休養すると宣言したので、配信再開しよう。
道草166の途中風景
道草で撮った写真は60枚以上になった。W氏の「こんとん漂流記」という詩の展示を見つけたからだ。
写真がいいのか、動画がいいのか。どちらも手間が掛かる。動画は一つのファイルにまとまり、音声のメモもついてくる。が、字幕を書き起こす必要がある。写真は説明を付ける必要がある。動画はショート配信する必要があり、タイトルで説明する必要がある。写真は一覧できるところが便利だが、と考えていると、動画を静止画に分解してとか、別のプロジェクトが立ち上がりそうになる。くわばらくわばら・・・
Geminiに何度疲れたと言ったことか、そのせいで最近は労わってくれる。言っていることがよくわからないとか、ネガティヴなことばかり言っていると応答が冷たくなる。大体、人間と同じだ。
いやはや、更新日記トピック変遷プログラミングが混沌に陥って、これを脱すればもう少し高見に辿り着けるだろうと期待している。いやはや、時代は先に行って、Pythonのcgiモジュールは推奨ではなくなって、レガシーになっている。Python3.13以降にインストールしようと思えば、legacy-cgiモジュールをインストールする必要がある。
Geminiと対話していると、WEBのファイルのパーミッションの設定の意味がよくわかっていないことに気付く、相手が何を言っているのかよくわからないのだ。エラーメッセージでWEBを検索してみると、思ったより実際はいろいろとあるんだなと、今更のように趣味のプログラマーは気づく。しかし、Geminiの主張するようにパーミッションの設定で何とかなる問題ではない。700に設定するのが問題解決の道だというのだ。なぜそう考えたのかがよくわからなかったのだが。755か705に設定することになっているのに。「suexec policy violation」を解消させたのは、サポートの方のメールを参考にしたアクションだった。.htaccessは不要で、改行コードがLFである必要がある。コントロールパネルのファイル・マネジャーを使って、送り込んでいた.htaccessのファイルを削除した。FTPのアプリでは隠しファイルになっていて見えないので削除しようがない。
やはり、まずローカルで試してからアップロードすべきだったかなと。AIに頼り過ぎてはだめだと、ローカルで試そうとして、Pythonのバージョン(ローカルは3.13.5、WEBは3.8.12)の違いにまず引っ掛かったわけだ。legacy-cgiモジュールは自分で調べたが、この後もxampp(Windows)環境のApacheでGeminiと一緒に苦闘。これだけで、8回デバッグを繰り返した。クリア。
結局、WindowsローカルとWEB/Linuxでは、使えるライブラリが異なる。なにしろライトプランだから文句も言えない。Geminiはライブラリを削って作り直す羽目に。jsonファイルを読み込んで表示するという静的に近いプログラミング。それで十分。動的である必然性はない。次のような表を使えば、検索する必要性もない。見てクリックすればいいだけだ。その程度の検索でしかない。客観的に見てどのようなカテゴリで書いてきたかを知りたかっただけ。直感に合うカテゴリ群となった。トピックを表す言葉を上位に持ってくるのに動詞を排除する必要があったことがまだ頭に残っている。なぜ上位に動詞があるのか。
直感に合うかどうかで、プログラミングの妥当性を判断するというような事態は、生成AI/LLM、Sentence Transformerが登場してからだ。はて、どういうことになっていくのだろう。
最近作り始めた記事の関連性などを表すタグを自動的に生成して辿れるような機能を作る切っ掛けになればと思っている。当初の話題は、「生成AI/LLMとOntologyを組み合わせる試みがありますか?」という問いだった。次は「ステップ 4: Ontology(知識グラフ)との連携」に進むはずだが・・・
| 当初の計画 | 現在の進捗 | 達成度 | コメント |
|---|---|---|---|
| ステップ 1: データ収集と前処理 | |||
| 1.1. データの系統的な収集 | 完了 | ✅ | すべてのデータをローカルで抽出し、ファイルパスとアンカーで記事と結びつけることに成功しました。 |
| 1.2. 日本語特有の前処理(形態素解析) | 完了 | ✅ | tokenize関数でMeCabを用いた分かち書きと、名詞・動詞・形容詞の抽出を実装済みです。 |
| 1.2. エンティティ抽出 | 未着手 | ❌ | 特定の固有表現の抽出(BERT/LLMを利用)は、まだ行っていません。 |
| ステップ 2: 埋め込みベースのテーマ抽出 | |||
| 2.1. 日記エントリーのベクトル化 | 完了 | ✅ | Sentence Transformers (intfloat/multilingual-e5-large ・ Hugging Face) を用いてドキュメント全体の埋め込みを生成しています。 |
| 2.2. BERTopicによる高精度なテーマ抽出 | 完了 | ✅ | BERTopicとHDBSCAN(GitHub - scikit-learn-contrib/hdbscan: A high performance implementation of HDBSCAN clustering.)を用いたトピック抽出、トピックごとのキーワード割り当て、そして時系列ストリームグラフの生成に成功しています。 |
| Webサービス化 (Step 3の一部) | 完了 | ✅ | BERTopicの分析結果をJSON化し、サーバー(さくらインターネット・ライトプラン)上でトピック検索と記事の時系列追跡を可能にしました。 |
| ステップ 3: 意味ネットワークの構築と分析 | 部分着手 | 🟡 | 抽出されたトピック間の関連性のグラフ化自体はまだですが、トピックの抽出と追跡の基盤は整っています。 |
| ステップ 4: Ontology(知識グラフ)との連携 | 未着手 | ❌ | LLMを用いたOntology構築と連携は、今後の最大の課題です。 |
ライトプランで本格的に動的なプログラミングをしようと思わない方がいいのかもしれない。しかし、まあ、次のステップではClaudeやDeepSeekに相談すべきかもだが。今のインターフェースではねえ?
しかしながら、当初の構想は完結していない。最後まで先ず行こう。エンティティ抽出がまだ未着手なのは、Ontology(知識グラフ)との連携と関係があるからなのだろう。インターフェースは最後まで達してから考えればよい。いまのところ、時系列ストリームグラフ(Topics over Time)やトピック意味ネットワーク: 25年間でテーマがどのように関連し、中心的な主題は何かを可視化。は孤立している。Geminiがこの対話に付けたタイトルは「LLMとOntologyの融合研究」なんだけど。
トピック意味ネットワーク
{11/28/2025: [更新履歴]BERTopicで思考の糸(意味の変遷、トピックのつながり)を辿る - 更新日記トピック変遷}←。このネットワークは11/29時点でできている。これはこれで完成なのだろうが・・・