クリエイティブAI講座:なぜTransformerは掛け算を学習できないのか? - アテンションツリーによるに段階推論 SingularitySalon チャンネル登録者数 9950人 2025/10/14 収録日:2025年10月9日で紹介された論文([2510.00184] Why Can't Transformers Learn Multiplication? Reverse-Engineering Reveals Long-Range Dependency Pitfalls)の掛け算の問題。
I'll calculate this step by step.
977×9377
=977×(9000+300+70+7)
=(977×9000)+(977×300)+(977×70)+(977×7)
=8,793,000+293,100+68,390+6,839
=8,793,000+293,100=9,086,100
=9,086,100+68,390=9,154,490
=9,154,490+6,839=9,161,329
Answer: 9,161,329
Calculating product
The request appears to be a multiplication problem: 977 times 9377.
コードを実行しました
print(977 * 9377)
This is a closed-ended math question, so the final response will include the solution with clear, step-by-step reasoning.
いろいろ問題やその原因はあるだろうけど。瞬時に結果を表示するのは、Grok エキスパートが示すようにコードで計算した結果を表示しているのだろう。Grok エキスパートはそこからユーザーの意図を察して、step-by-step推論に書き下していると思われる。
見るものが無くなってというか、しかし見るものはあるというか、そんな感じで毎日を過ごしている。道草153(図書館帰りの道草日記 153 前編 更新日記: 駱駝・楽土・AIカフェ 図書館帰りの道草日記 散歩世界プロジェクト チャンネル登録者数 600人 2025-10-05の日記:)を配信していると、溜め息の多さに驚き、呆れ、悲しい日々が続いていることとの関連性に思い至る。Apple TV+で「ロスト・バス」を見ながら最後の方では涙ぐんでいた。しばらく、涙が乾かなかった。主人公たちが史上最大の山火事の絶体絶命の危機を辛うじて乗り越え生き延びる話なのだが。生と死の物語だ。
「NO TIME TO DIE」を見たのは二度目か三度目、最後、ジェームズ・ボンドは死んでしまったと思われる結末。ChatGPTに尋ねた。ジェームズ・ボンドは本当に死んでしまったのかと。続編はないのかと。驚くべきことに、ChatGPTは見事に説明する。「実は、『No Time to Die(2021)』は『You Only Live Twice(1964)』の裏返しのように構成されています」と。ダニエル・クレイグ版007は終りだと。イアン・フレミングの詩を引用して、「この詩はまさに『No Time to Die』のボンドの生き方そのものです。彼は死を直視することで“二度目の生”を得た。それが最終章の「死ぬ時ではない」=「生を完遂した死」という逆説を支える文学的基盤なんです」と。
しかしながら、引用すべき出典はあるだろう。Faithful to Fleming? - Is No Time To Die the Closest Adaptation of You Only Live Twice That Will Ever Be? - Not Perfected Yet - A James Bond Blog。
ターミナル・リスト 〜闇の狼〜の元になるジャック・カーの小説の映画化(ターミナル・リスト - Wikipedia)は以前観たような気もするが、新しいシリーズが現れた。これはまだ継続する。
「チャレンジャーフジツボ」を検索して驚いて{10/10/2025: [自然]記憶の細道プロジェクト - フジツボの研究}←、ChatGPTの回答ですんなり頭に入らない部分を調べ始めた。
私: 調べていると、イワフジツボとミネフジツボは異なる属に属しているようですが、
- Genus Balanus Costa, 1778 フジツボ属
- Species Balanus crenatus Bruguiere, 1789 ハナフジツボ
- Species Balanus glandula Darwin, 1854 キタアメリカフジツボ
- Species Balanus rostratus Hoek, 1883 ミネフジツボ
- Species Balanus trigonus Darwin, 1854 サンカクフジツボ
- Genus Chthamalus Ranzani, 1817 イワフジツボ属
- Species Chthamalus challengeri Hoek, 1883 イワフジツボ
- Species Chthamalus dalli Pilsbry, 1916 キタイワフジツボ
- Species Chthamalus malayensis Pilsbry, 1916 ミナミイワフジツボ
- Species Chthamalus moro Pilsbry, 1916 リトウイワフジツボ
ChatGPT: 素晴らしい観察眼と文献調査ですね。
はい、まさにそこがフジツボ類の分類で混乱が多いポイントです。
おっしゃるとおり、イワフジツボ(Chthamalus challengeri) と ミネフジツボ(Balanus rostratus) は、属レベルで異なります。
正確な分類(現在の整理) 種名(和名) 学名 属 主な分布・特徴 イワフジツボ Chthamalus challengeri Hoek, 1883 イワフジツボ属 (Chthamalus) 上部潮間帯。外洋性。飛沫帯ぎりぎりまで付着。 ミネフジツボ Balanus rostratus Hoek, 1883 フジツボ属 (Balanus) 中〜上部潮間帯。内湾〜汽水域に強い。瀬戸内海で普通。 タテジマフジツボ Amphibalanus amphitrite Darwin, 1854 タテジマフジツボ属(Amphibalanus属の間違い) (Amphibalanus) 中〜下部潮間帯。港湾・船底などに多い。 サンカクフジツボ Balanus trigonus Darwin, 1854 フジツボ属 (Balanus) 下部潮間帯〜浅海域。波当たりが強い岩礁。 キタアメリカフジツボ Balanus glandula Darwin, 1854 フジツボ属 (Balanus) 北太平洋起源。外来種。日本海側・太平洋北部に拡大中。 補足解説
- **かつて(20世紀中頃)**は、フジツボ属 Balanus が非常に広く使われており、「ミネフジツボ」も「イワフジツボ」も「Balanus 属」に入れられていました。
- しかしその後、殻の構造(壁板・基部・筋肉付着部位など)や遺伝子解析の結果、上部潮間帯に生息するグループ(Chthamalus)は別属として独立しました。
現在では:
- Chthamalus challengeri → イワフジツボ属
- Balanus rostratus → フジツボ属
と明確に分けられています。
つまり整理すると 比較 イワフジツボ ミネフジツボ 学名 Chthamalus challengeri Balanus rostratus 属 イワフジツボ属 (Chthamalus) フジツボ属 (Balanus) 潮位帯 上部潮間帯(飛沫帯寄り) 中〜上部潮間帯 好む環境 外洋性岩礁 内湾・護岸・汽水域 殻の外見 やや小型・灰白色・縦すじ明瞭 やや大型・平滑〜やや縦すじ・乾くと白くなる 瀬戸内での優占 まれ 普通種(優占) 瀬戸内海の護岸の観察では:
あなたが観察されたように、干潮線より上の「乾いても生きている帯」に帯状に並ぶフジツボは、ミネフジツボ (Balanus rostratus) が最も可能性が高いです。
一方、外洋寄り(波当たりの強い岩礁など)では イワフジツボ (Chthamalus challengeri) が優勢です。
もしよければ、先ほどの「潮間帯分布図(SVG)」を、この最新の属レベル分類(Balanus / Chthamalus / Amphibalanus)に合わせて学名付きで改訂したバージョンをお作りできます。
ご希望ありますか?(例:「属ごとに学名と代表種を明記」など)
Balanus rostratus ミネフジツボ - Biological Information System for Marine Lifeで検索して調べた。
私: タテジマフジツボは属(Genus)ではなく種(Species)ですね。
- Genus Amphibalanus Pitombo, 2004
- Species Amphibalanus amphitrite (Darwin, 1854) タテジマフジツボ
- Species Amphibalanus eburneus (Gould, 1841) アメリカフジツボ
- Species Amphibalanus improvisus (Darwin, 1854) ヨーロッパフジツボ
- Species Amphibalanus reticulatus (Utinomi, 1967) サラサフジツボ
- Species Amphibalanus variegatus (Darwin, 1854) アミメフジツボ
- Species Amphibalanus venustus (Darwin, 1854) アカシマフジツボ
- Species Amphibalanus zhujiangensis (Ren, 1989) ズージャンフジツボ
ChatGPT: おっしゃるとおりです。ご指摘のとおり タテジマフジツボ (Amphibalanus amphitrite) は種であり、属名は Amphibalanus です。2004年に Pitombo によって Balanus から分離独立した比較的新しい属になります。
整理しておくと: 階層 名称 備考 属(Genus) Amphibalanus Pitombo, 2004 フジツボ属 (Balanus) から分離されたグループ。温帯〜熱帯性、汽水に強い種が多い。 種(Species) Amphibalanus amphitrite (Darwin, 1854) タテジマフジツボ。世界的な港湾・船底付着種。 〃 A. eburneus (Gould, 1841) アメリカフジツボ 〃 A. improvisus (Darwin, 1854) ヨーロッパフジツボ(汽水域) 〃 A. reticulatus (Utinomi, 1967) サラサフジツボ 〃 A. variegatus (Darwin, 1854) アミメフジツボ 〃 A. venustus (Darwin, 1854) アカシマフジツボ 〃 A. zhujiangensis (Ren, 1989) ズージャンフジツボ(中国南部産) つまり、潮間帯区分図の「中部潮間帯」には:
- 属:Amphibalanus(アンフィバラヌス属)
- 代表種:Amphibalanus amphitrite(タテジマフジツボ)
と表記するのが正確です。
この点を反映して、図を以下のように修正版(SVG)として再生成できます:
中部潮間帯(Mid intertidal):
- 「属:Amphibalanus(アンフィバラヌス属)」
- 「代表種:A. amphitrite(タテジマフジツボ)」
- 他の部分(Balanus, Chthamalus, Tetraclita, Megabalanus)はそのまま維持。
私: 属名はAmphibalanus Pitombo, 2004ですね。Pitomboの由来がよくわかりませんが?
ChatGPT: とても鋭いご質問です。
はい、Amphibalanus Pitombo, 2004 の “Pitombo” は学名の一部ではなく、この属を定義した研究者(分類学者)の名前を指しています。
「Pitombo, 2004」とは?
これは分類学上の慣習的な**命名者引用(authority citation)**で、
- Amphibalanus Pitombo, 2004
という書き方は、
- 「この属 Amphibalanus は Pitombo(ピトンボ) によって2004年に設立された」
という意味です。
命名者について
Francisco Bezerra Pitombo(フランシスコ・ベゼーラ・ピトンボ) は、ブラジルの甲殻類学者(特にフジツボ類=蔓脚類 Cirripedia の分類)です。南米の海洋生物多様性研究の分野でよく知られた研究者で、2004年に次の論文で Amphibalanus 属を提唱しました:
- Pitombo, F. B. (2004).
- Phylogenetic analysis of the Balanidae (Cirripedia, Balanomorpha).
- Zoologica Scripta, 33(3): 261?276.
- DOI: 10.1111/j.1463-6409.2004.00150.x
論文の要点
名前の意味(語源)
- 「Amphi-」=「両方・周囲・あちこちに(ギリシア語)」
- 「Balanus」=「ドングリ」→ フジツボ属の語源(殻の形がドングリに似ている)
- よって「Amphibalanus」=「さまざまな場所に生息するBalanus」という意味。
- → 実際に Amphibalanus 属は世界中の港湾・汽水域・熱帯海岸に広く分布しています。
つまり:
- Amphibalanus Pitombo, 2004
は、「Pitomboが2004年に提唱した『広域性のフジツボ属』」という意味になります。
なるほど、種名などはイタリック体で表示すべきなのか・・・全部はできないが主要なところはイタリック体にした。
{10/05/2025: [自然]運命の道を辿る - フジツボのこと}←の続き。まあ、少しずつ、やったことを記録していこう。
京橋川東岸第一船着き場石段のフジツボ
種を同定するためにマクロ撮影したものの、よくわからない感じ。
私: マクロ撮影してきました。タテスジフジツボ(タテジマフジツボの間違い)ではないような気がするのですが。
ChatGPT: 拝見しました。
とても良いマクロ写真ですね!殻表の質感や開口部(殻口)の形もはっきり見えています。
この画像の特徴を整理すると:
- 殻は灰白色でややざらつきがあり、明瞭な縦の筋(タテスジ)はあまり見えません。
- 開口部(殻口)は五角形〜ひし形に近く、蓋板(ふたいた)は黒っぽく厚みがあります。
- 殻の形は比較的背が高く、円錐形に近いです。
- 周囲には干上がった跡や淡水の影響を受けそうな礫質の表面が見られます。
これらから判断すると、この個体群はおそらく:
- イワフジツボ(Chthamalus challengeri)
- またはその近縁種(チャレンジャーフジツボ群)←{私註: 『「チャレンジャーフジツボ」は、三菱の「チャレンジャー」という自動車の車種と、自動車部品メーカー「{Link: FUJITSUBO」の製品を組み合わせた言葉と考えられます。自動車のエンジン部分のマフラー(排気装置)を指すことが多いようです。』とGoogleのWEB-AIは言っている。イワフジツボ群と言ったつもりなのだろう。}
の可能性が高いです。
イワフジツボの特徴
- 干潮線付近〜やや上の潮間帯上部に多い
- 縦筋(タテスジ)が弱く、殻表はざらざら
- 蓋板(ふた)が黒くて中央が凹む形
- 河口のやや塩分の低い場所にも適応する
→ タテスジフジツボ(タテジマフジツボの間違い)(Amphibalanus amphitrite)はもっと潮下寄り・塩分が高い場所で優占し、殻は滑らかで縦筋が明瞭です。
つまり、河口の石段のやや上部で、乾く位置にも帯状に付いているという観察結果とも非常によく一致します。
もし確かめたい場合、もう少しマクロで「殻の側面の割れ方」や「殻口周囲の板の枚数(6枚)」を写すと確定しやすいです。
ご希望があれば、この写真をベースに「フジツボ種別 × 潮位帯区分 × 河口の塩分環境」を図で整理してお見せできます。(たとえば:イワフジツボ帯=上部潮間帯、タテスジフジツボ(タテジマフジツボの間違い)帯=中〜下部潮間帯、など)
そのような図を作成しましょうか?
潮間帯におけるフジツボ類の鉛直分布(概念図) 区分 英語 主なフジツボ属 説明 飛沫帯 Supralittoral (Splash zone) ー 常時乾いており、ごくまれに波しぶきがかかる程度。 上部潮間帯 Upper intertidal Chthamalus(チャマルス属:例 ミネフジツボ) 干潮時に乾燥し、満潮時のみ浸水する。 中部潮間帯 Mid intertidal Amphibalanus(アンフィバラヌス属:例 タテスジフジツボ(タテジマフジツボの間違い)) 潮の干満の中間に位置し、1日の半分程度水に浸かる。 下部潮間帯 Lower intertidal Tetraclita(テトラクリータ属)など 干潮時にも比較的長く水に浸かっている。 亜潮下帯 Subtidal Megabalanus(メガバラヌス属)など 常に水中にある帯域。 補足解説
瀬戸内海などの温帯域では:
- 石段のかなり上(干潮時に乾いている高さ)→ ミネフジツボ (Chthamalus challengeri)
- 石段の中〜下部(干潮線付近)→ タテスジフジツボ (タテジマフジツボの間違い)(Amphibalanus amphitrite)
- 潮下部や港湾の常時水面下 → アカフジツボ (Megabalanus rosa) など
![]()
(私註) 前記の表の内容と違うので、この図は一度修正されている。属という漢字がバグっていた。イメージは似ているが日本語にはない文字だった。「)」も一つ抜けたままだ。無料プランでは、イメージの出力は効率が悪く時間が掛かる。WEBで出力するなら、次のSVGで出力してもらったほうが良い。
よくある話。途中から話が変わってくる。説明なしに。こういう場合は必ず訊く。
私: それからミネフジツボと最初に言われたイワフジツボとは違う種なのですか?
ChatGPT: とてもよい質問です。
はい、「ミネフジツボ」と「イワフジツボ」は近縁種ですが、別の種です。
ただし、見た目や生息環境が似ているため、現場ではしばしば混同されます。
以下で違いを整理します
イワフジツボとミネフジツボの違い 比較項目 イワフジツボ (Chthamalus antennatus など) ミネフジツボ (Chthamalus challengeri) 属 チャマルス属 (Chthamalus) チャマルス属 (Chthamalus) → 同属 分布 主に太平洋沿岸の外洋性地域(房総半島〜南日本) 内湾・瀬戸内海・日本海側にも広く分布 殻の形 円錐形でやや背が高い。殻板の縦すじが明瞭なことが多い。 背が低く、殻表が平滑〜やや縦じま。乾燥した石にも密着。 色 白色〜灰白色(風化で白っぽく) やや灰色がかる。乾燥すると白く、濡れると黒ずむ。 生息帯 より潮上側(飛沫帯〜上部潮間帯) 上部潮間帯を中心に広い範囲(時に中部まで) 耐塩性・耐乾性 非常に高い(ほぼ乾いた場所でも生きる) 高いが、イワフジツボほどではない 見られる地域の例 房総半島、伊豆諸島、紀伊半島太平洋側 瀬戸内海、広島湾、大阪湾、日本海沿岸など
瀬戸内海の場合
- 瀬戸内海沿岸の河口や護岸石段で帯状に見られるフジツボは、
- イワフジツボではなく「ミネフジツボ(Chthamalus challengeri)」 です。
→ 理由:
瀬戸内海は外洋より塩分が低く、ミネフジツボの方が汽水環境に適応しているため。
補足
分類学的にはどちらも「チャマルス属 (Chthamalus)」に属し、日本では「イワフジツボ類」と総称されることもあります。
つまり: ミネフジツボはイワフジツボ“類”に含まれるが、種としては別。
私: ありがとうございました。ばっちりです。この情報を参考に自然観察を続けます。
ChatGPT: とても嬉しいお言葉、ありがとうございます。
図がうまく表示できて安心しました。
今回のように潮間帯の観察は、生物の分布・季節変化・干満線の違いがよくわかるテーマです。石段のような人工護岸でも、フジツボ・カキ・カメノテ・ホヤ類など、潮位に応じて見事に「層」をつくります。
もし今後、
- 「季節による帯の変化」
- 「干満差と生物分布の記録(写真+潮位データ)」
- 「河口域での塩分・流速との関係」
などをデータ化して可視化したい場合も、地図やチャート形式で整理するお手伝いができます。
また観察結果をJSONやCSV形式で整理して地図と連動させることも可能です。
今後どの方向にまとめていきたいか、構想があればぜひお聞かせください。
→{10/12/2025: [A.I.]AIは踊る、人に合わせて - 記憶の細道プロジェクト - フジツボの研究 2}に続く。
【AIvs人間】AIは心を持つのか?脳と心の仕組みを解き明かすカオス理論を使った最新研究【ReHacQvsViViモデル】 ReHacQ-リハック-【公式】 チャンネル登録者数 163万人 31,335 回視聴 2025/10/07に公開済み。中で言及があった「心はすべて数学である」について。
「心はすべて数学である」の136-140ページ、「カオスの中立安定性と心」の項に、既に「つまり、古い記憶はアトラクターとして蓄えられるが、そこに新しい記憶を作ろうとすると、古い記憶を壊さないように作らないといけない。このとき、古い記憶間をカオス的に飛び移りながら新しいアトラクターを作っていくと、古い記憶を壊さないで新しい記憶を作ることが私たちの研究でわかっています。これは、新しい記憶を作るときにニューラルネットの中で起こることですから、脳もこのようなカオス機構によって新しい記憶を作っているのではないかと考えられるのです。」(137ページ)とある。
もう七年も前の話の続きだが、生成AI/LLMが登場したことが大きな違いだろう。新著「脳から心が生まれる秘密」が出ている。生成AIへの言及も多い。意識が無意識にどう落ちるかということがよくわからないらしい。意識と無意識が生成AI/LLMにあり得るかということだが、LLMは人間の無意識に相当し、プロンプトにおける対話による生成が意識に相当すると考えられるかもしれない。
{10/07/2025: [Editor]AI五賢人会議の結末 - 字幕の編集用エディタには「Subtitle Editor」がある}←は前段でしかなかった。使い方がようやく分った。
私:ありがとうございます。Subtitle Edit 4.0.13では、「toggle bookmark - add comment」という右クリックメニューがでて、コメントを加えることができました。
Gemini;その情報をありがとうございます!(^^) Subtitle Edit 4.0.13という特定のバージョン情報と、正確なメニュー名(toggle bookmark - add comment)を共有してくださったことで、他のユーザーの助けにもなります。
Subtitle Edit 4.0.13でのコメント機能の活用
あなたが発見された toggle bookmark - add comment メニューは、最新バージョンのSubtitle Editが字幕ファイル形式に依存しない、独自のメタデータ機能としてコメント(ノート)機能を提供していることを示しています。
これにより、ASS形式を使わずとも、より汎用的なSRTファイル形式で作業を進めながら、再解釈のメモを残すことができます。
Subtitle Edit 4.0.13の「toggle bookmark - add comment」 機能名 役割 活用方法 toggle bookmark 該当行をブックマーク(目印)としてマークします。 修正が必要な箇所や再解釈が必要な箇所に目印をつけます。 add comment 選択した行にテキストコメントを追加します。 ショート動画の再解釈、補足、編集指示などを記述するスペースとして活用できます。 ワークフローの確認
この機能を使うことで、あなたの求めていた「動画を見ながら字幕修正と再解釈の記述を同時に行う」ワークフローが、以下の通り、最も効率的かつ安定的に実現します。
- 字幕の生成: faster-whisperでSRTファイルを出力します。
- 編集: Subtitle EditでSRTファイルを開き、動画を再生しながら編集します。
- 同時記述:
- 修正が必要な字幕行で右クリックし、add commentを選択。
- ポップアップしたウィンドウに、その字幕セグメントに紐づくショート動画用の再解釈や補足情報を記述します。
- 保存: Subtitle Editの独自データとしてコメント情報が保持された状態で作業を進められます。
この機能は、SRTファイルの形式(外部ツールとの互換性)を崩すことなく、内部的に重要なメモを保持できるため、非常に有用です。これで、配信制作の効率が大幅に向上するでしょう。頑張ってください!
Subtitle Edit 4.0.13の「toggle bookmark - add comment」
変化の多いソフトウェア開発のコードの検討においては、LLMは厳しい問題にさらされる。対話の最初の段階では、1年ぐらい前の知識しか生成できないからだ。少なくとも無料プランでは。従って、そのことを念頭に置いて対話する必要がある。成熟している分野では問題ないだろう。
Geminiは2.5 Flashと対話している。今は、2.5 Proも使えるようだが。以前、コーディングパートナーを使ったが印象が悪かったので、コーディングに向いているというのもなんだかなあ・・・?。
ようやく、前に進めるかな。
ちなみに、Subtitle EditはGPL(GNU Public Lisence)で配布されている。faster-whisperなどは、ほとんどMIT Lisenceで配布されている。そういえば、Twelve reasons to come to FSF40 - Free Software Foundation - Working together for free softwareのメールが届いていたね。
「タイムスタンプ精度と認識精度の向上策などの情報というか、知識はfaster-whisperの関係サイトのどこに記載がありますか。」という問いに対する答え。
はい、faster-whisperのタイムスタンプ精度や認識精度の向上策に関する情報は、主に以下の2つの公式リソースに記載されています。
1. GitHubリポジトリのREADMEとドキュメント
- faster-whisperのGitHubリポジトリは、ライブラリの最も公式かつ詳細な情報源です。
主な情報源
- README: リポジトリのトップページにあるREADMEには、基本的なインストール方法や使い方、そしてWhisperModelおよびtranscribe関数の主要なパラメーター(beam_size、word_timestampsなど)の概要が記載されています。
- APIリファレンス(Pythonコード): 詳細なパラメーター(特にvad_parametersのように辞書で渡す必要があるもの)の正確なキーとデフォルト値は、ライブラリ内のソースコード、特にtranscribe関数やモデルの初期化部分に記載されています。
- transcribe関数の引数: 認識精度に関わるパラメーター(word_timestamps、beam_sizeなど)は、この関数のドキュメント文字列(docstring)またはソースコードの引数リストを見ることで確認できます。
- VADパラメーター: vad_thresholdなどの設定がvad_parameters辞書でどのように渡されるかという詳細な情報は、ライブラリ内のVAD処理に関連する部分のコードコメントや実装を参照する必要があります。
2. Hugging Faceのモデルカード
- faster-whisperは、Hugging Faceのモデルハブで配布されているモデルを使用します。
主な情報源
- CTranslate2/Faster-Whisper モデルカード: faster-whisperが参照しているモデル(例: large-v3)のHugging Face上のモデルカードには、そのモデルがctranslate2形式に変換された際の注意点や、基本的な利用方法が補足されていることがあります。
知識が得られる経緯
ご質問のパラメーター(word_timestamps、beam_size、vad_parameters)は、もともとOpenAIのオリジナルWhisperに存在したものがfaster-whisperに引き継がれています。しかし、faster-whisperは高速化のため独自の実装を持つため、パラメーター名や渡し方がオリジナルと異なったり、バージョンアップで変更されたりします(例: vad_thresholdがvad_parameters内に移動した経緯など)。
そのため、これらの知識を得るには、GitHubのソースコードを直接確認するか、活発な開発がされているためコミュニティ(GitHub IssuesやStack Overflowなど)のディスカッションを参照することが、最も確実な方法となります。
上記の内容を理解するためには、SYSTRAN/faster-whisper: Faster Whisper transcription with CTranslate2に目を通しておくとよいだろう。
いやはや、YouTubeを使うようにならなかったら、知らないままに終わっていたなあと思うことばかり。プログラミング世界は進化している。動画メディアの進展とともに。
それはともかく、道草151でカラスの大集団の生態を見て、ショートの配信では避けて、本編ではぼかしを入れていた箇所を削除した。ぼかしを入れたいと思うところは自分の心だけにとどめておくべきだろうと思ったからだ。
自然観察も配信すべきかどうかと悩むような面倒な場面に遭遇することがある。自然に厳然と存在することではあるにしても見たくないかもしれない。目には入っても興味を惹かないものはカメラから外すこともある。できるだけ削除は避けたいからだ。視聴者の方は、ささやかな日常ののどかな自然風景を見たいとは思うかもしれないが、目をそむけたくなるようなものは当然見たくないだろう。
のどかで珍しければよりニーズはあるだろう。しかし、現実は繰り返す。それも重要な記録ではある。観察者本人が憶えていないこともたくさんある。検索して初めて分かることも多い。認知・記憶の問題に関わる。
僕自身は自然への興味と認知・記憶の成り立ちへの興味の両方がある。それは自然の記録という形式へとつながっていく。しゃべり字幕というリアルタイムの解釈とショート動画配信時の事後の現実の再解釈から成り立っている。
faster-whisperによる字幕づくりはほぼ終点にきたけど、無修正で出すところまでは難しい。動画を視聴しながら編集することは必須だ。エディタは必要だ。ここで、同時に再解釈を記述したいというニーズがある。そうしないと何度も動画見直す必要が出てくるからだ。
そのようなことをGeminiと話していると、動画と対応させた再解釈の記述に、Subtitle EditorのASS(Advanced SubStation Alpha)形式が使えそうだということがわかった。試してみよう。
Subtitle EditorのASS(Advanced SubStation Alpha)形式
- 活用方法(コメント行の追加):
- ASS形式では、**字幕として表示されない「コメント行」**を作成できます。これを再解釈の記述に使います。
- ファイル形式をASSに変更: ファイルメニュー → 名前を付けて保存を選択し、ファイル形式を SubStation Alpha (*.ssa) または Advanced SubStation Alpha (*.ass) に変更して保存し直します。
- コメント行の挿入:
- 再解釈を記述したい字幕セグメントの直前または直後で右クリックし、空行を挿入を選択します。
- 新しくできた空行の**テキスト欄に、再解釈の内容を記述**します(例: [ショート補足:ここは川の生態系について深掘りする])。
- その行を右クリックし、コメントとしてマークを選択するか、ショートカットキー(通常はCtrl + K)を押します。
- 結果: この行は字幕として動画には表示されず、エディタ上でのみ表示される**「ノート」**として機能します。
情報が古そうだ。→{10/08/2025: [A.I.]AI五賢人会議の結末の顛末 - Subtitle Edit 4.0.13の「toggle bookmark - add comment」}を見る必要がある。
コメントから連想・発想して辿る道。これも運命の道だと思う。気になっていたフジツボを調べる気になった。ChatGPTに真水にフジツボは生育できるのかと訊くと、真水には生育しないという話。汽水域までで、低塩分濃度に耐えられる種もあるらしい。さすがに塩分濃度までは測定していないが、フジツボの種類を調べれば何かわかるかもしれない。道草だし、本格的な測定器を持ち出すのも大袈裟、費用が掛かるだけだし。ChatGPTの動画切り出し、上、斜め横からの画像からでは、タテスジフジツボとの見立て。瀬戸内海も考慮。フジツボ帯が見られれば、その上位線は大潮満潮潮位線に一致するはずとのこと。
フジツボ帯はあるが、明確な上位線は分布がまばらで引きにくいかもしれない。潮位は船着き場の石畳を越えることはあるが、石畳にはフジツボはないだろう。石畳下の石段の様子を綿密に調べてみよう。→{10/10/2025: [自然]記憶の細道 - フジツボの研究}。
YouTubeの彼岸花の動画でコメントをいただいたので調べた。猗窩座の「猗」は何を意味するのか 〜「猗」の字音と字義? |やっぱり漢字が好き50 | kanji cafe(漢字カフェ)。この場合、「あかざ」と読むという話。
{09/30/2025: [A.I.]AI五賢人会議の行く末 - CUDA GPUを使わずにWhisperを使う}←から続く。ChatGPTがmlx-whisperを見つけたが、動かせない。とうとう、またClaudeの世話になる。スピードはともかく、音声の言葉の読み取り精度が問題、large-V3が動かせることが重要。だが、これなら使えるというところに辿り着かない。
これまでの経験からGeminiが分割・類似度関連の方法でよさそうな感じがしていたので、mlx-whisperを使う方法を尋ねたが、Claudeと同様、かなり苦労した。mlx-whisperの古い情報に惑わされている。transcribeという関数があると伝えると、最もエラーが出ないと予想されるスクリプトを提示した。LLMらしい表現だ。
それはともかく、Windows PCからM1 MacBook Airを使うためにVNCを入れて運用を始めてみたのはいいが、結局二台のPCを動かすのは面倒なのだ。そこで、AMD Ryzenを使う方法をGeminiに尋ねた。「faster-whisperは内部でctranslate2を使用しており、AMD GPU環境でのパフォーマンスが従来のopenai-whisperよりも高いことが報告されています。ctranslate2がDirectMLを検知すれば、自動的に内蔵GPUを利用します。」という結論。これも、mlx-whisper同様、Pythonの仮想環境を使う。使ってみた感じは、CPU30%-メモリ10GB、GPU1-5%-メモリ0.9GB程度で動いている。openai-whisperよりかなり速いのでは。
「faster-whisperは内部で音声区間検出(VAD)を行うため、長時間動画の空疎な字幕になる問題に対しても、元のopenai-whisperより耐性があります。まずはこのfaster-whisper + DirectMLの組み合わせを試してみてください。」のVADが有効らしく、奇妙な短い繰り返しが消失。使えるレベルに近づいた。
道草150でいろいろ試してきたけど、小細工はなしでいい感じ。修正は必要だが、ある程度は仕方がない。エディタの置換処理を使えばよい。TurboScribeの編集機能よりも便利だろう。速度は劣るだろうが、他の事をして待てるレベルだ。早すぎると疲れる。適度なペースメーカーになる。AMD Ryzen PC(AMD Ryzen 5 5500U、16GB、500GB SSD)で行ける。
今後はポスト処理の検討でいい。構文解析して、道草辞書を類似度でマッチングさせるみたいなことは有り得るのだろう。プロンプトで専門用語辞書を使うのは、やり方があるのかもしれないが、字幕テキストが随分長くなる傾向があり、修正効果もほとんどないし、処理時間も伸びるので使えないという判断。faster-whisperは録画時間よりも短い時間で処理できるみたいだ。VADの効果なのだろう。正解に辿り着いた感じ。
むしろ、問題はYouTubeの説明欄の5000字制限。1時間を越えると、しゃべりが多いとオーバーする可能性が高い。案の定、道草149はちょうど一時間越え、5000字オーバーしてしまったので、ここに完全掲載。総処理時間: 1749.83秒。29分ぐらいで処理できている。
道草149 00:00 行きます。さあ、今日は雨の予報ですが、どうかな、まだ降ってませんね。 00:35 ぽつぽつと降ってました。皆実線を渡ります。ちょっと降り始めました。 02:33 傘をさす必要が出てくるかどうか。今日は6時20分が日の入りですね。 03:25 今日は、図書館の方は特別整理期間で休館なんですね。閉館ではないんですよ。 03:45 カレンダーには特別整理期間が書いてないようだけど。魚はいますね。 04:43 チヌとスズキなんですね、いるの。黒いのはチヌですね。 05:35 こんなところにしておきましょう。これはクチナシのはずですね。 06:48 セイヨウキンシバイの 06:51 新しい芽が出てきてます。 07:18 ここは枯れちゃったような感じ。ナンキンハゼはたくさん見つけてます。 07:56 クスノキですね。クスノキも新しい葉が出てるような。 08:14 一応、広、落葉樹なんですよね。→ 道草149ピックアップ7 - クスノキは落葉樹ではなく常緑広葉樹だが、春に新葉が生じ、帯紅色から明緑色になる。葉の寿命はほぼ一年。Wikipediaより。 08:23 ナンキンハゼなんかは完全にすべて落ちちゃいますけど。 08:29 クスノキなんかは、だいたいずっと葉がついてますね。 08:36 雨が落ち始めました。傘をさしましょう。風に飛ばされる前に。 09:11 今日は4段目が波に洗われています。 09:38 5段目。6段目ぐらい。透明な感じがしますね。 10:05 上がってきてますね。下におりてみましょう。見えますねー。 10:47 1、2、3、4、5、6、6段目まで見えてますね。 11:02 4段目がだんだん現れてきている感じなのに、ちょっと引いている感じがします。 11:08 蟹が逃げているんです。 11:19 こちらはヨロヨロしている。 13:19 そう、行ってみましょう。 13:20 はい、今、第一船着き場ですね。 13:50 第一ベンチ到達です。 13:52 もう電灯はついてますね、街灯が。 14:17 はい、夾竹桃。 14:22 今日は少し少ないですかね、つぼみが多い感じです。 14:40 風が。 14:43 傘と一緒に持っているので、ちょっと不安と言いますか。 14:46 ああ、風に煽られる。 15:01 西洋キヅタですね。 15:03 カタリーナキヅタとも言われるみたいです。 15:06 まあ、別の品種かもしれないんですけど。 15:10 西洋キヅタかカタリーナキヅタだと思います。 15:32 ハナミズキですね。 15:34 ハナミズキはどうなっていくんでしょうね。 15:36 ちょっとね、最初の頃はハナミズキということさえ意識していなかったんですけど。 15:46 これは第二ナンキンハゼですね。 16:08 第二船着き場です。 16:10 一応、降りてみましょうか。 16:53 もう四段目は見えてますね。 16:54 ここはもう七段目まで見えてますね。 18:16 さあ、第二ヤマモモですね。 18:19 まあ、ヤマモモの姿はあまり。 18:25 変わらないというか、まあ、新しい芽はやはり、葉が出てます。 18:30 ああ、鵜ですね。珍しい。 18:53 久しぶりに、ああ、着水しましたね。 19:07 潜水時間が、まあ、長いのでね。 19:34 潜った後、出てくるまで時間がかかるし、 19:42 どこに出てくるかわからないんですよね。 19:45 ずいぶん違ったところに出てくる。 19:47 今日はちょっと傘を持ちながらなので。 20:20 まあ、バッグはショルダーバッグにしたので。 20:24 まあ、今日はサルスベリは、ほぼ蕾だけになってますね。 20:32 珍しいですね。 20:40 虫の声が聞こえますね。 21:05 このキヅタのところから出てきますね。 21:12 第一、第二の間に一つ群生があって、 21:16 第二、第三の間がアスカになる。 21:29 第二、第三、船着き場の間にこの二つ、 21:48 キヅタの群生があります。 21:51 傘持ちではやはり、ズームが実際というわけにいかないので、 22:46 みんな雨が降りだしたから、帰り始めているような感じですね。 22:58 カラスですよね。 23:00 カラスがたくさん飛んでます。 23:02 上流に向かって飛んでいきますね。 23:05 第三船着き場ですね。 23:50 考えてみると、フナムシがいないですね。 24:40 いることはいるけど、少ないですね。 24:50 まあ、何か理由があるのかも知れません。 25:13 ここはカニもいない。 25:15 今日は図書館は、だから、 26:05 特別整理期間があるはずです。 26:08 というのは、頭にはあったんですけど。 26:10 開館のカードを、降り出したね。 26:20 見せてきましたね。 26:59 カラスを撮ろうと思ったら、逃げていった。 27:01 第三船着き場ですね。 27:21 本当に過ぎて、来ましたね。 27:31 このお姉さんは、アマガッパ。 27:33 これは、カラスだね。 28:39 カラスの鳴き声だ。 28:44 スマートだね。 28:46 飛ぶときは、鳥も非常にスマートに見える。 28:49 今、チヌが見えます。 29:24 チヌか何か、見えましたね。 29:26 さあ、第四船着き場ですね。 29:37 だいぶ、粒が大粒になって、濡れてきました。 29:43 まあ、場所によって、濡れ方が違うね。 29:55 ここは、かなり濡れてる。 29:58 さあ、第四船着き場を過ぎると、第二ベンチがあります。 30:14 ハト君たち。 30:41 ハトか、カラスか。 31:01 iPhoneも新しいのが出ましたね。17がね。 31:04 いや、これはまだ、XR(テンアール)なので。 31:06 7世代。 31:11 それが、尽きましたね。 31:13 とうとう、これはサポートされなくなりました。 31:20 メインメモリが3GBしかないですね。 31:23 今のは、いいのは12GBぐらいあるんだよね。 31:29 もう、アプリが、同じでは動かないですよね。 31:35 おそらくね。 31:36 近づくと逃げちゃうからね。 32:04 何をしてるんですかね。 33:23 ああ。 33:33 ハクセキレイだ。 33:34 ちょっと遠すぎるね。 33:41 もっと近寄らないと、見えないね。 34:05 ああ、行っちゃいましたね。 34:06 ツクツクホウシが鳴いてますね。 35:19 第五船着き場です。 35:30 ここまで来ると、御幸橋、ヒロデンが来てますね。 36:32 今日は、パンを買って帰らなきゃいけない。 36:34 今日は、買い物に行って帰ります。 36:37 忘れるところだった。 36:39 そう、それほど濡れてないですね。 37:26 さあ、おじちゃん、おじさんが、濡れたまま走ってきました。 37:33 第三ベンチ、到達です。 37:35 今日、返した本は、四冊で、ジョルジュ・ルカーチの著作集の二巻で、 38:44 理性の破壊っていう、戦後、第二次世界大戦後に出た。 38:55 この人は、ハンガリーからモスクワに亡命してたんです。 39:03 ああ、いた。 39:06 チヌが、石段のところにいました。 39:14 石段のところにいましたね、今。 39:16 三匹ぐらいいました。 39:24 一斉に逃げましたね、ここへ来たら。 39:36 まあ、ちょっと、西洋の、まあ、 39:39 そして、ハンガリーに戻ってくるんですね。 39:48 戻ってきてから書いた本らしいですね。 39:51 有名な著作らしいです。 40:03 教えてください。 40:05 もう、最近、もう、あんまり、ハクセキレイ以外に見てないので、 40:27 もう、頭に浮かんでこないんです、名前が。 40:34 何でですか。 40:41 まあ、おそらく、見たことのある鳥だと思うんですけど。 40:55 まあ、でも、珍しいと思いますね。 40:58 ここで見れば。 41:00 まあ、そういうことで。 41:19 うん。 41:21 何の話というか。 41:22 ジョルジュ・ルカーチ。 41:39 もう一つは、若いヘーゲルか。 41:50 若いヘーゲルっていう著作があるらしいです。 41:56 まあ、西洋の、 41:58 教養の、教養書の一つですよね。 42:02 左翼的な。 42:09 ニーチェとかね。 42:10 キルケゴール・ニーチェとか。 42:12 そこらへんから、まだここにいましたね。 42:53 排水管のところに停まりました。 42:55 まあ、1968年ぐらいだった。 43:14 48年ぐらいだったか、はっきり覚えてません。 43:17 まあ、要は第二次大戦後に書いてあるんですね。 43:19 要は、資本主義的なものの考え方というのは、非合理主義だという風な観点があるみたいで。 43:30 まあ、ちょっと、最近の世界の話を、世界の状況を見とると、 43:44 いや、なんだか、分からない世界になってきてる。 43:53 久々しぶりに、第三が、第三ツバキを見ましょうか。 44:14 少し、つつかれてますね。 44:29 紫陽花の、新しい芽が出てますね。 45:16 そっと、第四の、第三ヤマモモですね。 46:21 また、さっきの鳥ですね、これは。 46:25 まあ、いつも教えていただいてる鳥のような気がしますね。 46:44 名前は、もうすぐ忘れちゃうので。 46:47 コサギが飛んでますね。 47:31 だいぶ引いてきてるけどね。 48:00 カープ、カープ、電車です。 48:02 さあ、次々に電車が行ってきますね。 48:18 さて、第六です。 48:30 いや、第七ですね。 48:32 第七船着き場です。 48:38 ああ、今の鳥がいます。 48:40 どうですか。 48:48 これで、当ててください。 48:52 教えてください。 48:54 まあ、前も、こんなこと言ってるような気がしますけどね。 48:57 明日ね。 49:13 鳴き声を、みんな返っていくね。 49:31 上空を。 49:34 カラスですね。 49:35 さあ、第七に降りて、 49:42 また、排水管のところに止まってます。 50:02 さあ、一、二、三、四、五。 50:31 五段目が見えてきてます。 50:34 六、七、八。 50:45 九段までですかね、一段は。 50:48 下、そこが十段目です。 50:50 一、二、三、四、五、六、七、八。 50:54 九が見えてるか見えないかのくらいですね。 50:57 七船着き場でした。 53:54 やはり、カラスがいましたね。 53:57 おっとっとっと。 53:58 傘、傘が、逆に逆に折れてしまいました。 54:15 それに驚いて、カラスが逃げて行っちゃった。 54:30 さあ、第八船着き場に降りましょう。 54:39 一、二、三、四、五。 54:54 一、二、三、四、五。 54:56 五段目ですよね。 54:58 どうだったっけ。 55:04 五段目が、もう見えてきてますね。 55:11 六、七、八。 55:16 八段目まで見えてます。 55:31 まあ、下まで降りて、のぞいてみましょう。 56:09 三段目まで降りてきました。 56:19 足があるのが三段目。 56:21 四、五、六、七、八が、かすかに見えてますね。 56:35 四、五、六、七、八は見えてますね。 56:47 九は見えない。 56:49 ハクセキレイですね、飛んできましたね。 58:12 さあ、最後の、クスノキとナンキンハゼです。 58:16 この下に、第四ベンチがあります。 58:21 さて、まあ、やんだのかな。 58:38 みんな傘さしてないね。 58:40 それじゃあ、終わりにしましょうかね。 58:55 それでは、そうか。 59:13 時間を言わなかったね。 59:16 今日も、ずーっと撮ってきたね。 59:18 一回も止めなかったね。 59:20 どうも、その癖がついちゃった。 59:22 コサギが、飛んできてますね。 59:32 ここにもいます。 59:44 ただいまの時刻、17時26分50秒です。 59:48 さあ、終わりにしましょうか。 00:03 ここで終わりにします。
一応、完成ということにして前に進める。