
61歳の誕生日の週末にニューヨークに行ってきました。ちょうど猛烈な寒波が来ていて、日中でも気温は華氏でひとけた、ということは、摂氏だとマイナス10度以下、ということで、外にいると文字通り凍りつくので、おもに屋内にいて、買い物したり、マイケル・ジャクソンのミュージカルをみたり、美術館に行ったりしてましたが、あんまり大都会に行くことはないので、街の雰囲気を味わえてよかったです。

61歳の誕生日の週末にニューヨークに行ってきました。ちょうど猛烈な寒波が来ていて、日中でも気温は華氏でひとけた、ということは、摂氏だとマイナス10度以下、ということで、外にいると文字通り凍りつくので、おもに屋内にいて、買い物したり、マイケル・ジャクソンのミュージカルをみたり、美術館に行ったりしてましたが、あんまり大都会に行くことはないので、街の雰囲気を味わえてよかったです。

このあいだためしたFLUX.2は”dev”モデルで、ぼくのGeForce RTX-4080 16GBではやや力不足だったのだけれど、もうすこしローエンドのGPUでも快適に動作する”klein”モデルというのが出たというのでためしてみた。使ったのは、
です。”klein”には”distilled”(蒸留)モデルと”base”(ベース)モデルがあって、蒸留モデルは爆速だそうですが、まずはベースモデルをためしてみました。
サンプル出力が上のイメージなんですが、けっこう良いんじゃないでしょうか。z-Image Turboの出力はきれいなんですが、なんかモデルっぽいというか愛想笑いしてるというかそんな感じがするのに対して、こっちは笑ってないし、より35ミリネガフィルムっぽくなってるし、リアルな感じがします。
●●●
いちおう蒸留モデルもためしてみようかということで、flux-2-klein-4b.safetensorsをつかってみました。フラッシュをたいて撮ったフィルム写真風ですね。


徒歩旅行のためにまずは10kgの荷物をかついで100kmくらい歩いてみようと年初におもいたって、休みの日は家のまわりを歩いてるけど、平日は仕事のまえに会社のあるDurhamの街を歩いている。

Durhamはとくに観光地というわけではないけれど、歴史がある街なので、朝日に照らされる建物がけっこう絵になります。

だいたい80kmくらい歩いたので、あと1週間くらいでとりあえずの目標は達成できそうです。

あけましておめでとうございます。ことしもよろしくお願いします。
去年60歳になって、先のことをかんがえるようになり、体が動くうちに徒歩旅行をしてみたいとおもって調べてみたら、10kgくらいのバックパックを背負って1日に20kmくらい歩けないといかんらしいということなので、仕事用のバックパックに重い本とかつめて10kgにして近所を歩いてみようというのを1週間前からやってます。
ぼくだけではないとおもうのですが、なにか始めようとするとき、始めるまえにまず道具(ギア)を揃えたくなる。かっこいいバックパックとか、いいハイキングシューズとか、トレッキング・ポールとかもあった方がいいらしい、とか。たとえば写真を撮るよりもカメラが好きとかいう倒錯も趣味なんだからいいけれど、今回はとりあえず手持ちのバックパックと靴でトータル100kmくらい歩いてからじゃないとあたらしいギアは買わない、と自分にしばりをかけてみました。1週間で25kmほど歩いたのであと75kmです。
今日は市内バスでUNC (University of North Carolina)のキャンパスまで行って、トレイルを歩いて家まで帰ってきました。いいお天気で、どうせわざわざどっかに出かけて行って歩いたところで、このへんのトレイルの景色とあんまり変わらなかったりするんじゃなかろうか、とか、それだったらこのトレイルを目的地ということにして、こんなだれに頼まれたわけでもない修行はやめにして重いバックパック抜きで身軽に歩いた方が人生楽しいんじゃないか、とか、そんな雑念を振り払いながら歩きました。


Z-Image TurboとGoogle翻訳の組み合わせがおもしろかったので、いろんな言語を試してみることにした。だいたいもとのプロンプトをGoogle翻訳がちゃんと翻訳できているのかどうか確認できないし、Z-Image Turboのワークフローで使っているLLM (qwen_3_4b.safetensors)がそれをちゃんと解釈できているのかわからんので、ただの遊びです。
まずはこのプロンプト
29 years old beautiful female Japanese IT Professional in a plain beige oversized T shirt with light brown short choppy hair with natural skin texture, visible pores, and faint lines around her eyes at a coffee shop, high quality, pink tiny lips, small nose, full body, holding a cup, along counter, dim light, thin arms, looking straight, sister, 35mm negative film
をGeminiで生成AI用に最適化してもらう。それで出てきた”Structured & Tag-Based (Best for Stable Diffusion)”というバージョンがこれ。
35mm negative film photo, full body shot, 29 year old Japanese woman, IT professional, short choppy light brown hair, plain beige oversized T-shirt, thin arms, sitting at coffee shop counter, holding cup, looking at viewer, direct eye contact. Detailed face, small nose, tiny pink lips, natural skin texture, visible pores, faint crow's feet, unretouched, raw photo. Dim moody lighting, sister vibe, high quality, photorealistic, 8k.
これをつかって画像生成させると、

あとはこのプロンプトをGoogle翻訳に掛けて、Seedを固定して次から次へと画像生成させていくだけです。



















FLUX.2は重いし、結局いまのところはまだFLUX.1が最強かな〜というのが昨日の結論だったのですが、Z-Image Turboというのが話題らしいぞ、ということで試してみた。
まずは昨日のFLUX.2用にチューンしたプロンプト。

悪くない、というか、かなり良い。FLUX.1の出力でちょっと気になる肌のテカテカした感じがない。画像生成で遊ぶという意味では、Seedの値を変えてもほぼ同じ顔の女性しか出てこないみたい(どこかパラメータをいじればいいのかもしれない)なのが面白くないのですが、普通に自然な写真です。
これなら、FLUX.1のポストでも使ったオリジナルのプロンプト
29 years old beautiful female Japanese IT Professional in a plain beige oversized T shirt with light brown short choppy hair at a coffee shop, high quality, pink tiny lips, small nose, full body, holding a cup, along counter, dim light, thin arms, looking straight, sister
でそこそこいけるんじゃないか?とおもって試したのがこれ。

ちょっと顔の表情と肌のツルツルさがAIっぽいか?とおもって、35mmネガフィルムで撮ったことにして(”35mm negative film”)、昨日FLUX.2用にプロンプトをいじっているときにGeminiが加えた肌のツルツルを抑える表現(”with natural skin texture, visible pores, and faint lines around her eyes”)を足して出力したのがトップの画像です。かなり良いんじゃないかと思うんですがどうでしょうか。
そのプロンプト、
29 years old beautiful female Japanese IT Professional in a plain beige oversized T shirt with light brown short choppy hair with natural skin texture, visible pores, and faint lines around her eyes at a coffee shop, high quality, pink tiny lips, small nose, full body, holding a cup, along counter, dim light, thin arms, looking straight, sister, 35mm negative film
をGoogle翻訳で日本語に翻訳させて、
29歳の美しい日本人女性ITプロフェッショナル。シンプルなベージュのオーバーサイズTシャツを着て、ライトブラウンの短いボブヘア。自然な肌質で、毛穴や目元の小じわが少し見える。カフェのカウンター席に座り、カップを持っている。薄暗い照明、細い腕、まっすぐ前を見つめている。妹のような雰囲気。35mmネガフィルムで撮影。
これで画像生成させたらどうなるか。

英語で”sister”というと姉か妹かわからないけど、Googleが妹だと翻訳したので、ちょっと妹属性が入ったのかな?じゃあ「妹」を「お姉さん」にしてみよう。

ものすごく微妙ですが、お姉さんになりましたか(笑)?
Z-Image Turboは中国製(アリババ)なので、最後に英語のプロンプトを中国語に翻訳してやってみよう。
一位29岁的漂亮日本女性IT专业人士,身穿一件宽松的米色T恤,留着浅棕色短发,皮肤自然,毛孔清晰可见,眼周有细纹。她坐在咖啡馆里,画质高清,嘴唇小巧粉嫩,鼻子小巧,身材匀称,手里拿着一个杯子,坐在吧台边,光线昏暗,手臂纤细,目光直视前方,像个姐姐,35毫米胶片拍摄。

いつまでも遊んでいられますな。
(付記)
アニメ調も追加しておきます。よくみたらプロンプトで「お姉さん」が指定されてますな。そつのない出力だとおもいます。


昨日のFLUX.2のポストをPublishしてから考えたのは、FLUX.2はFLUX.1よりもよりプロンプトに忠実に画像生成しようとしているのではないかということで、たとえば背景に他の客が入っていたほうがいいのなら、ちゃんとそれを指定して、あまりにAIっぽい美肌になっていたら、そうならないように指定するとか、細かく指示を出さなきゃいかんのではないか、ということ。それにしても、完璧な美人を完璧に写真に撮ることができても、AIっぽいと言われてしまうというのは、過酷な時代になりましたね。
それで、noise_seed (440202368593999)とguidance (4.4)の値は固定して、Google Geminiの助けを借りてプロンプトをいろいろいじってみました。上の画像はその中でもよくできたんじゃないかと思ってるやつです。
以下、いくつかサンプルをどうぞ。





(付記)
いろんなプロンプトを試してみたけど、それをFLUX.1で画像生成させてみたらどうなるかやってみました。
まずは、いちばん上の画像のプロンプト。

ちょっと露出不足だけれど、FLUX.2の出力よりも良くないですか。Seed を変えたバージョンではこんなのも出力されました。

FLUX.2だとモデルが大きいので一枚出すのに5分くらいかかるのですが、FLUX.1だと20秒くらいで出てくるのでいろいろ試せます。使っているワークフローが違うので単純比較できませんが、ぼくが遊んで使う分にはFLUX.1で十分だな、というか出力もFLUX.1の方が好み、というのが感想です。
アニメ調もFLUX.1で試してみました。FLUX.2の出力とは画風が違うのですが、いい感じじゃないでしょうか。


去年の夏ごろ遊んでいた画像生成AIのFLUX.1というやつの次世代バージョンFLUX.2というのが出たというので、ぜひ試してみたいと思ってやってみた。インストレーションは次のページにある手順(FP8版)を使わせていただきました。
● ComfyUIでFP8/GGUF版のFLUX.2 devを試す(VRAM 16GB以上)
使用した環境は、
PC: i9-13900KF + 32Gメモリ + RTX 4080 (16GB)
OS: Ubuntu 24.04.3 LTS
CUDA: 13.0
Python: 3.12.3
UI: ComfyUI
モデル、ワークフローは上記のページにあるものをそのまま使ってますが、”FluxGuidance”のパラメーター(デフォルト4.4)を小さくしないとシードを変えても画像に変化が乏しかったので、それは0.1に変えてみました。
あとSwapを設定しなければ、メモリ不足が起こって動かなかったので、64GBのスワップファイルを設定しました。
意味はないけどFLUX.1で使ったおなじSeedの値4つを使って、おなじプロンプト
29 years old beautiful female Japanese IT Professional in a plain beige oversized T shirt with light brown short choppy hair at a coffee shop, high quality, pink tiny lips, small nose, full body, holding a cup, along counter, dim light, thin arms, looking straight, sister
で画像を出力してみました。正直、ちょっと化粧が濃いというかいかにもAIっぽい。前回のFLUX.1の出力のほうが自然な気がするなぁ。もちろんいろんなパラメータをいじればいいんだろうけれど、第一印象はちょっとがっかりです。



(付記)GoogleのGemini 3 + Nano Bananaに
Create an image for 29 years old beautiful female Japanese IT Professional in a plain beige oversized T shirt with light brown short choppy hair at a coffee shop, high quality, pink tiny lips, small nose, full body, holding a cup, along counter, dim light, thin arms, looking straight, sister
というプロンプトで画像生成させたらこんなのを出力しました。FLUX.2の出力例よりも現実感がありますね。

年末の休みをつかって、家族でプエルトリコに行ってきました。
プエルトリコはアメリカ領なんですが、 Wikipediaによると、
現在のプエルトリコはコモンウェルス(英: commonwealth、米国自治連邦区)という特別な立場にあり、住民はアメリカ国籍を保有するものの、合衆国連邦税(所得税)の納税義務はなく、大統領選挙の投票権もない
というなんか微妙な立場にあります。
英語は通じるけどおもに話されているのはスペイン語で、道路の距離表示はKm、でも速度制限の標識はマイル表示、お金はアメリカドルそのままだけど、ガソリンスタンドの価格表示はリットル単位、といった感じです。
レンタカーを借りて、島の南西部の La Pargueraという町に行ったのですが、朝散歩したらそこら中に野良ニワトリがいました。ひよこを連れているお母さんニワトリもいた。数は少ないけど野良犬もいたので(猫もいました)、犬に襲われたりしないのかとおもうけど、うまく共存しているみたいです。
夜には雨が降って、なぜかずっと小鳥の鳴き声がした、とおもったら、それはカエルの鳴き声だ、とUberのドライバーに教えてもらいました。
かなり気に入ったのでまたぜひ再訪問したいです。


先週末にボストンに行ってきました。ボストンに行くのはたしか3回目。このブログをしらべたら、2013年と2023年に行ってますね。

今回は前の2回で行けなかったボストン美術館に行くことができました。
ボストン美術館にかぎらず、こういう有名な大きな美術館・博物館はちゃんと見ようとおもったら一日で全部見ることは不可能で、けっきょく有名な作品だけを見て、足がつかれてきてコーヒーでも飲んで一服しておわり、ということになりがちなんですが、まったくそのパターンでした(笑)。時間が限られているのでしょうがないですね。
もうちょっとヒマになったら、オーディオガイドを聴きながら、中世の宗教画とか青磁の壷とかをふむふむとながめることのできる余裕のある老人になりたいです。
