FLUX.2 [klein]

Flux.2 [klein] base-4b: noise seed: 781773617094473, Prompt: 35mm negative film photo, full body shot, 29 year old Japanese woman, IT professional, short choppy light brown hair, plain beige oversized T-shirt, thin arms, sitting at coffee shop counter, holding cup, looking at viewer, direct eye contact. Detailed face, small nose, tiny pink lips, natural skin texture, visible pores, faint crow’s feet, unretouched, raw photo. Dim moody lighting, sister vibe, high quality, photorealistic, 8k.

このあいだためしたFLUX.2は”dev”モデルで、ぼくのGeForce RTX-4080 16GBではやや力不足だったのだけれど、もうすこしローエンドのGPUでも快適に動作する”klein”モデルというのが出たというのでためしてみた。使ったのは、

  • flux-2-klein-base-4b.safetensors
  • flux2-vae.safetensors
  • qwen_3_4b.safetensors

です。”klein”には”distilled”(蒸留)モデルと”base”(ベース)モデルがあって、蒸留モデルは爆速だそうですが、まずはベースモデルをためしてみました。

サンプル出力が上のイメージなんですが、けっこう良いんじゃないでしょうか。z-Image Turboの出力はきれいなんですが、なんかモデルっぽいというか愛想笑いしてるというかそんな感じがするのに対して、こっちは笑ってないし、より35ミリネガフィルムっぽくなってるし、リアルな感じがします。

●●●

いちおう蒸留モデルもためしてみようかということで、flux-2-klein-4b.safetensorsをつかってみました。フラッシュをたいて撮ったフィルム写真風ですね。

Flux.2 [klein] 4b (distilled): noise seed: 781773617094473, Prompt: 35mm negative film photo, full body shot, 29 year old Japanese woman, IT professional, short choppy light brown hair, plain beige oversized T-shirt, thin arms, sitting at coffee shop counter, holding cup, looking at viewer, direct eye contact. Detailed face, small nose, tiny pink lips, natural skin texture, visible pores, faint crow’s feet, unretouched, raw photo. Dim moody lighting, sister vibe, high quality, photorealistic, 8k.

Morning in Durham

Trinity United Methodist Church

徒歩旅行のためにまずは10kgの荷物をかついで100kmくらい歩いてみようと年初におもいたって、休みの日は家のまわりを歩いてるけど、平日は仕事のまえに会社のあるDurhamの街を歩いている。

郵便局

Durhamはとくに観光地というわけではないけれど、歴史がある街なので、朝日に照らされる建物がけっこう絵になります。

Durham School of Arts (高校です)

だいたい80kmくらい歩いたので、あと1週間くらいでとりあえずの目標は達成できそうです。

2026

UNC (University of North Carolina)の給水塔

あけましておめでとうございます。ことしもよろしくお願いします。

去年60歳になって、先のことをかんがえるようになり、体が動くうちに徒歩旅行をしてみたいとおもって調べてみたら、10kgくらいのバックパックを背負って1日に20kmくらい歩けないといかんらしいということなので、仕事用のバックパックに重い本とかつめて10kgにして近所を歩いてみようというのを1週間前からやってます。

ぼくだけではないとおもうのですが、なにか始めようとするとき、始めるまえにまず道具(ギア)を揃えたくなる。かっこいいバックパックとか、いいハイキングシューズとか、トレッキング・ポールとかもあった方がいいらしい、とか。たとえば写真を撮るよりもカメラが好きとかいう倒錯も趣味なんだからいいけれど、今回はとりあえず手持ちのバックパックと靴でトータル100kmくらい歩いてからじゃないとあたらしいギアは買わない、と自分にしばりをかけてみました。1週間で25kmほど歩いたのであと75kmです。

今日は市内バスでUNC (University of North Carolina)のキャンパスまで行って、トレイルを歩いて家まで帰ってきました。いいお天気で、どうせわざわざどっかに出かけて行って歩いたところで、このへんのトレイルの景色とあんまり変わらなかったりするんじゃなかろうか、とか、それだったらこのトレイルを目的地ということにして、こんなだれに頼まれたわけでもない修行はやめにして重いバックパック抜きで身軽に歩いた方が人生楽しいんじゃないか、とか、そんな雑念を振り払いながら歩きました。

トレイルのあちこちに休憩用のベンチがあります。

Z-Image Turbo + Google Translate

タイ語バージョン。Z-Image Turbo: seed=440202368594000, prompt=“ภาพถ่ายจากฟิล์มเนกาทีฟ 35 มม. ภาพเต็มตัว หญิงชาวญี่ปุ่นอายุ 29 ปี ทำงานด้านไอที ผมสั้นซอยสีน้ำตาลอ่อน สวมเสื้อยืดสีเบจตัวใหญ่ แขนเรียว นั่งอยู่ที่เคาน์เตอร์ร้านกาแฟ ถือถ้วยกาแฟ มองตรงมาที่ผู้ชม สบตาโดยตรง ใบหน้ามีรายละเอียด จมูกเล็ก ริมฝีปากสีชมพูอ่อน ผิวดูเป็นธรรมชาติ รูขุมขนเห็นได้ชัด มีริ้วรอยเล็กๆ ไม่มีการตกแต่งภาพ ภาพดิบ แสงสลัวๆ ให้ความรู้สึกเหมือนพี่น้อง คุณภาพสูง สมจริงระดับ 8k”

Z-Image TurboとGoogle翻訳の組み合わせがおもしろかったので、いろんな言語を試してみることにした。だいたいもとのプロンプトをGoogle翻訳がちゃんと翻訳できているのかどうか確認できないし、Z-Image Turboのワークフローで使っているLLM (qwen_3_4b.safetensors)がそれをちゃんと解釈できているのかわからんので、ただの遊びです。

まずはこのプロンプト

29 years old beautiful female Japanese IT Professional in a plain beige oversized T shirt with light brown short choppy hair with natural skin texture, visible pores, and faint lines around her eyes at a coffee shop, high quality, pink tiny lips, small nose, full body, holding a cup, along counter, dim light, thin arms, looking straight, sister, 35mm negative film

をGeminiで生成AI用に最適化してもらう。それで出てきた”Structured & Tag-Based (Best for Stable Diffusion)”というバージョンがこれ。

35mm negative film photo, full body shot, 29 year old Japanese woman, IT professional, short choppy light brown hair, plain beige oversized T-shirt, thin arms, sitting at coffee shop counter, holding cup, looking at viewer, direct eye contact. Detailed face, small nose, tiny pink lips, natural skin texture, visible pores, faint crow's feet, unretouched, raw photo. Dim moody lighting, sister vibe, high quality, photorealistic, 8k.

これをつかって画像生成させると、

英語バージョン。Z-Image Turbo: seed=440202368594000, prompt=“35mm negative film photo, full body shot, 29 year old Japanese woman, IT professional, short choppy light brown hair, plain beige oversized T-shirt, thin arms, sitting at coffee shop counter, holding cup, looking at viewer, direct eye contact. Detailed face, small nose, tiny pink lips, natural skin texture, visible pores, faint crow’s feet, unretouched, raw photo. Dim moody lighting, sister vibe, high quality, photorealistic, 8k.”

あとはこのプロンプトをGoogle翻訳に掛けて、Seedを固定して次から次へと画像生成させていくだけです。

日本語バージョン。Z-Image Turbo: seed=440202368594000, prompt=“35mmネガフィルム写真、全身ショット、29歳日本人女性、ITプロフェッショナル、ショートボブのライトブラウンヘア、無地のベージュのオーバーサイズTシャツ、細い腕、コーヒーショップのカウンターに座り、カップを持ち、見る人を見つめ、まっすぐにアイコンタクトを取っている。顔のディテール、小さな鼻、小さなピンクの唇、自然な肌の質感、毛穴が目立ち、かすかな目尻のシワ、未修正、生写真。薄暗いムーディーな照明、姉妹のような雰囲気、高画質、フォトリアリスティック、8K。”
中国語(簡体字)バージョン。Z-Image Turbo: seed=440202368594000, prompt=“35毫米底片照片,全身照,一位29岁的日本女性,IT从业者,留着浅棕色短碎发,身穿米色宽松T恤,手臂纤细,坐在咖啡店吧台前,手拿咖啡杯,目光直视镜头。面部细节清晰,鼻子小巧,嘴唇粉嫩,肤质自然,毛孔可见,眼角有淡淡的鱼尾纹,未经修饰,原始照片。昏暗的灯光营造出一种姐妹般的氛围,照片质量高,写实风格,8K分辨率。”
中国語(繁体字)バージョン。とうぜんながら簡体字バージョンとそっくりですな。Z-Image Turbo: seed=440202368594000, prompt=“35毫米底片照片,全身照,一位29歲的日本女性,IT從業者,留著淺棕色短碎發,身穿米色寬鬆T卹,手臂纖細,坐在咖啡店吧台前,手拿咖啡杯,目光直視鏡頭。臉部細節清晰,鼻子小巧,嘴唇粉嫩,膚質自然,毛孔可見,眼角有淡淡的魚尾紋,未經修飾,原始照片。昏暗的燈光營造出一種姐妹般的氛圍,照片品質高,寫實風格,8K解析度。”
韓国語バージョン。日本語バージョンに似てるけど、ちょっと目が細くなったかな?Z-Image Turbo: seed=440202368594000, prompt=“35mm 네거티브 필름 사진, 전신 촬영, 29세 일본 여성, IT 전문가, 짧고 층진 연갈색 머리, 심플한 베이지색 오버사이즈 티셔츠, 가는 팔, 커피숍 카운터에 앉아 컵을 들고 보는 사람을 응시하며 눈을 마주치고 있다. 섬세한 얼굴, 작은 코, 작고 분홍빛 입술, 자연스러운 피부결, 눈에 띄는 모공, 희미한 눈가 주름, 보정되지 않은 원본 사진. 은은하고 분위기 있는 조명, 자매 같은 느낌, 고화질, 사실적인 사진, 8K.”
スペイン語バージョン。モノクロになりました。Z-Image Turbo: seed=440202368594000, prompt=“Foto en negativo de 35 mm, cuerpo entero, mujer japonesa de 29 años, profesional de informática, cabello castaño claro corto y entrecortado, camiseta beige lisa y holgada, brazos delgados, sentada en el mostrador de una cafetería, sosteniendo una taza, mirando al espectador, contacto visual directo. Rostro detallado, nariz pequeña, labios rosados, textura natural de la piel, poros visibles, patas de gallo tenues, foto sin retocar. Iluminación tenue y tenue, imagen de hermana, alta calidad, fotorrealista, 8k.”
フランス語バージョン。「ベージュのオーバーサイズTシャツ」じゃなくなってるし、ちょっと髪の色が濃いみたい。Z-Image Turbo: seed=440202368594000, prompt=“Photo argentique 35 mm, portrait en pied d’une Japonaise de 29 ans, informaticienne, cheveux châtain clair courts et ondulés, T-shirt beige uni et ample, bras fins, assise au comptoir d’un café, tasse à la main, regard direct vers le spectateur. Visage détaillé, petit nez, lèvres roses et fines, grain de peau naturel, pores visibles, légères rides d’expression, non retouchée, photo brute. Éclairage tamisé et intime, ambiance complice, haute qualité, photoréaliste, 8K.”
ドイツ語バージョン。ベージュだけど「オーバーサイズTシャツ」じゃないし、やっぱり髪の色が濃い。Z-Image Turbo: seed=440202368594000, prompt=“35-mm-Negativfoto, Ganzkörperaufnahme, 29-jährige Japanerin, IT-Fachkraft, kurzes, hellbraunes, stufiges Haar, schlichtes beiges Oversize-T-Shirt, schlanke Arme, sitzt an der Theke eines Cafés, hält eine Tasse und blickt den Betrachter direkt an. Detailreiches Gesicht, kleine Nase, zartrosa Lippen, natürliche Hautstruktur, sichtbare Poren, leichte Fältchen um die Augen, unbearbeitetes Rohfoto. Gedämpftes, stimmungsvolles Licht, vertraute Atmosphäre, hohe Qualität, fotorealistisch, 8K.”
イタリア語バージョン。服の指示はほぼ無視。あとカフェで仕事を始めてしまいました。Z-Image Turbo: seed=440202368594000, prompt=“Foto a figura intera, foto su pellicola negativa da 35 mm, donna giapponese di 29 anni, professionista IT, capelli castano chiaro corti e mossi, maglietta beige oversize, braccia sottili, seduta al bancone di un bar, con una tazza in mano, sguardo diretto verso l’osservatore. Viso dettagliato, naso piccolo, labbra rosa minuscole, grana della pelle naturale, pori visibili, zampe di gallina appena accennate, foto non ritoccata. Illuminazione soffusa e suggestiva, atmosfera da sorella, alta qualità, fotorealistica, 8k.”
ロシア語バージョン。髪の色は指示通り明るい茶色になったけど、もとのイメージからはだいぶん変わりました。Z-Image Turbo: seed=440202368594000, prompt=“Фотография на 35-мм негативе, снимок в полный рост, 29-летняя японка, IT-специалист, короткие рваные светло-каштановые волосы, простая бежевая футболка оверсайз, тонкие руки, сидит за стойкой в ​​кофейне, держит чашку, смотрит на зрителя, прямой зрительный контакт. Детально проработанное лицо, маленький нос, крошечные розовые губы, естественная текстура кожи, видимые поры, едва заметные «гусиные лапки», необработанное, необработанное фото. Приглушенное, атмосферное освещение, сестринская атмосфера, высокое качество, фотореалистичный, 8K.”
フィンランド語バージョン。Tシャツじゃないし、カフェにもいません。まじめに仕事をしてます。Z-Image Turbo: seed=440202368594000, prompt=“35 mm:n negatiivifilmikuva, koko vartalon kuva, 29-vuotias japanilainen nainen, IT-ammattilainen, lyhyet, epätasaiset vaaleanruskeat hiukset, yksivärinen beigenvärinen ylisuuri t-paita, hoikat käsivarret, istuu kahvilan tiskillä, pitelee kuppia, katsoo katsojaa, suora katsekontakti. Yksityiskohtaiset kasvot, pieni nenä, pienet vaaleanpunaiset huulet, luonnollinen ihon rakenne, näkyvät ihohuokoset, heikot variksenjalat, retusoimaton, raakakuva. Himmeä, tunnelmallinen valaistus, siskotunnelma, korkealaatuinen, fotorealistinen, 8k.”
スウェーデン語バージョン。フィンランド語バージョンと似てくるんじゃないかと予想してましたが違いました。Z-Image Turbo: seed=440202368594000, prompt=“35 mm negativfilmfoto, helkroppsbild, 29-årig japansk kvinna, IT-proffs, kort, ljusbrunt hår, enfärgad beige oversized t-shirt, smala armar, sitter vid kafédisk, håller i en kopp, tittar in i betraktaren, direkt ögonkontakt. Detaljerat ansikte, liten näsa, små rosa läppar, naturlig hudstruktur, synliga porer, svaga kråksparkar, oretuscherat, råfoto. Dunkelt, stämningsfullt ljus, systervibe, hög kvalitet, fotorealistiskt, 8k.”
アラビア語バージョン。髪の色は濃くなりましたが、ロシア語バージョンの方ですね。Z-Image Turbo: seed=440202368594000, prompt=“صورة فوتوغرافية من فيلم نيجاتيف 35 مم، لقطة كاملة للجسم، امرأة يابانية تبلغ من العمر 29 عامًا، تعمل في مجال تكنولوجيا المعلومات، شعرها بني فاتح قصير غير متناسق، ترتدي قميصًا بيجًا فضفاضًا، ذراعاها نحيلتان، تجلس على طاولة مقهى، تحمل كوبًا، تنظر إلى المشاهد مباشرةً. وجهها مفصل بدقة، أنفها صغير، شفتاها ورديتان صغيرتان، ملمس بشرتها طبيعي، مسامها ظاهرة، تجاعيد خفيفة حول عينيها، الصورة غير معدلة، بصيغة RAW. إضاءة خافتة، جوٌّ وديّ، جودة عالية، واقعية للغاية، بدقة 8K.”
ヘブライ語バージョン。アラビア語はけっこうちゃんと認識されてるようなのに、ヘブライ語がうまくいかないのは、たぶんqwen_3_4bがヘブライ語でトレーニングされていないからじゃないかな(想像です)。Z-Image Turbo: seed=440202368594000, prompt=“צילום של פילם נגטיב 35 מ”מ, צילום גוף מלא, אישה יפנית בת 29, אישת IT, שיער חום בהיר קצר וגזור, חולצת טריקו חלקה בצבע בז’ גדולה, זרועות דקות, יושבת ליד דלפק בית קפה, מחזיקה כוס, מביטה בצופה, קשר עין ישיר. פנים מפורטות, אף קטן, שפתיים ורודות זעירות, מרקם עור טבעי, נקבוביות נראות לעין, רגלי עורב קלושות, לא ריטוש, תמונה גולמית. תאורה עמומה ומלאת רוח, “אחות” (Sister Vibe), איכות גבוהה, פוטוריאליסטית, 8k.”
ヒンディー語バージョン。ヘブライ語ほどではないですが、これも日本人がインド人になってます。Z-Image Turbo: seed=440202368594000, prompt=“35mm नेगेटिव फिल्म फोटो, फुल बॉडी शॉट, 29 साल की जापानी महिला, IT प्रोफेशनल, छोटे कटे हुए हल्के भूरे बाल, प्लेन बेज ओवरसाइज़्ड टी-शर्ट, पतले हाथ, कॉफी शॉप काउंटर पर बैठी, कप पकड़े, देखने वाले को देख रही है, सीधे आई कॉन्टैक्ट। डिटेल्ड चेहरा, छोटी नाक, छोटे गुलाबी होंठ, नेचुरल स्किन टेक्सचर, दिखने वाले पोर्स, हल्के क्रो फीट, बिना रिटच किया हुआ, रॉ फोटो। डिम मूडी लाइटिंग, सिस्टर वाइब, हाई क्वालिटी, फोटोरियलिस्टिक, 8k।”
ポルトガル語(ブラジル)バージョン。スペイン語と同じくモノクロになってます。「35mmネガフィルム写真」を外せばカラーになるみたい。Z-Image Turbo: seed=440202368594000, prompt=“Fotografia em negativo de 35mm, corpo inteiro, mulher japonesa de 29 anos, profissional de TI, cabelo castanho claro curto e repicado, camiseta bege lisa e larga, braços finos, sentada no balcão de uma cafeteria, segurando uma xícara, olhando para o espectador, contato visual direto. Rosto detalhado, nariz pequeno, lábios rosados ​​delicados, textura natural da pele, poros visíveis, leves pés de galinha, sem retoques, foto original. Iluminação baixa e intimista, clima de irmã, alta qualidade, fotorrealista, 8k.”
ベトナム語バージョン。トップに載せたタイ語バージョンでもわかるように、東南アジア・東アジアの言語は得意みたいですな。Z-Image Turbo: seed=440202368594000, prompt=“Ảnh chụp toàn thân bằng phim âm bản 35mm, người phụ nữ Nhật Bản 29 tuổi, chuyên viên công nghệ thông tin, tóc ngắn màu nâu nhạt, áo phông rộng màu be trơn, cánh tay thon gọn, ngồi tại quầy quán cà phê, cầm cốc, nhìn thẳng vào người xem. Khuôn mặt chi tiết, mũi nhỏ, môi hồng nhỏ nhắn, kết cấu da tự nhiên, lỗ chân lông rõ, nếp nhăn nhẹ quanh mắt, ảnh gốc chưa qua chỉnh sửa. Ánh sáng mờ ảo, mang hơi hướng chị em, chất lượng cao, chân thực, độ phân giải 8K.”
スワヒリ語バージョン。ベージュのTシャツだけはなんとか認識されてます。このあたりはぜんぜんトレーニングされていないんでしょうね。Z-Image Turbo: seed=440202368594000, prompt=“Picha ya filamu hasi ya 35mm, picha ya mwili mzima, mwanamke wa Kijapani mwenye umri wa miaka 29, mtaalamu wa TEHAMA, nywele fupi za kahawia zilizopinda, T-shati ya beige iliyokolea, mikono myembamba, ameketi kwenye kaunta ya kahawa, ameshika kikombe, anamtazama mtazamaji, amemtazama machoni moja kwa moja. Uso wenye maelezo, pua ndogo, midomo midogo ya waridi, umbile asilia la ngozi, vinyweleo vinavyoonekana, miguu ya kunguru hafifu, isiyoguswa, picha mbichi. Mwanga hafifu wa hisia, mwonekano wa dada, ubora wa juu, picha halisi, 8k.”
インドネシア語バージョン。タイ語・ベトナム語の結果から期待したのですが、髪が長いし、服がTシャツというよりはトレーナーみたいです。Z-Image Turbo: seed=440202368594000, prompt=“Foto film negatif 35mm, potret seluruh tubuh, wanita Jepang berusia 29 tahun, profesional IT, rambut cokelat muda pendek bergelombang, kaos oblong beige polos, lengan kurus, duduk di konter kedai kopi, memegang cangkir, menatap ke arah penonton, kontak mata langsung. Wajah detail, hidung kecil, bibir merah muda mungil, tekstur kulit alami, pori-pori terlihat, kerutan samar di sekitar mata, tanpa retouch, foto mentah. Pencahayaan redup dan muram, aura seperti kakak perempuan, kualitas tinggi, fotorealistik, 8k.”

Z-Image Turbo

Z-Image Turbo: seed=440202368594000, prompt=“29 years old beautiful female Japanese IT Professional in a plain beige oversized T shirt with light brown short choppy hair with natural skin texture, visible pores, and faint lines around her eyes at a coffee shop, high quality, pink tiny lips, small nose, full body, holding a cup, along counter, dim light, thin arms, looking straight, sister, 35mm negative film”

FLUX.2は重いし、結局いまのところはまだFLUX.1が最強かな〜というのが昨日の結論だったのですが、Z-Image Turboというのが話題らしいぞ、ということで試してみた。

まずは昨日のFLUX.2用にチューンしたプロンプト。

Z-Image Turbo: seed=440202368594000, prompt=”A photorealistic full-body photograph of a 29-year-old Japanese woman, an IT professional, with short, choppy light brown hair, leaning casually against a wooden coffee shop counter. Her height is 5’2″. She has a slender build and a gentle, slight smile, with natural skin texture, visible pores, and faint lines around her eyes. She wears a plain oversized beige natural cotton T-shirt and dark jeans, holding a ceramic mug with both hands. The coffee shop is dimly lit with warm, practical lights and ambient window light. In the mid-ground, two other customers are blurred, sitting at a wooden table. The composition is cinematic, looking straight at the camera. It was taken by her boyfriend with a medium format camera with Kodachrome.

悪くない、というか、かなり良い。FLUX.1の出力でちょっと気になる肌のテカテカした感じがない。画像生成で遊ぶという意味では、Seedの値を変えてもほぼ同じ顔の女性しか出てこないみたい(どこかパラメータをいじればいいのかもしれない)なのが面白くないのですが、普通に自然な写真です。

これなら、FLUX.1のポストでも使ったオリジナルのプロンプト

29 years old beautiful female Japanese IT Professional in a plain beige oversized T shirt with light brown short choppy hair at a coffee shop, high quality, pink tiny lips, small nose, full body, holding a cup, along counter, dim light, thin arms, looking straight, sister

でそこそこいけるんじゃないか?とおもって試したのがこれ。

Z-Image Turbo: seed=440202368594000, prompt=“29 years old beautiful female Japanese IT Professional in a plain beige oversized T shirt with light brown short choppy hair at a coffee shop, high quality, pink tiny lips, small nose, full body, holding a cup, along counter, dim light, thin arms, looking straight, sister”

ちょっと顔の表情と肌のツルツルさがAIっぽいか?とおもって、35mmネガフィルムで撮ったことにして(”35mm negative film”)、昨日FLUX.2用にプロンプトをいじっているときにGeminiが加えた肌のツルツルを抑える表現(”with natural skin texture, visible pores, and faint lines around her eyes”)を足して出力したのがトップの画像です。かなり良いんじゃないかと思うんですがどうでしょうか。

そのプロンプト、

29 years old beautiful female Japanese IT Professional in a plain beige oversized T shirt with light brown short choppy hair with natural skin texture, visible pores, and faint lines around her eyes at a coffee shop, high quality, pink tiny lips, small nose, full body, holding a cup, along counter, dim light, thin arms, looking straight, sister, 35mm negative film

をGoogle翻訳で日本語に翻訳させて、

29歳の美しい日本人女性ITプロフェッショナル。シンプルなベージュのオーバーサイズTシャツを着て、ライトブラウンの短いボブヘア。自然な肌質で、毛穴や目元の小じわが少し見える。カフェのカウンター席に座り、カップを持っている。薄暗い照明、細い腕、まっすぐ前を見つめている。妹のような雰囲気。35mmネガフィルムで撮影。

これで画像生成させたらどうなるか。

Z-Image Turbo: seed=440202368594000, prompt=”29歳の美しい日本人女性ITプロフェッショナル。シンプルなベージュのオーバーサイズTシャツを着て、ライトブラウンの短いボブヘア。自然な肌質で、毛穴や目元の小じわが少し見える。カフェのカウンター席に座り、カップを持っている。薄暗い照明、細い腕、まっすぐ前を見つめている。妹のような雰囲気。35mmネガフィルムで撮影。”

英語で”sister”というと姉か妹かわからないけど、Googleが妹だと翻訳したので、ちょっと妹属性が入ったのかな?じゃあ「妹」を「お姉さん」にしてみよう。

Z-Image Turbo: seed=440202368594000, prompt=”29歳の美しい日本人女性ITプロフェッショナル。シンプルなベージュのオーバーサイズTシャツを着て、ライトブラウンの短いボブヘア。自然な肌質で、毛穴や目元の小じわが少し見える。カフェのカウンター席に座り、カップを持っている。薄暗い照明、細い腕、まっすぐ前を見つめている。お姉さんのような雰囲気。35mmネガフィルムで撮影。”

ものすごく微妙ですが、お姉さんになりましたか(笑)?

Z-Image Turboは中国製(アリババ)なので、最後に英語のプロンプトを中国語に翻訳してやってみよう。

一位29岁的漂亮日本女性IT专业人士,身穿一件宽松的米色T恤,留着浅棕色短发,皮肤自然,毛孔清晰可见,眼周有细纹。她坐在咖啡馆里,画质高清,嘴唇小巧粉嫩,鼻子小巧,身材匀称,手里拿着一个杯子,坐在吧台边,光线昏暗,手臂纤细,目光直视前方,像个姐姐,35毫米胶片拍摄。
Z-Image Turbo: seed=440202368594000, prompt=”一位29岁的漂亮日本女性IT专业人士,身穿一件宽松的米色T恤,留着浅棕色短发,皮肤自然,毛孔清晰可见,眼周有细纹。她坐在咖啡馆里,画质高清,嘴唇小巧粉嫩,鼻子小巧,身材匀称,手里拿着一个杯子,坐在吧台边,光线昏暗,手臂纤细,目光直视前方,像个姐姐,35毫米胶片拍摄。”

いつまでも遊んでいられますな。

(付記)

アニメ調も追加しておきます。よくみたらプロンプトで「お姉さん」が指定されてますな。そつのない出力だとおもいます。

Z-Image Turbo: seed=440202368594000, prompt=”Anime style, masterpiece, best quality. A beautiful 29-year-old Japanese ‘onee-san’ (older sister) character, IT professional. She has short choppy light brown hair and delicate features, tiny pink lips, and a small nose. Wearing a plain oversized beige T-shirt. Full body shot, leaning against a cafe counter. Dim atmospheric lighting, holding a coffee cup, looking straight at the viewer, thin arms, detailed eyes, crisp linework, cel shading.

FLUX.2 Prompt Engineering

noise_seed=440202368593999, guidance=4.4, prompt=”A photorealistic full-body photograph of a 29-year-old Japanese woman, an IT professional, with short, choppy light brown hair, leaning casually against a wooden coffee shop counter. Her height is 5’2″. She has a slender build and a gentle, slight smile, with natural skin texture, visible pores, and faint lines around her eyes. She wears a plain oversized beige natural cotton T-shirt and dark jeans, holding a ceramic mug with both hands. The coffee shop is dimly lit with warm, practical lights and ambient window light. In the mid-ground, two other customers are blurred, sitting at a wooden table. The composition is cinematic, looking straight at the camera. It was taken by her boyfriend with a medium format camera with Kodachrome.”

昨日のFLUX.2のポストをPublishしてから考えたのは、FLUX.2はFLUX.1よりもよりプロンプトに忠実に画像生成しようとしているのではないかということで、たとえば背景に他の客が入っていたほうがいいのなら、ちゃんとそれを指定して、あまりにAIっぽい美肌になっていたら、そうならないように指定するとか、細かく指示を出さなきゃいかんのではないか、ということ。それにしても、完璧な美人を完璧に写真に撮ることができても、AIっぽいと言われてしまうというのは、過酷な時代になりましたね。

それで、noise_seed (440202368593999)とguidance (4.4)の値は固定して、Google Geminiの助けを借りてプロンプトをいろいろいじってみました。上の画像はその中でもよくできたんじゃないかと思ってるやつです。

以下、いくつかサンプルをどうぞ。

オリジナルのプロンプト。いかにもAIって感じ。noise_seed=440202368593999, guidance=4.4, prompt=”29 years old beautiful female Japanese IT Professional in a plain beige oversized T shirt with light brown short choppy hair at a coffee shop, high quality, pink tiny lips, small nose, full body, holding a cup, along counter, dim light, thin arms, looking straight, sister”
オリジナルのプロンプトをもとにして、Geminiが生成した”Detailed & Cinematic”というタイトルのプロンプト。AIっぽいといえばそうだけど、光の感じが映画っぽくなった。noise_seed=440202368593999, guidance=4.4, prompt=”Full body shot of a beautiful 29-year-old Japanese IT professional, short choppy light brown hair, small nose, tiny pink lips, slender build. She is wearing a plain oversized beige T-shirt, leaning against a coffee shop counter. Dim atmospheric lighting, cinematic composition, holding a coffee cup, looking straight at the camera, 8k resolution, photorealistic, approachable sisterly vibe.”
Geminiが生成したもう一つのプロンプト(”Stylized & Artistic”)。写真というよりイラストっぽい。noise_seed=440202368593999, guidance=4.4, prompt=”Japanese woman, IT specialist, late 20s, short choppy brown hair, oversized beige tee. Standing in a dimly lit cafe, leaning on the counter, holding a mug. Delicate features, small nose, thin arms. High quality, soft focus, moody lighting, portrait photography style.”
アニメ調も試してみました。noise_seed=440202368593999, guidance=4.4, prompt=”Anime style, masterpiece, best quality. A beautiful 29-year-old Japanese ‘onee-san’ (older sister) character, IT professional. She has short choppy light brown hair and delicate features, tiny pink lips, and a small nose. Wearing a plain oversized beige T-shirt. Full body shot, leaning against a cafe counter. Dim atmospheric lighting, holding a coffee cup, looking straight at the viewer, thin arms, detailed eyes, crisp linework, cel shading.”
新海誠スタイル(“Makoto Shinkai Style”)のプロンプトも生成されたのでやってみました。noise_seed=440202368593999, guidance=4.4, prompt=”Anime key visual, Makoto Shinkai style. Cinematic lighting, volumetric dust, dim coffee shop interior. A Japanese woman with short light brown hair standing by the counter, holding a mug. She wears a baggy beige T-shirt. Soft glowing eyes, looking at camera, full body, highly detailed background, emotional atmosphere, 4k resolution, digital art.”

(付記)
いろんなプロンプトを試してみたけど、それをFLUX.1で画像生成させてみたらどうなるかやってみました。

まずは、いちばん上の画像のプロンプト。

FLUX.1: noise_seed=440202368593999, prompt=”A photorealistic full-body photograph of a 29-year-old Japanese woman, an IT professional, with short, choppy light brown hair, leaning casually against a wooden coffee shop counter. Her height is 5’2″. She has a slender build and a gentle, slight smile, with natural skin texture, visible pores, and faint lines around her eyes. She wears a plain oversized beige natural cotton T-shirt and dark jeans, holding a ceramic mug with both hands. The coffee shop is dimly lit with warm, practical lights and ambient window light. In the mid-ground, two other customers are blurred, sitting at a wooden table. The composition is cinematic, looking straight at the camera. It was taken by her boyfriend with a medium format camera with Kodachrome.”

ちょっと露出不足だけれど、FLUX.2の出力よりも良くないですか。Seed を変えたバージョンではこんなのも出力されました。

FLUX.1: noise_seed=945379041376996, prompt=”A photorealistic full-body photograph of a 29-year-old Japanese woman, an IT professional, with short, choppy light brown hair, leaning casually against a wooden coffee shop counter. Her height is 5’2″. She has a slender build and a gentle, slight smile, with natural skin texture, visible pores, and faint lines around her eyes. She wears a plain oversized beige natural cotton T-shirt and dark jeans, holding a ceramic mug with both hands. The coffee shop is dimly lit with warm, practical lights and ambient window light. In the mid-ground, two other customers are blurred, sitting at a wooden table. The composition is cinematic, looking straight at the camera. It was taken by her boyfriend with a medium format camera with Kodachrome.”

FLUX.2だとモデルが大きいので一枚出すのに5分くらいかかるのですが、FLUX.1だと20秒くらいで出てくるのでいろいろ試せます。使っているワークフローが違うので単純比較できませんが、ぼくが遊んで使う分にはFLUX.1で十分だな、というか出力もFLUX.1の方が好み、というのが感想です。

アニメ調もFLUX.1で試してみました。FLUX.2の出力とは画風が違うのですが、いい感じじゃないでしょうか。

FLUX.1: noise_seed=440202368593999, prompt=”Anime style, masterpiece, best quality. A beautiful 29-year-old Japanese ‘onee-san’ (older sister) character, IT professional. She has short choppy light brown hair and delicate features, tiny pink lips, and a small nose. Wearing a plain oversized beige T-shirt. Full body shot, leaning against a cafe counter. Dim atmospheric lighting, holding a coffee cup, looking straight at the viewer, thin arms, detailed eyes, crisp linework, cel shading.”

FLUX.2

noise_seed=440202368593999, guidance=0.1

去年の夏ごろ遊んでいた画像生成AIのFLUX.1というやつの次世代バージョンFLUX.2というのが出たというので、ぜひ試してみたいと思ってやってみた。インストレーションは次のページにある手順(FP8版)を使わせていただきました。

● ComfyUIでFP8/GGUF版のFLUX.2 devを試す(VRAM 16GB以上)

使用した環境は、

PC: i9-13900KF + 32Gメモリ + RTX 4080 (16GB)
OS: Ubuntu 24.04.3 LTS
CUDA: 13.0
Python: 3.12.3
UI: ComfyUI

モデル、ワークフローは上記のページにあるものをそのまま使ってますが、”FluxGuidance”のパラメーター(デフォルト4.4)を小さくしないとシードを変えても画像に変化が乏しかったので、それは0.1に変えてみました。

あとSwapを設定しなければ、メモリ不足が起こって動かなかったので、64GBのスワップファイルを設定しました。

意味はないけどFLUX.1で使ったおなじSeedの値4つを使って、おなじプロンプト

29 years old beautiful female Japanese IT Professional in a plain beige oversized T shirt with light brown short choppy hair at a coffee shop, high quality, pink tiny lips, small nose, full body, holding a cup, along counter, dim light, thin arms, looking straight, sister

で画像を出力してみました。正直、ちょっと化粧が濃いというかいかにもAIっぽい。前回のFLUX.1の出力のほうが自然な気がするなぁ。もちろんいろんなパラメータをいじればいいんだろうけれど、第一印象はちょっとがっかりです。

noise_seed=269965826192135, guidance=0.1
noise_seed=225837849901092, guidance=0.1
noise_seed=1050900740056415, guidance=0.1

(付記)GoogleのGemini 3 + Nano Bananaに

Create an image for 29 years old beautiful female Japanese IT Professional in a plain beige oversized T shirt with light brown short choppy hair at a coffee shop, high quality, pink tiny lips, small nose, full body, holding a cup, along counter, dim light, thin arms, looking straight, sister

というプロンプトで画像生成させたらこんなのを出力しました。FLUX.2の出力例よりも現実感がありますね。

仕事をしている風の右の二人が効いてますな

La Parguera, Puerto Rico

年末の休みをつかって、家族でプエルトリコに行ってきました。

プエルトリコはアメリカ領なんですが、 Wikipediaによると、

現在のプエルトリコはコモンウェルス(英: commonwealth、米国自治連邦区)という特別な立場にあり、住民はアメリカ国籍を保有するものの、合衆国連邦税(所得税)の納税義務はなく、大統領選挙の投票権もない

というなんか微妙な立場にあります。

英語は通じるけどおもに話されているのはスペイン語で、道路の距離表示はKm、でも速度制限の標識はマイル表示、お金はアメリカドルそのままだけど、ガソリンスタンドの価格表示はリットル単位、といった感じです。

レンタカーを借りて、島の南西部の La Pargueraという町に行ったのですが、朝散歩したらそこら中に野良ニワトリがいました。ひよこを連れているお母さんニワトリもいた。数は少ないけど野良犬もいたので(猫もいました)、犬に襲われたりしないのかとおもうけど、うまく共存しているみたいです。

夜には雨が降って、なぜかずっと小鳥の鳴き声がした、とおもったら、それはカエルの鳴き声だ、とUberのドライバーに教えてもらいました。

かなり気に入ったのでまたぜひ再訪問したいです。

こんなトカゲ(イグアナ?)もいました。

Boston, 2025

バークリー音楽大学前にて

先週末にボストンに行ってきました。ボストンに行くのはたしか3回目。このブログをしらべたら、2013年と2023年に行ってますね。

ボストン美術燗前。まだそんなには寒くなかったけど、ノースカロライナと比べると寒い

今回は前の2回で行けなかったボストン美術館に行くことができました。

ボストン美術館にかぎらず、こういう有名な大きな美術館・博物館はちゃんと見ようとおもったら一日で全部見ることは不可能で、けっきょく有名な作品だけを見て、足がつかれてきてコーヒーでも飲んで一服しておわり、ということになりがちなんですが、まったくそのパターンでした(笑)。時間が限られているのでしょうがないですね。

もうちょっとヒマになったら、オーディオガイドを聴きながら、中世の宗教画とか青磁の壷とかをふむふむとながめることのできる余裕のある老人になりたいです。

まるで日本のお寺ですが、さいせん箱はありません。

Levels 52 & 53

ポケモンGOの最高レベルが50から80に変更されるというお知らせがあって、それはてっきりレベル50の上にあと30レベル追加するということだとおもっていたのだけれど、先週変更が実施されて、これまでレベル39だったぼくのレベルが突然52になって、それからしばらく遊んでいたら53になった。

どうもこれまでのレベル設定だと、高いレベルになってしまうとつぎのレベルに到達するにはライトユーザーならⅠ年以上かかっていてよぽっどしつこい性格以外の人はポケモンGOをやめてしまうので、もっと簡単にレベルアップできるようにしよう、という趣旨みたいだ。

ぼくの場合は、完全に惰性でプレイしていて、あまりゲームのシステムを変えてほしくないし、あたらしく追加された機能とかもよくわかっていない。たとえば、去年?だったかMAXシステム?とかいうのが導入されて、ポケモンが巨大化したりするようになったのだけれど、それにどういう意味があるのか知らないし、たぶんネットで調べれば分かるんだろうとはおもうものの、分かったところでどうしようというのもない。ただ毎日数匹のポケモンをつかまえて、ポケストップで看板みたいなのを回すのみ。

このあいだ亡くなった谷川俊太郎さんは以前にインタビューで、自分はドストエフスキーを読んだことがない、と語っておられたが、はたして谷川さんは亡くなられるまでにドストエフスキーを読まれたのだろうかおもう、と同時に、べつに谷川さんはドストエフスキーを読まなくても満足されていたのではないかとおもう。

おなじくドストエフスキーを読んだことのないぼくもたぶんポケモンGOのレベル80に到達するどころか、どのポケモンが何系ポケモンかわからないままに、ちょこちょこプレイを続けていくんだろうな。そもそも死ぬまでポケモンGOをやりつづけるのか、あるいはそれまでポケモンGOの運営自体が続くのかどうかわからないのだけれど。