【驚きました!】LoRA徹底検証!STEP数や画像枚数、Dim、Alpha等による学習の違い【stable diffusion】

Поділитися
Вставка
  • Опубліковано 5 вер 2024

КОМЕНТАРІ • 75

  • @Yoshifull-sc5rh
    @Yoshifull-sc5rh 3 місяці тому +2

    いちいち解説が丁寧。こだわりを感じます。

    • @AI_is_in_wonderland
      @AI_is_in_wonderland  2 місяці тому

      コメントありがとうございます。色々とこだわってみました。今でもLoRAは作っています

  • @user-cs2yh1ez7w
    @user-cs2yh1ez7w 11 місяців тому +14

    画像の読み込みがうまくいかない場合
    dataset-tag-editor-standaloneフォルダ内の
    requirements.txtファイルの最後に(torchvisionの下に)fastapi==0.95.2と書き加えてから、install.batを再度起動すると直るそうです

    • @AI_is_in_wonderland
      @AI_is_in_wonderland  11 місяців тому

      有益な情報ありがとうございました!とてもうれしいです。
      コミュニティーの方で皆様にアナウンスしておきます

    • @user-ck3qz1gy3c
      @user-ck3qz1gy3c 9 місяців тому

      助かりました、いつまでたっても画面の読み込みが終わらず、コマンドプロンプトをみたらエラーはいていたので、ここをみてfastapi==0.95.2を追加したら読み込むようになりました

    • @edamame_0001
      @edamame_0001 5 місяців тому

      助かりました!!よく見たらエラーになってたので。

  • @meijitenno
    @meijitenno 11 місяців тому +3

    検証動画ありがとうございます。
    自分もLora作りをしていますが、パラメータが多すぎてどこをどういじったらよいか悩んでいました。この動画である程度手順が分かった気がします。

    • @AI_is_in_wonderland
      @AI_is_in_wonderland  11 місяців тому

      コメントありがとうございます。参考になってよかったです

  • @necotarou1972
    @necotarou1972 11 місяців тому +2

    いつも勉強になる動画ありがとうございます。
    自分もLora生成に挑戦してみたいと思いました。

    • @AI_is_in_wonderland
      @AI_is_in_wonderland  11 місяців тому +1

      コメントありがとうございます。
      LoRA生成挑戦してみてください!
      面白いですよ

  • @_8275
    @_8275 11 місяців тому +3

    LoRAを大量に作成して比較するのは難しいので、非常に参考になりました。
    他の要素だと、透明正則化画像を入れる効果や、LoRAとLycoris等の差が分からず悩んでいるので、機会があればこの辺りも取り上げていただけると有難いです。

    • @AI_is_in_wonderland
      @AI_is_in_wonderland  11 місяців тому

      コメントありがとうございます
      Lycorisは実は作ったことがないのですが、ぜひトライしたいと思います!

  • @pizzapizza8784
    @pizzapizza8784 11 місяців тому +3

    わかりやすい解説ありがとうございます。
    キャラLoRAでキャラに複数の衣装トリガーワードで切り替える学習を試行錯誤しています。
    できればその解説もやっていただければ幸いです。

    • @AI_is_in_wonderland
      @AI_is_in_wonderland  11 місяців тому +4

      コメントありがとうございます。例えば、黒ドレスモードののヨルフォージャーと、赤ワンピセーターのヨルフォージャーみたいな感じのやつですね!何か良いキャラはあるでしょうか?今度やってみたいと思います!

  • @user-th9fd5yo9n
    @user-th9fd5yo9n 11 місяців тому +1

    毎回参考になり勉強させていただいてます。分かりやすい動画有難うございます。

  • @ichigo_STR_153
    @ichigo_STR_153 11 місяців тому +1

    タグの作業が面倒であまりLora作っていなかったのですが、こんな便利なツールがあったんですね。

  • @katoriyamada
    @katoriyamada 10 місяців тому +1

    この動画も見逃していましたが(チャンネル登録はしてるのですが通知なしだと見逃してしまいますね。通知ありに変更しました)、概要欄のリンクから辿ってみてみましたが素晴らしい内容です! やっぱり実地検証された画像例を見るとわかりやすさと説得力が違いますね。自分もalphaはdimの半分が良いという話を聞いていて、それを自分でも試してみたら良い結果だったのでずっとそれを使っていましたが、画風を学習させたい時と、服装だけを学習させたい時では、数値を変えた方がいいと思っていたので、そのとっかかりがつかめた気がします。

    • @AI_is_in_wonderland
      @AI_is_in_wonderland  10 місяців тому +1

      コメントありがとうございます。私も動画を作りながら学んでいます。全体を覚えたいときはdim大き目alpha弱め、キャラならalphaはdimの半分が効率的かと思っています。

  • @RikuMk2
    @RikuMk2 11 місяців тому +1

    素晴らしい動画でした

  • @user-wb6zq6ju5j
    @user-wb6zq6ju5j 11 місяців тому +2

    長文になってしまいました、申し訳ありません。
    分かりやすい比較検証ありがとうございます。
    自分ではここまで細かく、特にdimとalphaについて比べてなかったので、とても勉強になりました。
    alpha1のままだと逆に学習不足なるのですね。
    Dimとalphaの比率は8:14:12:1の方もいれば、alpha1固定で、dimや学習率、ステップ数などを調整されている方もいるみたいで、やはり奥が深いですね
    自分は最近、キャラの顔とキャラのデフォルトの服のトリガーワードを分けて学習しています。
    それで1つのローラでキャラのデフォルト服も学習しつつ、服の脱ぎ気や着せ替えの柔軟性も上がりました。
    しかし、キャラの顔とキャラのデフォルト服の両方のトリガーワードを両方プロンプトに書くと、顔だけのトリガーワードの時よりも過学習ぎみのイラスト出力になります(トリガーワードを複数用意する分、同じような教師画像が増えているためと思われます)。ROLAのウェイトを下げると学習不足ぎみの感じになってしまってます。
    顔とデフォルトの服を学習したROLA、顔だけ学習したROLAと使い分けるのが楽なのですが、トリガーワードを複数設定しつついい感じの学習ができないかと試行錯誤中です(教師画像の枚数や質、トリガーワードごとのリピートやエポック、総ステップ数など)。
    将来的に、複数の決まった服や衣装があるキャラを、1つのローラでトリガーワードを分けながら上手く出力できるROLA作成したいので…
    こちらの動画を見て、alphaとdimも色々試してみようと思いました。ありがとうございます!

    • @AI_is_in_wonderland
      @AI_is_in_wonderland  11 місяців тому

      コメントありがとうございます。
      そうなんですよ。dimを増やしたときに画像が学習できてなくて何か間違えたかと思ったぐらいです。今回検証できていなかったこととして、プロンプトを変えたときの影響や、キャプションの中の何を残して何を取り除けばよいかなどまだまだ検証の余地はたくさんありそうですね。学習率なんかも影響しそうですね。私ももっと検証していきたいです。

  • @nanoyui615
    @nanoyui615 11 місяців тому +3

    どこかの記事で「学習率×(alpha /dim)」とありました。
    過学習を防ぐバッファの役割かと。
    私はフォトリアル系しか作成してませんが、64/128を選んでます。
    dimを増やすと情報量は増えますが、それに合わせてLoraファイルサイズが大きくなりますね。
    結果に遜色ないなら低dimで十分なのかもです。

    • @AI_is_in_wonderland
      @AI_is_in_wonderland  11 місяців тому

      コメントありがとうございます。この動画を通して色々コメント頂いている中でalpha/dim=0.5が良いとの意見がありますね。
      STEP数にも依存しますが、今回のアニメ系でのSTEP1000では64/128はやや過学習気味でした。リアル系もやりたいのですが、題材的にbanされる可能性があるのでやりにくいですね。

  • @m.mishima9485
    @m.mishima9485 11 місяців тому +1

    サマードレスと関連付けなければ、衣装も含めてfitsとして学習されるということでしょうか?
    必要のない情報は画像からそぎ落とす(背景など)のが効率化に繋がるということですが、衣装を学習させない場合は生首にした方がいいのでしょうか?
    逆に、衣装も含めて学習させる場合は、バストアップ画像などは素材から省き、全身像の画像のみで行うべきなのでしょうか?
    とあるコスプレ衣装があるのですが、キャラではなく衣装のLoraを作る場合、首無しマネキンで撮影すれば良いのか、人間が着用している写真にすべきなのか、画像加工の際にアニメ調への変換まで行うべきなのか、わからないことが多過ぎて手を出せずにいます。

    • @AI_is_in_wonderland
      @AI_is_in_wonderland  11 місяців тому

      コメントありがとうございます。そのあたりはトライアンドエラーですが、人物の色々な角度と拡大率の画像があった方が良いと思います。純粋に顔だけほしい時はの顔関連以外の特徴はキャプションに残して学習させます。
      今回は人物全体を学習させたので、画像生成の時に服装のプロンプトを入れなければ、学習元の服装になる可能性が高いです
      (キャラの場合は服装も含めて画像生成したい場合が多いかと思います)
      動画ではLoRAの柔軟性を見るためにあえて服を変えています。
      何よりもやってみることが大事です

  • @jmaster1335
    @jmaster1335 Місяць тому +1

    最近挑戦してるものです。
    loraをこの通りにやってますが、どうしても データセット 内の データセットディレクトリに背景なし756×756のpng画像を読み込ませようとしても、画像が×で生成できません。いろんな画像で挑戦してるんですが、ダメでした。対策ありませんか?

    • @AI_is_in_wonderland
      @AI_is_in_wonderland  Місяць тому +1

      背景なしはエラーになると思いますので、背景白の画像にして下さい

    • @jmaster1335
      @jmaster1335 Місяць тому

      @@AI_is_in_wonderland
      返信ありがとうございます。
      やってみます

  • @user-yz2hi6nr2w
    @user-yz2hi6nr2w 10 місяців тому +1

    素晴らしい動画ですね!
    LoRA初学者ですがSTEP数って1000-6000ぐらいがちょうど良い感じなんですかね?
    多ければ良いという感じではなさそうですね、大体の目安ってどのぐらいなのでしょう?

    • @AI_is_in_wonderland
      @AI_is_in_wonderland  10 місяців тому

      コメントありがとうございます!経験的にはキャラであれば2000-3000あたりだと思います
      多すぎると過学習になって、画像が汚くなったり、キャラが固定しすぎたりします
      その他の設定により変わってきますが
      特殊なLoRAを使う場合は10000を超えることもあります

    • @user-yz2hi6nr2w
      @user-yz2hi6nr2w 10 місяців тому +1

      @@AI_is_in_wonderland
      ご返信ありがとうございます!キャラであれば2000-3000あたりなのですね!参考になります!ありがとうございます!!

  • @ddddmania
    @ddddmania 11 місяців тому +1

    比較時の生成プロンプトの詳細が無いのでわかりませんが、生成プロンプトにサングラスが入っていたなら、その影響で通常サングラスになっているような気がします。か、潜在画像の時点で「目の周りに黒、じゃ、サングラスか」となっている気がします。サングラスをremovewardに入れず、画像生成時に、サングラスを入れたらどうなるのかも見たいです。(サングラスがちゃでフィッツ型の割合が多くなるのかな?っと)

    • @AI_is_in_wonderland
      @AI_is_in_wonderland  11 місяців тому

      コメントありがとうございます。今回のプロンプトにはサングラスを入れていません
      1girl, fitts, sundress, masterpiece, best qualityのみです
      おっしゃるようにAIは目の周りの黒→サングラス→一般的な形のサングラス生成になっていたようですね
      キャプションに何かを残すことを比較しても面白そうですね

  • @user-ug9se2ze2x
    @user-ug9se2ze2x 11 місяців тому +1

    lora作成初心者なので非常に参考になりました。ありがとうございます。
    lora学習時のckptはなにをつかわれていますでしょうか?デフォルトのsd15でしょうか?

    • @AI_is_in_wonderland
      @AI_is_in_wonderland  11 місяців тому +1

      コメントありがとうございます。アニメ系はanyloraを使っていますよ。リアルはデフォルトです

    • @user-ug9se2ze2x
      @user-ug9se2ze2x 11 місяців тому

      @@AI_is_in_wonderland
      ご丁寧にありがとうございます!

  • @word4you
    @word4you 8 місяців тому +1

    (alpha /dim)のお話、凄く勉強になりました。
    さすがに此処まで辿り着いている方々のコメントも深いですね(^^)
    で、自分の苦肉💦のloraテクです。
    Controlnetを使っても上手に描けないポーズってありますよね。
    例えば、腹ばいに寝て本を読んでるポーズ とか悲惨なのが多い(@_@)
    そんな時、僕は「ポーズ専用lora」を作ります。
    たまたま上手く描けた「寝そべり読書」の絵を数枚+顔中心の絵を十数枚で学習します。
    "lie on stomach"などのトリガーワードも学習させます。
    描けるポーズが限られますが(^^;) 上手く描ける確率が上がるような気がします。
    で、質問させていただけたら幸いですm(__)m
    kohyaでlora学習中のコマンドプロンプトに
    例:「1epochのバッチ数:350」などと表示されますが、
    この意味って何でしょう?
    「:350」などの数値は何処で指定するんでしょ?
    それとも自動設定されるのかしら?

    • @AI_is_in_wonderland
      @AI_is_in_wonderland  8 місяців тому

      ありがとうございます
      おそらく画像枚数×繰り返し回数(フォルダにつけた数字)を返していると思いますよ
      ポーズローラも挑戦してみます!
      アイデアありがとうございます

  • @nasugan359
    @nasugan359 11 місяців тому +3

    756…自分は768x768ベースですが何かの余裕をもっての縮小なんですかね

    • @AI_is_in_wonderland
      @AI_is_in_wonderland  11 місяців тому +1

      ギャー!間違えてました!768です🤣
      512x1.5です

  • @lll55lllgj
    @lll55lllgj 11 місяців тому +1

    すみません!質問して模様ですか?
    Loadを押しても画像を読み込んでくれません。すべてjpgで連番にしてあるんですが、指定のフォルダ場所があるんでしょうか?

    • @lll55lllgj
      @lll55lllgj 11 місяців тому +1

      解決しました!すみません!いつも素晴らしい動画ありがとうございます。

  • @tyusRRs
    @tyusRRs 11 місяців тому +1

    いつも拝聴させて頂いております。
    五条悟ですが男性キャラも女性っぽく出来るので使えるのではないかとw
    目隠しなど顔に異物をいれるのは難易度高いもので・・・

    • @AI_is_in_wonderland
      @AI_is_in_wonderland  11 місяців тому +1

      コメントありがとうございます。五条悟の女性版はちょっと・・・
      だた実はLoRAはいくつか試しています。学習が浅いと目隠しと髪の毛の間におでこを画いてくるので変な顔になりますwww

  • @user-dv3vq7qs6g
    @user-dv3vq7qs6g 11 місяців тому +1

    2キャラ以上を登場させる方法が知りたいです。
    2girl,○○○,□□□,〈lora:○○○:0.8〉,〈lora:□□□:0.8〉
    で出力すると女の子の格好等が混ざるのです。共通のタグのせいで混ざってるとは思うのですが対処が出来ないです。

    • @AI_is_in_wonderland
      @AI_is_in_wonderland  11 місяців тому

      コメントありがとうございます。regional prompterという拡張機能が有力候補ですが、実はかなり難しいです
      この動画を参考にしてください
      ua-cam.com/video/74mWDe5xvZw/v-deo.html

  • @user-rn7uq3dp9v
    @user-rn7uq3dp9v 7 місяців тому +1

    タグエディターで、キャラ4枚ほどだけなのですが、時間が結構かかるのですが、正常なのでしょうか?4000秒以上かかっても、終わらないのですが?

    • @AI_is_in_wonderland
      @AI_is_in_wonderland  7 місяців тому

      最初だけモデルのダウンロードが入るので時間がかかりますが、コマンドプロンプトではどうなっているのでしょう?タグ付けだけなら1分もかからないと思いますが

    • @user-rn7uq3dp9v
      @user-rn7uq3dp9v 7 місяців тому

      皆さんのコメントで解決しましたありがとうございます@@AI_is_in_wonderland

  • @user-pd8mq9oy9w
    @user-pd8mq9oy9w 11 місяців тому +1

    要は dimを増やすほど stepも増やさないと 
    デカい器に対して 水が足りない
    ってことになるわけか
    aは 水の注ぎ具合 ってわけだ。
    確かどこぞで公開されたプリセットもdim64 a16だったな・・・

    • @AI_is_in_wonderland
      @AI_is_in_wonderland  11 місяців тому

      コメントありがとうございます。mononchi9790さんのコメントですっきり説明されていました。
      私も詳しく知らなかったのですが、コメントトップに固定していますので一度見てください。

  • @user-yb2fr1lm4e
    @user-yb2fr1lm4e 11 місяців тому +1

    サムネ無職転生じゃん!最近ハマってる!

  • @user-uw7fl1dy1k
    @user-uw7fl1dy1k Місяць тому

    datasetに画像を取り込ませて、ロードを押してもタグが出ません。どうすればいいのでしょうか?

    • @AI_is_in_wonderland
      @AI_is_in_wonderland  Місяць тому

      ua-cam.com/video/doKbWznu3IU/v-deo.html
      こちらの動画でも最新のものを紹介しています。画像だけでタグがない場合は、イントロゲーターの選択ができていないか、セッティングで、if emptyかoverwriteを選択していない場合に起こると思います

  • @joumasafumi2
    @joumasafumi2 10 місяців тому +1

    タグは、学習したいものを削除して、
    学習させる必要のないものを残す。

  • @AI_Art_JAPAN
    @AI_Art_JAPAN 11 місяців тому +2

    フィッツせんぱーい🎉

  • @user-rp3zd4tr2l
    @user-rp3zd4tr2l 7 місяців тому +1

    タグを消そうとすると動かなくなります。

    • @AI_is_in_wonderland
      @AI_is_in_wonderland  7 місяців тому

      そうなのですね💦
      こちらでは順調に動いています。

  • @joumasafumi2
    @joumasafumi2 10 місяців тому +1

    画像20枚でSTEP2000がベストですね。

    • @AI_is_in_wonderland
      @AI_is_in_wonderland  10 місяців тому

      作りたいLoRAのタイプやdimやalphaでも変わってくるかもしれません

  • @tacossalsa7471
    @tacossalsa7471 11 місяців тому +1

    時間と背景処理を丁寧にする手間さえ惜しまなければ、TSもやり放題やなw

    • @AI_is_in_wonderland
      @AI_is_in_wonderland  11 місяців тому +1

      コメントありがとうございます。TSって何の略ですか?

    • @tacossalsa7471
      @tacossalsa7471 11 місяців тому +1

      @@AI_is_in_wonderland
      TSとはトランスセクシャル(性転換)の略称です。
      それを転生や呪い、魔法などファンタジー的な手段で行う作品をTSF、トランスセクシャル・ファンタジー(又はフィクション)と呼びます。

    • @AI_is_in_wonderland
      @AI_is_in_wonderland  11 місяців тому +1

      そうなんですね!ネットで調べたら(性転換)と出てきて?だったのですが、フィッツ先輩が男になったり女になったりしていることだったのですね。TSFというジャンルがあるのですね!