잘 모아서 설명해주셔서 감사합니다. 좋은 리프레쉬가 됬습니다. Principle of Maximum Entropy로 어떻게 Gaussian과 Softmax가 유도되는지 맥을 잘짚어 주셨는데요, 설명에 좀 오류가 있습니다. * Principle of Maximum Entropy을 constraint가 sum(p)=1, Var[x]=σ^2 주어지면 가우시안이 나오는것이고. * Principle of Maximum Entropy을 constraint가 sum(p)=1, E[z]=μ가 주어지면 Softmax가 나옵니다. Softmax가 일반적인 확률 모양이 아니라, constraint가 다른것입니다. 왜 그런지는 ChatGPT에게 물어보면 다음과 같이 대답하네요. 🔹 Why Doesn't Softmax Need a Standard Deviation (Variance) Constraint? Softmax represents a categorical distribution over discrete classes, where: * We are only selecting one class per trial (not a continuous range of values). * The mean constraint (expected logit value) already controls the shape of the distribution. Key Insight: Softmax is inherently scale-invariant * Softmax behaves the same whether logits are centered or not. * If we imposed a variance constraint, we would be artificially enforcing a spread that doesn’t naturally apply to discrete probabilities. Entropy Maximization Perspective * For softmax, the only relevant constraint is the expected logit constraint because we're choosing one category per trial. * Variance control doesn’t make sense here because there's no "spread" in a categorical choice-each trial selects exactly one class. Final Insight: * Softmax doesn't need a variance constraint because we only select one category per trial-there's no "spread" in categorical selection. * Gaussian doesn't need a mean constraint because shifting 𝜇 doesn't affect entropy maximization-variance fully determines the shape.
그리고 이정도는 학부 2학년 수준인데, 10년전에는 딥러닝의 수학을 어느정도 커버했겠지만, 지금은 어림도 없습니다. 딥러닝이 이 시대의 양자역학이 되면서, 미친 인간들 (대부분 중국인)이 딥러닝 수학을 급속도록 어렵게 만들고 있습니다. 요즘 딥러닝 수학을 따라갈려면, 개인적으로는 일반상대론이 오히려 훨씬 쉬운것 같습니다. Bayesian Renormalization, Fisher metric, information theoretic scale, data compression, data generation, Exact Renormalization Group (ERG), Riemannian manifold, Stochastic differential equation, Stochastic analysis on manifolds, Optimal Transport, Bayesian Statistical Inference, Dynamical Bayesian Inference, Bayesian Diffusion, Statistical Inference, information geometry, Cramér-Rao bound, Quantum Field Theory, Wilson's momentum 등등등
네 맞습니다. mean과 variance를 정의하고 그걸 제약조건으로 두면 gaussian 분포가 되는 것이고, 일반적으로 우리가 패턴 인식을 할 때, 학습 자료에서 labeling된 것을 count하게 될텐데 이게 해당 feature와 target을 joint로 목격했을 때의 mean에 해당하고 이걸 제약조건으로 두면 multinomial logistic regression이 됩니다. 슬라이드 맨 마지막 장에서는 그냥 '일반적인 형태'일 때라고 설명한 이유가 그 이유 때문이에요.
남한테 설명하기 좋은 소스를 얻어가네요. 감사합니다.
전체적으로 서로 다 연관 지어서 설명을 들으니 이해가 너무 잘되네요! 감사합니다~
7:28 약간 딴지를 걸고 싶어지는 그림입니다.
중앙으로부터 사각형과의 거리는, 원점과 사각형의 중심을 이은 선으로 표현되는 것이 직관적인 것 같습니다.
좋은 내용입니다.
수준 높은 강의 감사합니다!
감사합니다🙏😊
감사감사
잘 모아서 설명해주셔서 감사합니다. 좋은 리프레쉬가 됬습니다.
Principle of Maximum Entropy로 어떻게 Gaussian과 Softmax가 유도되는지 맥을 잘짚어 주셨는데요, 설명에 좀 오류가 있습니다.
* Principle of Maximum Entropy을 constraint가 sum(p)=1, Var[x]=σ^2 주어지면 가우시안이 나오는것이고.
* Principle of Maximum Entropy을 constraint가 sum(p)=1, E[z]=μ가 주어지면 Softmax가 나옵니다.
Softmax가 일반적인 확률 모양이 아니라, constraint가 다른것입니다. 왜 그런지는 ChatGPT에게 물어보면 다음과 같이 대답하네요.
🔹 Why Doesn't Softmax Need a Standard Deviation (Variance) Constraint?
Softmax represents a categorical distribution over discrete classes, where:
* We are only selecting one class per trial (not a continuous range of values).
* The mean constraint (expected logit value) already controls the shape of the distribution.
Key Insight: Softmax is inherently scale-invariant
* Softmax behaves the same whether logits are centered or not.
* If we imposed a variance constraint, we would be artificially enforcing a spread that doesn’t naturally apply to discrete probabilities.
Entropy Maximization Perspective
* For softmax, the only relevant constraint is the expected logit constraint because we're choosing one category per trial.
* Variance control doesn’t make sense here because there's no "spread" in a categorical choice-each trial selects exactly one class.
Final Insight:
* Softmax doesn't need a variance constraint because we only select one category per trial-there's no "spread" in categorical selection.
* Gaussian doesn't need a mean constraint because shifting 𝜇 doesn't affect entropy maximization-variance fully determines the shape.
그리고 이정도는 학부 2학년 수준인데, 10년전에는 딥러닝의 수학을 어느정도 커버했겠지만, 지금은 어림도 없습니다. 딥러닝이 이 시대의 양자역학이 되면서, 미친 인간들 (대부분 중국인)이 딥러닝 수학을 급속도록 어렵게 만들고 있습니다. 요즘 딥러닝 수학을 따라갈려면, 개인적으로는 일반상대론이 오히려 훨씬 쉬운것 같습니다.
Bayesian Renormalization, Fisher metric, information theoretic scale, data compression, data generation, Exact Renormalization Group (ERG), Riemannian manifold, Stochastic differential equation, Stochastic analysis on manifolds, Optimal Transport, Bayesian Statistical Inference, Dynamical Bayesian Inference, Bayesian Diffusion, Statistical Inference, information geometry, Cramér-Rao bound, Quantum Field Theory, Wilson's momentum 등등등
네 맞습니다. mean과 variance를 정의하고 그걸 제약조건으로 두면 gaussian 분포가 되는 것이고, 일반적으로 우리가 패턴 인식을 할 때, 학습 자료에서 labeling된 것을 count하게 될텐데 이게 해당 feature와 target을 joint로 목격했을 때의 mean에 해당하고 이걸 제약조건으로 두면 multinomial logistic regression이 됩니다. 슬라이드 맨 마지막 장에서는 그냥 '일반적인 형태'일 때라고 설명한 이유가 그 이유 때문이에요.
잘보고 갑니다
1분전이네요 ㄷㄷ