Розмір відео: 1280 X 720853 X 480640 X 360
Показувати елементи керування програвачем
Автоматичне відтворення
Автоповтор
ผ่านไปไม่ถึงสองสัปดาห์ ตอนนี้ข้อมูล outdated ไปหลายอย่างเลยครับบ~19:57 - ใช้ Continue.dev เป็นเครื่องมือช่วยเขียนโค้ดตัวหลัก↳ Continue ยังใช้ได้อยู่ แต่ GitHub Copilot ตอนนี้ซัพพอร์ต multi-file editing แล้ว และมีโมเดล Claude, Gemini, GPT-o1 ให้เลือกด้วย โดยใช้รวมกับ subscription ของ GitHub Copilot ได้เลย ไม่ต้องจ่ายค่าโมเดลเพิ่ม เลยสลับมาใช้ GitHub Copilot แล้ว26:18 - pplx เป็นโมเดลเดียวที่ทดลองแล้วตอบได้ว่าหมูเด้งเป็นฮิปโป↳ ChatGPT Search ปล่อยแล้ว ตอบว่าหมูเด้งเป็นฮิปโปได้แล้ว (แต่ไม่มี API ให้ใช้)↳ Gemini API ซัพพอร์ต grounding with Google Search แล้ว ตอบได้แล้วเช่นกัน29:40 - Speech to Text ของ OpenAI ทำ WER ได้ 7.4%↳ ตอนนี้ gpt-4o-audio-preview-2024-10-01 ทำได้ 2.3% (แต่ไม่ใช่ open model เหมือน Whisper และไม่สามารถให้ข้อมูล timestamp ที่แม่นยำได้เหมือน Whisper)32:29 - Gemini 1.5 Pro ทำ WER ได้ 2.5%↳ Gemini 1.5 Pro 002 เหลือ 1.3% ลดไปอีกครึ่งนึง35:19 - โยนไฟล์ audio ให้ Speechmatics ถอดคำพูด↳ ตอนนี้ UA-cam ปล่อย auto-caption สำหรับวีดีโอภาษาไทยแบบทุกคนใช้งานได้แล้ว ตอนนี้เลยใช้ ASR result จาก UA-cam เป็น timing info ได้เลย โดยเวลาใช้ผ่าน yt-dlp สามารถเพิ่ม `--write-auto-sub --sub-format json3 --sub-langs '.*orig'` เพื่อโหลดไฟล์ caption เป็น JSON ได้เลย36:52 - ใช้ GPT-4o เพื่อ align transcript กับ timing info↳ ตอนนี้ออกแบบ algorithmic solution เพื่อ align ข้อมูลสองตัวนี้เข้าด้วยกันโดยไม่ต้องพึ่ง LLM ได้แล้ว โดยใช้ไลบรารี่ diff-sequences เพื่อให้คำที่ common กันในทั้งสองฝั่ง แล้วก็ใช้ heuristic ง่ายๆ เพื่อ align คำที่เหลือ
ขอบคุณมากเลยครับ กำลังหาอยู่พอดี
เยี่ยมมากเลยครับจารย์ไท
ขอบคุณที่นำมาแชร์ครับ 😊
สุดยอดมากเลยครับ รู้เครื่องมือ AI เพิ่มไปอีก
ฟังแล้วสนุกมาก ขอบคุณครับ
ขอบคุณครับ ฟังเพลินดีครับ
พี่ไทขึ้น🎉 ต้องหยุดทุกอย่าง มาดูพี่ไทก่อนละกันครับ❤
ขอบคุณมากครับ ❤
ฟังเพลินมาก
ทำ youtube description และเนื้อหาน่าสนใจมากครับขอบคุณครับ
ผ่านไปไม่ถึงสองสัปดาห์ ตอนนี้ข้อมูล outdated ไปหลายอย่างเลยครับบ~
19:57 - ใช้ Continue.dev เป็นเครื่องมือช่วยเขียนโค้ดตัวหลัก
↳ Continue ยังใช้ได้อยู่ แต่ GitHub Copilot ตอนนี้ซัพพอร์ต multi-file editing แล้ว และมีโมเดล Claude, Gemini, GPT-o1 ให้เลือกด้วย โดยใช้รวมกับ subscription ของ GitHub Copilot ได้เลย ไม่ต้องจ่ายค่าโมเดลเพิ่ม เลยสลับมาใช้ GitHub Copilot แล้ว
26:18 - pplx เป็นโมเดลเดียวที่ทดลองแล้วตอบได้ว่าหมูเด้งเป็นฮิปโป
↳ ChatGPT Search ปล่อยแล้ว ตอบว่าหมูเด้งเป็นฮิปโปได้แล้ว (แต่ไม่มี API ให้ใช้)
↳ Gemini API ซัพพอร์ต grounding with Google Search แล้ว ตอบได้แล้วเช่นกัน
29:40 - Speech to Text ของ OpenAI ทำ WER ได้ 7.4%
↳ ตอนนี้ gpt-4o-audio-preview-2024-10-01 ทำได้ 2.3% (แต่ไม่ใช่ open model เหมือน Whisper และไม่สามารถให้ข้อมูล timestamp ที่แม่นยำได้เหมือน Whisper)
32:29 - Gemini 1.5 Pro ทำ WER ได้ 2.5%
↳ Gemini 1.5 Pro 002 เหลือ 1.3% ลดไปอีกครึ่งนึง
35:19 - โยนไฟล์ audio ให้ Speechmatics ถอดคำพูด
↳ ตอนนี้ UA-cam ปล่อย auto-caption สำหรับวีดีโอภาษาไทยแบบทุกคนใช้งานได้แล้ว ตอนนี้เลยใช้ ASR result จาก UA-cam เป็น timing info ได้เลย โดยเวลาใช้ผ่าน yt-dlp สามารถเพิ่ม `--write-auto-sub --sub-format json3 --sub-langs '.*orig'` เพื่อโหลดไฟล์ caption เป็น JSON ได้เลย
36:52 - ใช้ GPT-4o เพื่อ align transcript กับ timing info
↳ ตอนนี้ออกแบบ algorithmic solution เพื่อ align ข้อมูลสองตัวนี้เข้าด้วยกันโดยไม่ต้องพึ่ง LLM ได้แล้ว โดยใช้ไลบรารี่ diff-sequences เพื่อให้คำที่ common กันในทั้งสองฝั่ง แล้วก็ใช้ heuristic ง่ายๆ เพื่อ align คำที่เหลือ
ขอบคุณมากเลยครับ กำลังหาอยู่พอดี
เยี่ยมมากเลยครับจารย์ไท
ขอบคุณที่นำมาแชร์ครับ 😊
สุดยอดมากเลยครับ รู้เครื่องมือ AI เพิ่มไปอีก
ฟังแล้วสนุกมาก ขอบคุณครับ
ขอบคุณครับ ฟังเพลินดีครับ
พี่ไทขึ้น🎉 ต้องหยุดทุกอย่าง มาดูพี่ไทก่อนละกันครับ❤
ขอบคุณมากครับ ❤
ฟังเพลินมาก
ทำ youtube description และเนื้อหาน่าสนใจมากครับขอบคุณครับ