BLOG BOARD_B
ติดต่อรายละเอียดเพิ่มเติมได้ที่ Email: sale@soccersuck.com
ไว้คราวหน้า X
ไว้คราวหน้า X
ไม่ต้องแสดงข้อความนี้อีกเลย
ไปหน้าที่ 1, 2, 3
ไปที่หน้า
GO
ตั้งกระทู้ใหม่
ฝากรูป
ผู้ตั้ง
ข้อความ
ออฟไลน์
ดาวเตะลา ลีกา
Status:
: 0 ใบ : 0 ใบ
เข้าร่วม: 08 Apr 2024
ตอบ: 3264
ที่อยู่:
โพสเมื่อ: Tue Jun 25, 2024 13:28
[RE: AIที่ฉลาดกว่าคน10,000เท่าจะเกิดใน10ปี]
themasksocccer พิมพ์ว่า:
MarkZuckerberg พิมพ์ว่า:
themasksocccer พิมพ์ว่า:
MarkZuckerberg พิมพ์ว่า:
Spoil
themasksocccer พิมพ์ว่า:
MarkZuckerberg พิมพ์ว่า:
themasksocccer พิมพ์ว่า:
MarkZuckerberg พิมพ์ว่า:
themasksocccer พิมพ์ว่า:
MarkZuckerberg พิมพ์ว่า:
โม้จัดๆ ตอนนี้รัน compute power เท่าสมองมนุษย์ก้อนนึงยังต้องใช้ datacenter ใหญ่กว่าสนามฟุตบอล 2-3 สนามอีก

1 หมื่นเท่า 10 ปีผมว่าเป็นไปได้ยากวะ  


ไม่ถึงขนาดนั้นค่ะ
การ์ดจอตัวเดียวก็รันได้แล้ว
อย่าง llama 3, mistral 7b ก็รันบนการ์ดจอเกมธรรมดาได้
ถ้า quantization ก็รันบนมือถือได้แล้ว

ทุกวันนี้ที่ใช้เยอะๆคือตอนเทรนข้อมูล
เพราะแบบจำลองทางภาษาต้องอ่านหนังสือเยอะ
ยิ่งอ่านเยอะก็รู้เยอะ ตรงนี้ที่ต้องใช้เครื่องใหญ่ในการสอน

 

ผมว่าท่านเข้าใจผิดนะตรงนี้ 2 ประเด็น

1.Generative AI ไม่ใช่ AGI มันเป็นเชิง machine learning ในการเติมคำช่องว่างมากกว่า มันไม่ได้มีสัมปัญชัญยะเป็นของตัวเอง มันไม่ได้มีความเข้าใจเนื้อหาหรืออะไรจริงๆเลย เราแค่นำคำตอบที่มีอยู่แล้วมาเทรน model เพราะฉะนั้นมันไม่สามารถฉลาดขึ้นเองได้หรือคิดวิเคราะห์ได้ด้วยตัวเองมันจึงยากที่จะฉลาดกว่ามนุษย์ 10000 เท่าหรือแม้แต่ฉลาดเท่ามนุษย์ด้วยซ้ำ แต่ AGI เหมือนมนุษย์จริงๆคือมันสามารถทำความเข้าใจเรื่องต่างๆและเรียนรู้ฉลาดขึ้นด้วยตัวเอง คิดอะไรใหม่ๆขึ้นมาด้วยตัวเองโดยไม่ต้องมีข้อมูลป้อนให้เข้าไปแบบ Generative AI

2.Model ขนาดใหญ่เบิ้มแบบที่ GPT-4o Llama3 Gemini 1.5 ใช้นั้นไม่สามารถรันบนการ์ดจอตัวเดียวได้ครับ ที่จริงไม่สามารถรันบรการ์ดจอเล่นเกมส์ได้ด้วยซ้ำแม้แต่ 4090 ก็ตาม โมเดลขนาดใหญ่เป็น 10billion trillon token ต้องรันบนพวก H100 H200 ที่พึ่งออกใหม่นู้นเลยครับ

ถ้าเป็นการ์ดจอ high end แบบ 4090 อาจจะพอรันโมเดลตัวเล็กได้อย่างพวก Gemini Flash, Llama 3 ตัวเล็ก (token น้อย) แต่model เล็กๆได้แค่เรื่อง speed กับประหยัดการคำนวณเฉยๆ แต่มันทำ task ฉลาดๆเท่า model ตัวใหญ่ไม่ได้ ตัดออกไปได้เลยความเป็นไปได้ในอีก 10 ปีที่จะรัน model ตัวใหญ่บนมือถือ smart phone อย่างตัว Apple Intelligence ก็รัน model ตัวติ๊ดเดียวบนเครื่องเพื่องานบางอย่างที่ง่ายๆส่วนงาน complex ยากๆก็ส่งขึ้นประมวลผลบน private datacenter เหมือนเดิม  


หนูไม่ได้เข้าใจอะไรผิดหรอกค่ะ โทษทีไม่ได้กลับมาตอบทันที
อย่าง llm เป็นแบบจำลองทางภาษาที่ใช้หลักการความน่าจะเป็นและสถิติมาตอบ
หากเอาการตอบอย่างมีเหตุผลตรรกะมันจะผิด เพราะเบื้องหลังคือสถิติ

แต่เราสามารถเอาแบบจำลองอื่นๆมาร่วมด้วยได้เช่นพวก Machnine Learning ทั่วไปนี้แหละมีเหตุผลมากๆ และตัวเล็กสุดๆด้วย เพราะพื้นฐานมาจากหลักคณิตศาสตร์ คิดคำนวน

เราสามารถใช้ llm ทำการ Extract feature หรือ Extract information ออกมา แล้วโยนเข้า ML เพื่อทำการคำนวนต่อได้

อย่า GPT-4o ทำไมจะรันใน GPU ตัวเดียวไม่ได้ เขาแค่ไม่เปิดโครงสร้างให้เราดู
OpenAI ใช้ Expert Model หมายถึง ลดความรู้ให้เหลือเฉพาะด้าน ไม่ต้องอ่านหนังสือทั้งหมด โมเดลจะเล็กลง ทำงานได้ไวขึ้น สำหรับการให้บริการ OpenAI ก็เปิดให้มี Expert หลายๆตัว แต่หน้ากากเราไม่รู้ว่าเรากำลังคุยกับตัวไหน

ที่บอกว่า llama 3 รันบน GPU ไม่ได้ก็ไม่ถูกแล้วค่ะ

https://ollama.com/library/llama3
modelarch
llama
·
parameters
8.03B
·
quantization
Q4_0 = 4.7GB

รันบน 4070 ก็ได้

อย่างที่บอกว่าใช้ทรัพยากรเยอะสุดตอนเทรน คือต้องการหนังสือมาให้มันอ่านเยอะที่สุดจึงจำเป็นต้องใช้หน่วยความจำเยอะที่สุดเท่าที่อยากให้มันเรียนรู้ จะกี่พันล้าน แสนล้านคำก็ตาม

สุดท้ายโมเดลจะอยู่ในโครงสร้างเครือข่ายประสาทเทียมที่เตรียมไว้แล้ว ว่าจะเป็นโครงไหน แบบจำลองจะไม่ใหญ่ไปกว่าที่เขาออกแบบไว้ให้ไม่ใหญ่แค่ไหน เพราะถ้าไม่กำหนดขนาดของแบบจำลองไว้ คอมพิวเตอร์ทุกเครื่องคงพังก่อนได้ใช้งาน

เวลาเขียนโปรแกรมยังต้องประกาศตัวแปล และขนาดของตัวแปล เช่นเดียวกันกับ สถาปัตยกรรมของเอไอ ต้องประกาศชั้น โหนดของโครงข่ายประสาทเทียมไว้ แต่ละโหนด เรียกรวมๆกันว่า parameter ซึ่งเก็บค่าน้ำหนักและค่าความเอนเอียงไว้

เช่น llama 3 8b หมายถึงมี 8พันล้านกิ่งตัดสินใจ ทำ quantization 4bit แต่ละกิ่งเก็บค่าข้อมูลตัวเลข 4 bit 2 ตัวแปล เป็น 8bit ก็เท่ากับ 8Gbyte ตอนรัน

สรุปว่า Model สามารถย่อได้ สามารถสกัดข้อมูลออกมา และสามารถคำนวนได้ค่ะ
งานวิจัยพวกนี้ทำมานานแล้ว ที่เราเห็นเขาทำเล่นใหญ่เพราะเขามีคนที่ต้องให้บริการมาก ไม่ได้ใช้งานคนเดียว

 

1.llma 3 มันมีหลายเวอร์ชั่นไอ่ตัวเล็กๆรันได้ใน high end gaming card อย่างที่ผมบอกไปไงแต่มันรัน model ตัวใหญ่ไม่ได้ แถมถึงรันได้ performance ก็ช้ากว่าใช้พวก H100 H200 ไม่ทันกินหรอกครับไม่ใช่ว่าแค่ vram ถึงแล้วจะเอามาใช้งาน production grade ได้นะครับ 4070 cuda core 5พันกว่า tensor 180 เอง H200 x4 เข้าไปเลยครับ ยิ่งเวอร์ชั่นรันบน smart phone คือ model เล็กมากๆๆ ใช้ process พวก task ง่ายๆเท่านั้น ไม่ใกล้เคียงกับคำว่าฉลาด
- ทำได้ด้วยการ Quantization ลดจุดทศนิยมในการคิดลงจาก 16bit เหลือ 4bit โมเดลจะลดลงไปเยอะ
หนูทำใช้งานจริงมาแล้ว 70b quantize4 สมมติคิดเลข 1.1234567890123456 กับ 1.1234 ค่าไม่ต่างกันมาก แต่กิน memory ต่างกันมาก ความผิดพลาดมีได้แต่ไม่ใช่แบบคนละเรื่องกัน

https://www.reddit.com/r/LocalLLaMA/comments/1cj4det/llama_3_70b_instruct_works_surprisingly_well_on/

2.ที่ผมบอกใช้ data center เท่า 2-3 สนามฟุตบอลคือจำลอง processing power ของสมองคนจริงๆครับ (ตอนนี้มีพวก black well แล้วอาจจะไม่ได้ใหญ่เท่า 2-3 สนามแต่ก็ใหญ่อยู่ดี) ซึ่ง processing power สมองคนเรามันไม่ใช่แค่การเติมคำในช่องว่างเหมือน Gen AI ไงครับ มันซับซ้อนกว่านั้นเยอะมากๆ

อย่างที่บอกว่า llm เบื้องหลังคือหลักสถิติมันคำนวนไม่ได้
แต่สามารถใช้สกัดข้อมูลออกมาได้ ดังนั้นไม่ใช่แค่เติมคำ
ต่อมานำข้อมูลที่ได้ โยนเข้า Machine Learning ธรรมดาที่ใช้ทรัพยากรเครื่องน้อย เอาง่ายๆเครื่องคิดเลขไม่ได้กินทรัพยากรเครื่อง


3.อย่างที่ผมบอกว่า Gen AI ผมไม่เห็นว่าจะเอามาฉลาดกว่ามนุษย์ได้เพราะมันถูก feed ข้อมูลที่มนุษย์คิดมาก่อนอยู่แล้วเข้าไป อย่างมากมันก็แค่ใช้ข้อมูลพวกนั้นเพื่อให้คำตอบที่ใกล้เคียงที่สุด ไม่ใช่เพราะมันรู้และเข้าใจคำตอบได้จริงๆ แต่อย่างที่คุณบอกมันเป็นเชิง stat มากกว่า ซึ่งถ้า AI จะฉลาดกว่ามนุษย์ได้ต้องไม่ใช่แค่เติมคำในช่องว่างจากสถิติ มันต้องสามารถเรียนรุ้เองได้ คิดอะไรใหม่ๆเองได้

AI ไม่ได้เก่งกว่าคนที่คิดค้น AI
แต่เก่งกว่าคนทั่วไปที่ไม่ได้คิด AI และมีส่วนมากของประชากรโลกค่ะ
แต่ AI ก็มีหลากหลายตัวช่วยกันทำงานได้ อย่า chatgpt มันทำงานเบื้องหลังอยู่หลายตัว ไม่ใช่แค่ model ภาษาอย่างเดียวค่ะ


 
 
 

เท่าที่ผมอ่านผมว่าเราก็เข้าใจอะไรคล้ายๆกันนะ แต่ผมว่าประเด็นที่่เราเห็นไม่ตรงกันไปคือท่านน่าจะ underesitmate ความสามารถของสมองมุนษย์เกินไป  


ขออภัยนะคะ ตั้งแต่หัวกระทู้ไม่มีการยก Generative AI ขึ้นมา และหนูก็ไม่ได้พูดถึงเฉพาะ Gen AI เพราะการทำงานเบื้องหลังสามารถมีหลายตัวช่วยกันอยู่ได้ แต่หนูขอยืนยันว่ารัน AI ไม่ต้องใช้เครื่องใหญ่ ที่ใหญ่คือตอนเทรนค่ะ

หนูก็อ้างอิงจากข้อมูลที่เผยแพร่ อย่างโมเดลที่ทำโดยคนไทย ยังเก่งกว่าเด็กไทยไปแล้วเลยค่ะ โมเดล 7b เองนะคะ รันบนการ์ดจอได้ ดังนั้นหนูจึงยืนยันว่า ไม่ต้องใช้ data center สำหรับทำงานให้ได้เท่ามนุษย์
 

นั่นแหละคือสิ่งที่เราเห็นไม่ตรงกันครับ คุณใช้การทำข้อสอบที่มีคำตอบ fix อยู่แล้วมา benchmark ความฉลาด ส่วนผมสมองว่าการ benchmark โดยของพวกนั้นไม่มีประโยชน์เลยไม่ได้วัดความฉลาด เหมือนคุณจำคำตอบไว้อยู่แล้ว แต่จริงๆแล้วตัว Model มันไม่ได้เข้าใจคำถามจริงๆ มันรู้ว่านี่คือคำตอบที่น่าจะเป็นเฉยๆ ผมไม่เรียกนี่ว่าฉลาด

คุณบอกไม่ได้เจาะจง Gen AI แต่สิ่งที่คุณเอามาเถียงผมเรื่องขนาด data center เป็นการรัน model Gen AI ทั้งนั้น ผมงง ซึ่งผมก็บอกไว้แล้วถ้าพูดถึง Gen AI ยิ่ง model เล็กยิ่งความสามารถน้อยและเจาะจงมากยิ่งขึ้น ถึงรันบนร smar phone ได้มันก็ไม่ฉลาดกว่ามนุษย์ ตรงนี้คงไม่ต้องเถียงกันแล้ว ต่ให้ Gen AI ฉลาดกว่ามนุษย์ได้จริงๆต้องเป็น model ใหญ่มากๆ ไม่ก็ใช้หลายตัวมากๆๆๆๆๆๆๆๆๆๆๆๆๆๆๆๆ

ผมว่าผมพูดจัดเจนแล้วนะว่าเวลาผมพูดถึง AI ที่ฉลาดกว่ามนุษย์ผมพูดถึงต้องเป็น AGI ไม่ใช่ Gen AI ด้วยเหตุผลหลายๆอย่างที่ผมอธิบายไปแล้วข้างบนว่าทำไม Gen AI ถึงจะไม่สามารถฉลาดกว่ามนุษย์ได้  


AGI มันไม่มีจริงๆไงคะ แต่ไม่ได้หมายความว่ามันไม่ได้ฉลาดจริง
ความจริงคือ Multimodal AI คือมันทำงานร่วมกันต่อเนื่องกัน
เหมือนการเขียนโปรแกรมทั่วไปที่มีการไหลของข้อมูลไปทีละลำดับขั้นตอน
แต่การเขียนโปรแกรมนี้มนุษย์ไม่ได้เขียนเอง

เป็น AI มาเขียนว่า ข้อมูลแบบไหน ต้องใช้ Model ไหนตอบ
ได้ข้อมูลมาก็ไหล ไป Model อื่นๆ ไปจนกระทั้งได้ผลลัพธ์ออกไป

ไม่นับเรื่องการสร้างสรรค์หรืองานวิจัย AI มันสามารถคิดเล็กคิดน้อยได้ทั้งหมดที่คนไม่สนใจจนเกิดเป็นข้อมูล Insight ได้ ซึ่งคนต้องใช้เวลามากกว่ามันหลายพันหรือหลายล้านเท่ากว่าจะหาได้

ยืนยันคำเติมค่ะว่า AI ไม่ต้องรันบน data center ไม่ต้องเชื่อก็ได้ค่ะ
Generative AI มันตั้งอยู่บน LLM ซึ่งมันมีขนาดใหญ่ และใหญ่ที่สุดแล้ว
Model รูปภาพ การจำแนก การรู้จำ ต่างๆไม่ได้ใช้ทรัพยากรเยอะขนาดนั้น สามารถทำงานบน cpu ได้ด้วย อย่างระบบบัตรจอดรถตามห้างไม่ต้องใช้ถึง PC เอาแค่ arduino board ก็ติดตั้งใช้งานได้แล้ว AI อ่านป้ายทะเบียนไม่ต้องถึงกับรันอยู่บน data center แน่ๆ

หนูไม่รู้หรอกนะว่าทำไมคุณถึงติดภาพว่าต้องใช้คอมพิวเตอร์ขนาดใหญ่เท่านั้นในการรัน ซึ่งมันคือโครงส้รางโปรแกรมอันหนึ่งเท่านั้น จะทำใหญ่เล็กก็ได้ เพื่อการคำนวนก็ใช้ hardware มาช่วย

สรุปนะคะ ถ้าไม่เชื่อรบกวนหาข้อมูลมาแปะก็ได้คะว่าทำบน Local PC ไม่ได้เพราะเหตุผลอะไร
เพราะหนูยืนยันคำเดิมว่าแม้แต่ LLM ก็รันบน GPU ได้ แต่ถ้าทำ Quantization แล้วจะลงไปอยู่บนมือถือได้ แต่ถ้ายังยืนยันว่าแค่ Generative AI ต้องรันบน data center เท่านั้นรบกวนแสดงข้อมูลให้ทีค่ะ

สมัยก่อนยังไม่มี llm ก็รันบนเครื่องธรรมดากันได้หมด
พอ llm มามันแค่บริโภคข้อมูลเยอะก็เลยต้องใช้เครื่องจำนวนเยอะสอน
พอสอนเสร็จได้โครงของโปรแกรมมา ก็ใช้ model นั้นแหละอันไม่ใหญ่

อันนี้หนูแปะของฝรั่ง หนูชี้ไปด้วยข้อมูลเป็น ตัวเลขให้แล้วก่อนหน้านี้ว่าสามารถคำนวนได้ ไม่ใช่เอะอะยัด data center
https://www.reddit.com/r/LocalLLaMA/comments/1cj4det/llama_3_70b_instruct_works_surprisingly_well_on/

หนูขอแปะของไทย





 

หลงประเด็นละครับ

ผมบอกตอนไหนหรอว่ารัน model บนเครื่อง PC ไมได้ ผมบอกว่ามันรัน model ตัวใหญ่ที่จะฉลาดกว่ามนุษย์ไม่ได้ ผมก็บอกอยู่ตัวเล็กรันได้ แต่ตัวเล็กมันไม่ได้ฉลาดกว่ามนุษย์

1.ประเด็น AGI ผมผมเคลียไปแล้วนะ ว่าถ้าคุณยังเชื่อว่า Gen AI สามารถฉลาดกว่ามนุษย์ได้ก็จบแล้วไม่ต้องคุยต่อ สำหรับผม AGI เท่านั้นที่มีโอกาสฉลาดกว่ามนุษย์จริงๆ

2.ประเด็น Data Center ผมไม่เคยพูดเลยว่าต้องเอา Datacenter มารัน Gen AI บ้าหรือเปล่า ผมบอกว่าจะ simulate processing power ของสมองมนุษย์ (ไม่ใช่ Gen AI ย้ำอีกครั้งนะ ) ต้องใช้ datacenter ขนาด 2-3 สนามฟุตบอล ซึ่งตรงนี้คุณไม่เข้าใจไง เพราะคุณเอะอะอะไรก็ gen AI gen AI model model เอ้ออ

3.ก็ยังจะยัดเยียดให้ผมผิดให้ได้ ไอ่ thai gpt ที่คุณส่งมาหน่ะศึกษาหรือยังว่ามันกี่ param ความสามารถขนาดไหน ผมไปดูให้ละ llama 7billion param โถสภาพพพพพพ ไปเอา bare minimum param model มาแล้วมาเคลมว่าฉลาดกว่ามนุษย์หรอ พวก Gpt-4 นี่ 1.76 trillion param นะครับ ผมพูดถึงการ deploy and run นะครับไม่ใช่ train ถ้า train คือมากกว่านั้นหลายร้อยหลายพันเท่า เอาแค่รัน 70B param ก็ต้องระดับ 4090 แล้วถึงจะเร็วพอทำกิน แถมเผลอๆ precision ไม่เต็มด้วย

ผมไม่รู้ว่าท่านไปเอามาจากไหนนะว่า "พอสอนเสร็จได้โครงของโปรแกรมมา ก็ใช้ model นั้นแหละอันไม่ใหญ่" เพราะความจริงคือ ขนาดของ vram/tpu แปรผันกับขนาด model เสมอยิ่ง param เยอะยิ่งใช้ vram+tensor core เยอะในการรัน หรือท่านอาจจะ underestimate ขนาดของ model ใหม่ๆที่มี param ระดับ trillion ก็เป็นได้

ทำความเข้าใจสิ่งที่คนอื่นพูดให้ดีก่อนนะครับ ของจริงรัน model อย่าง gpt-4 ใช้พวก A100 H100 หลายตัวทำงานร่วมกันเพื่อ inference ด้วยซ้ำ
แก้ไขล่าสุดโดย MarkZuckerberg เมื่อ Tue Jun 25, 2024 13:58, ทั้งหมด 7 ครั้ง
0
0
หากโดน 40 เรื้อน จะถูกแบน
ออฟไลน์
นักบอล ดิวิชั่น 1
Status:
: 0 ใบ : 0 ใบ
เข้าร่วม: 11 Feb 2017
ตอบ: 1201
ที่อยู่:
โพสเมื่อ: Tue Jun 25, 2024 14:01
[RE: AIที่ฉลาดกว่าคน10,000เท่าจะเกิดใน10ปี]
MarkZuckerberg พิมพ์ว่า:
themasksocccer พิมพ์ว่า:
MarkZuckerberg พิมพ์ว่า:
themasksocccer พิมพ์ว่า:
MarkZuckerberg พิมพ์ว่า:
Spoil
themasksocccer พิมพ์ว่า:
MarkZuckerberg พิมพ์ว่า:
themasksocccer พิมพ์ว่า:
MarkZuckerberg พิมพ์ว่า:
themasksocccer พิมพ์ว่า:
MarkZuckerberg พิมพ์ว่า:
โม้จัดๆ ตอนนี้รัน compute power เท่าสมองมนุษย์ก้อนนึงยังต้องใช้ datacenter ใหญ่กว่าสนามฟุตบอล 2-3 สนามอีก

1 หมื่นเท่า 10 ปีผมว่าเป็นไปได้ยากวะ  


ไม่ถึงขนาดนั้นค่ะ
การ์ดจอตัวเดียวก็รันได้แล้ว
อย่าง llama 3, mistral 7b ก็รันบนการ์ดจอเกมธรรมดาได้
ถ้า quantization ก็รันบนมือถือได้แล้ว

ทุกวันนี้ที่ใช้เยอะๆคือตอนเทรนข้อมูล
เพราะแบบจำลองทางภาษาต้องอ่านหนังสือเยอะ
ยิ่งอ่านเยอะก็รู้เยอะ ตรงนี้ที่ต้องใช้เครื่องใหญ่ในการสอน

 

ผมว่าท่านเข้าใจผิดนะตรงนี้ 2 ประเด็น

1.Generative AI ไม่ใช่ AGI มันเป็นเชิง machine learning ในการเติมคำช่องว่างมากกว่า มันไม่ได้มีสัมปัญชัญยะเป็นของตัวเอง มันไม่ได้มีความเข้าใจเนื้อหาหรืออะไรจริงๆเลย เราแค่นำคำตอบที่มีอยู่แล้วมาเทรน model เพราะฉะนั้นมันไม่สามารถฉลาดขึ้นเองได้หรือคิดวิเคราะห์ได้ด้วยตัวเองมันจึงยากที่จะฉลาดกว่ามนุษย์ 10000 เท่าหรือแม้แต่ฉลาดเท่ามนุษย์ด้วยซ้ำ แต่ AGI เหมือนมนุษย์จริงๆคือมันสามารถทำความเข้าใจเรื่องต่างๆและเรียนรู้ฉลาดขึ้นด้วยตัวเอง คิดอะไรใหม่ๆขึ้นมาด้วยตัวเองโดยไม่ต้องมีข้อมูลป้อนให้เข้าไปแบบ Generative AI



2.Model ขนาดใหญ่เบิ้มแบบที่ GPT-4o Llama3 Gemini 1.5 ใช้นั้นไม่สามารถรันบนการ์ดจอตัวเดียวได้ครับ ที่จริงไม่สามารถรันบรการ์ดจอเล่นเกมส์ได้ด้วยซ้ำแม้แต่ 4090 ก็ตาม โมเดลขนาดใหญ่เป็น 10billion trillon token ต้องรันบนพวก H100 H200 ที่พึ่งออกใหม่นู้นเลยครับ

ถ้าเป็นการ์ดจอ high end แบบ 4090 อาจจะพอรันโมเดลตัวเล็กได้อย่างพวก Gemini Flash, Llama 3 ตัวเล็ก (token น้อย) แต่model เล็กๆได้แค่เรื่อง speed กับประหยัดการคำนวณเฉยๆ แต่มันทำ task ฉลาดๆเท่า model ตัวใหญ่ไม่ได้ ตัดออกไปได้เลยความเป็นไปได้ในอีก 10 ปีที่จะรัน model ตัวใหญ่บนมือถือ smart phone อย่างตัว Apple Intelligence ก็รัน model ตัวติ๊ดเดียวบนเครื่องเพื่องานบางอย่างที่ง่ายๆส่วนงาน complex ยากๆก็ส่งขึ้นประมวลผลบน private datacenter เหมือนเดิม  


หนูไม่ได้เข้าใจอะไรผิดหรอกค่ะ โทษทีไม่ได้กลับมาตอบทันที
อย่าง llm เป็นแบบจำลองทางภาษาที่ใช้หลักการความน่าจะเป็นและสถิติมาตอบ
หากเอาการตอบอย่างมีเหตุผลตรรกะมันจะผิด เพราะเบื้องหลังคือสถิติ

แต่เราสามารถเอาแบบจำลองอื่นๆมาร่วมด้วยได้เช่นพวก Machnine Learning ทั่วไปนี้แหละมีเหตุผลมากๆ และตัวเล็กสุดๆด้วย เพราะพื้นฐานมาจากหลักคณิตศาสตร์ คิดคำนวน

เราสามารถใช้ llm ทำการ Extract feature หรือ Extract information ออกมา แล้วโยนเข้า ML เพื่อทำการคำนวนต่อได้

อย่า GPT-4o ทำไมจะรันใน GPU ตัวเดียวไม่ได้ เขาแค่ไม่เปิดโครงสร้างให้เราดู
OpenAI ใช้ Expert Model หมายถึง ลดความรู้ให้เหลือเฉพาะด้าน ไม่ต้องอ่านหนังสือทั้งหมด โมเดลจะเล็กลง ทำงานได้ไวขึ้น สำหรับการให้บริการ OpenAI ก็เปิดให้มี Expert หลายๆตัว แต่หน้ากากเราไม่รู้ว่าเรากำลังคุยกับตัวไหน

ที่บอกว่า llama 3 รันบน GPU ไม่ได้ก็ไม่ถูกแล้วค่ะ

https://ollama.com/library/llama3
modelarch
llama
·
parameters
8.03B
·
quantization
Q4_0 = 4.7GB

รันบน 4070 ก็ได้

อย่างที่บอกว่าใช้ทรัพยากรเยอะสุดตอนเทรน คือต้องการหนังสือมาให้มันอ่านเยอะที่สุดจึงจำเป็นต้องใช้หน่วยความจำเยอะที่สุดเท่าที่อยากให้มันเรียนรู้ จะกี่พันล้าน แสนล้านคำก็ตาม

สุดท้ายโมเดลจะอยู่ในโครงสร้างเครือข่ายประสาทเทียมที่เตรียมไว้แล้ว ว่าจะเป็นโครงไหน แบบจำลองจะไม่ใหญ่ไปกว่าที่เขาออกแบบไว้ให้ไม่ใหญ่แค่ไหน เพราะถ้าไม่กำหนดขนาดของแบบจำลองไว้ คอมพิวเตอร์ทุกเครื่องคงพังก่อนได้ใช้งาน

เวลาเขียนโปรแกรมยังต้องประกาศตัวแปล และขนาดของตัวแปล เช่นเดียวกันกับ สถาปัตยกรรมของเอไอ ต้องประกาศชั้น โหนดของโครงข่ายประสาทเทียมไว้ แต่ละโหนด เรียกรวมๆกันว่า parameter ซึ่งเก็บค่าน้ำหนักและค่าความเอนเอียงไว้

เช่น llama 3 8b หมายถึงมี 8พันล้านกิ่งตัดสินใจ ทำ quantization 4bit แต่ละกิ่งเก็บค่าข้อมูลตัวเลข 4 bit 2 ตัวแปล เป็น 8bit ก็เท่ากับ 8Gbyte ตอนรัน

สรุปว่า Model สามารถย่อได้ สามารถสกัดข้อมูลออกมา และสามารถคำนวนได้ค่ะ
งานวิจัยพวกนี้ทำมานานแล้ว ที่เราเห็นเขาทำเล่นใหญ่เพราะเขามีคนที่ต้องให้บริการมาก ไม่ได้ใช้งานคนเดียว

 

1.llma 3 มันมีหลายเวอร์ชั่นไอ่ตัวเล็กๆรันได้ใน high end gaming card อย่างที่ผมบอกไปไงแต่มันรัน model ตัวใหญ่ไม่ได้ แถมถึงรันได้ performance ก็ช้ากว่าใช้พวก H100 H200 ไม่ทันกินหรอกครับไม่ใช่ว่าแค่ vram ถึงแล้วจะเอามาใช้งาน production grade ได้นะครับ 4070 cuda core 5พันกว่า tensor 180 เอง H200 x4 เข้าไปเลยครับ ยิ่งเวอร์ชั่นรันบน smart phone คือ model เล็กมากๆๆ ใช้ process พวก task ง่ายๆเท่านั้น ไม่ใกล้เคียงกับคำว่าฉลาด
- ทำได้ด้วยการ Quantization ลดจุดทศนิยมในการคิดลงจาก 16bit เหลือ 4bit โมเดลจะลดลงไปเยอะ
หนูทำใช้งานจริงมาแล้ว 70b quantize4 สมมติคิดเลข 1.1234567890123456 กับ 1.1234 ค่าไม่ต่างกันมาก แต่กิน memory ต่างกันมาก ความผิดพลาดมีได้แต่ไม่ใช่แบบคนละเรื่องกัน

https://www.reddit.com/r/LocalLLaMA/comments/1cj4det/llama_3_70b_instruct_works_surprisingly_well_on/

2.ที่ผมบอกใช้ data center เท่า 2-3 สนามฟุตบอลคือจำลอง processing power ของสมองคนจริงๆครับ (ตอนนี้มีพวก black well แล้วอาจจะไม่ได้ใหญ่เท่า 2-3 สนามแต่ก็ใหญ่อยู่ดี) ซึ่ง processing power สมองคนเรามันไม่ใช่แค่การเติมคำในช่องว่างเหมือน Gen AI ไงครับ มันซับซ้อนกว่านั้นเยอะมากๆ

อย่างที่บอกว่า llm เบื้องหลังคือหลักสถิติมันคำนวนไม่ได้
แต่สามารถใช้สกัดข้อมูลออกมาได้ ดังนั้นไม่ใช่แค่เติมคำ
ต่อมานำข้อมูลที่ได้ โยนเข้า Machine Learning ธรรมดาที่ใช้ทรัพยากรเครื่องน้อย เอาง่ายๆเครื่องคิดเลขไม่ได้กินทรัพยากรเครื่อง


3.อย่างที่ผมบอกว่า Gen AI ผมไม่เห็นว่าจะเอามาฉลาดกว่ามนุษย์ได้เพราะมันถูก feed ข้อมูลที่มนุษย์คิดมาก่อนอยู่แล้วเข้าไป อย่างมากมันก็แค่ใช้ข้อมูลพวกนั้นเพื่อให้คำตอบที่ใกล้เคียงที่สุด ไม่ใช่เพราะมันรู้และเข้าใจคำตอบได้จริงๆ แต่อย่างที่คุณบอกมันเป็นเชิง stat มากกว่า ซึ่งถ้า AI จะฉลาดกว่ามนุษย์ได้ต้องไม่ใช่แค่เติมคำในช่องว่างจากสถิติ มันต้องสามารถเรียนรุ้เองได้ คิดอะไรใหม่ๆเองได้

AI ไม่ได้เก่งกว่าคนที่คิดค้น AI
แต่เก่งกว่าคนทั่วไปที่ไม่ได้คิด AI และมีส่วนมากของประชากรโลกค่ะ
แต่ AI ก็มีหลากหลายตัวช่วยกันทำงานได้ อย่า chatgpt มันทำงานเบื้องหลังอยู่หลายตัว ไม่ใช่แค่ model ภาษาอย่างเดียวค่ะ


 
 
 

เท่าที่ผมอ่านผมว่าเราก็เข้าใจอะไรคล้ายๆกันนะ แต่ผมว่าประเด็นที่่เราเห็นไม่ตรงกันไปคือท่านน่าจะ underesitmate ความสามารถของสมองมุนษย์เกินไป  


ขออภัยนะคะ ตั้งแต่หัวกระทู้ไม่มีการยก Generative AI ขึ้นมา และหนูก็ไม่ได้พูดถึงเฉพาะ Gen AI เพราะการทำงานเบื้องหลังสามารถมีหลายตัวช่วยกันอยู่ได้ แต่หนูขอยืนยันว่ารัน AI ไม่ต้องใช้เครื่องใหญ่ ที่ใหญ่คือตอนเทรนค่ะ

หนูก็อ้างอิงจากข้อมูลที่เผยแพร่ อย่างโมเดลที่ทำโดยคนไทย ยังเก่งกว่าเด็กไทยไปแล้วเลยค่ะ โมเดล 7b เองนะคะ รันบนการ์ดจอได้ ดังนั้นหนูจึงยืนยันว่า ไม่ต้องใช้ data center สำหรับทำงานให้ได้เท่ามนุษย์
 

นั่นแหละคือสิ่งที่เราเห็นไม่ตรงกันครับ คุณใช้การทำข้อสอบที่มีคำตอบ fix อยู่แล้วมา benchmark ความฉลาด ส่วนผมสมองว่าการ benchmark โดยของพวกนั้นไม่มีประโยชน์เลยไม่ได้วัดความฉลาด เหมือนคุณจำคำตอบไว้อยู่แล้ว แต่จริงๆแล้วตัว Model มันไม่ได้เข้าใจคำถามจริงๆ มันรู้ว่านี่คือคำตอบที่น่าจะเป็นเฉยๆ ผมไม่เรียกนี่ว่าฉลาด

คุณบอกไม่ได้เจาะจง Gen AI แต่สิ่งที่คุณเอามาเถียงผมเรื่องขนาด data center เป็นการรัน model Gen AI ทั้งนั้น ผมงง ซึ่งผมก็บอกไว้แล้วถ้าพูดถึง Gen AI ยิ่ง model เล็กยิ่งความสามารถน้อยและเจาะจงมากยิ่งขึ้น ถึงรันบนร smar phone ได้มันก็ไม่ฉลาดกว่ามนุษย์ ตรงนี้คงไม่ต้องเถียงกันแล้ว ต่ให้ Gen AI ฉลาดกว่ามนุษย์ได้จริงๆต้องเป็น model ใหญ่มากๆ ไม่ก็ใช้หลายตัวมากๆๆๆๆๆๆๆๆๆๆๆๆๆๆๆๆ

ผมว่าผมพูดจัดเจนแล้วนะว่าเวลาผมพูดถึง AI ที่ฉลาดกว่ามนุษย์ผมพูดถึงต้องเป็น AGI ไม่ใช่ Gen AI ด้วยเหตุผลหลายๆอย่างที่ผมอธิบายไปแล้วข้างบนว่าทำไม Gen AI ถึงจะไม่สามารถฉลาดกว่ามนุษย์ได้  


AGI มันไม่มีจริงๆไงคะ แต่ไม่ได้หมายความว่ามันไม่ได้ฉลาดจริง
ความจริงคือ Multimodal AI คือมันทำงานร่วมกันต่อเนื่องกัน
เหมือนการเขียนโปรแกรมทั่วไปที่มีการไหลของข้อมูลไปทีละลำดับขั้นตอน
แต่การเขียนโปรแกรมนี้มนุษย์ไม่ได้เขียนเอง

เป็น AI มาเขียนว่า ข้อมูลแบบไหน ต้องใช้ Model ไหนตอบ
ได้ข้อมูลมาก็ไหล ไป Model อื่นๆ ไปจนกระทั้งได้ผลลัพธ์ออกไป

ไม่นับเรื่องการสร้างสรรค์หรืองานวิจัย AI มันสามารถคิดเล็กคิดน้อยได้ทั้งหมดที่คนไม่สนใจจนเกิดเป็นข้อมูล Insight ได้ ซึ่งคนต้องใช้เวลามากกว่ามันหลายพันหรือหลายล้านเท่ากว่าจะหาได้

ยืนยันคำเติมค่ะว่า AI ไม่ต้องรันบน data center ไม่ต้องเชื่อก็ได้ค่ะ
Generative AI มันตั้งอยู่บน LLM ซึ่งมันมีขนาดใหญ่ และใหญ่ที่สุดแล้ว
Model รูปภาพ การจำแนก การรู้จำ ต่างๆไม่ได้ใช้ทรัพยากรเยอะขนาดนั้น สามารถทำงานบน cpu ได้ด้วย อย่างระบบบัตรจอดรถตามห้างไม่ต้องใช้ถึง PC เอาแค่ arduino board ก็ติดตั้งใช้งานได้แล้ว AI อ่านป้ายทะเบียนไม่ต้องถึงกับรันอยู่บน data center แน่ๆ

หนูไม่รู้หรอกนะว่าทำไมคุณถึงติดภาพว่าต้องใช้คอมพิวเตอร์ขนาดใหญ่เท่านั้นในการรัน ซึ่งมันคือโครงส้รางโปรแกรมอันหนึ่งเท่านั้น จะทำใหญ่เล็กก็ได้ เพื่อการคำนวนก็ใช้ hardware มาช่วย

สรุปนะคะ ถ้าไม่เชื่อรบกวนหาข้อมูลมาแปะก็ได้คะว่าทำบน Local PC ไม่ได้เพราะเหตุผลอะไร
เพราะหนูยืนยันคำเดิมว่าแม้แต่ LLM ก็รันบน GPU ได้ แต่ถ้าทำ Quantization แล้วจะลงไปอยู่บนมือถือได้ แต่ถ้ายังยืนยันว่าแค่ Generative AI ต้องรันบน data center เท่านั้นรบกวนแสดงข้อมูลให้ทีค่ะ

สมัยก่อนยังไม่มี llm ก็รันบนเครื่องธรรมดากันได้หมด
พอ llm มามันแค่บริโภคข้อมูลเยอะก็เลยต้องใช้เครื่องจำนวนเยอะสอน
พอสอนเสร็จได้โครงของโปรแกรมมา ก็ใช้ model นั้นแหละอันไม่ใหญ่

อันนี้หนูแปะของฝรั่ง หนูชี้ไปด้วยข้อมูลเป็น ตัวเลขให้แล้วก่อนหน้านี้ว่าสามารถคำนวนได้ ไม่ใช่เอะอะยัด data center
https://www.reddit.com/r/LocalLLaMA/comments/1cj4det/llama_3_70b_instruct_works_surprisingly_well_on/

หนูขอแปะของไทย



 

หลงประเด็นละครับ

ผมบอกตอนไหนหรอว่ารัน model บนเครื่อง PC ไมได้ ผมบอกว่ามันรัน model ตัวใหญ่ที่จะฉลาดกว่ามนุษย์ไม่ได้ ผมก็บอกอยู่ตัวเล็กรันได้ แต่ตัวเล็กมันไม่ได้ฉลาดกว่ามนุษย์

1.ประเด็น AGI ผมผมเคลียไปแล้วนะ ว่าถ้าคุณยังเชื่อว่า Gen AI สามารถฉลาดกว่ามนุษย์ได้ก็จบแล้วไม่ต้องคุยต่อ สำหรับผม AGI เท่านั้นที่มีโอกาสฉลาดกว่ามนุษย์จริงๆ

AGI ไม่มีจริง ถ้ามีมันไม่เรียก Artificial ค่ะ ปัจจุบันเป็นแค่นิยามของมนุษย์สายศิลป์
AI ปัจจุบันมันคือคนประดิษฐ์ทั้งหมด ดังนั้นแล้วการมีอยู่ของมันคือการสอนจากมนุษย์ มนุษย์คือผู้สอน


2.ประเด็น Data Center ผมไม่เคยพูดเลยว่าต้องเอา Datacenter มารัน Gen AI บ้าหรือเปล่า ผมบอกว่าจะ simulate processing power ของสมองมนุษย์ (ไม่ใช่ Gen AI ย้ำอีกครั้งนะ ) ต้องใช้ datacenter ขนาด 2-3 สนามฟุตบอล ซึ่งตรงนี้คุณไม่เข้าใจไง เพราะคุณเอะอะอะไรก็ gen AI gen AI model model เอ้ออ

ตั้งแต่เดิมหนูก็ไม่เคยพูด Gen AI คุณเป็นคนเริ่ม แต่หนูยกตัวอย่างให้เห็นว่า
แม้แต่ LLM mี่ว่าใหญ่ยังตั้งอยู่บน GPU ได้ ดังนั้นแล้วอะไรที่เล็กกว่าก็รันได้



3.ก็ยังจะยัดเยียดให้ผมผิดให้ได้ ไอ่ thai gpt ที่คุณส่งมาหน่ะศึกษาหรือยังว่ามันกี่ param ความสามารถขนาดไหน ผมไปดูให้ละ llama 7billion param โถสภาพพพพพพ ไปเอา bare minimum param model มาแล้วมาเคลมว่าฉลาดกว่ามนุษย์หรอ พวก Gpt-4 นี่ 1.76 trillion param นะครับ ผมพูดถึงการ deploy and run นะครับไม่ใช่ train ถ้า train คือมากกว่านั้นหลายร้อยหลายพันเท่า เอาแค่รัน 70B param ก็ต้องระดับ 4090 แล้วถึงจะเร็วพอทำกิน แถมเผลอๆ precision ไม่เต็มด้วย

ท่านยังไม่เข้าใจเรื่อง Quantization เลยว่าทำไม GPU ถึงย่อลงมาเล็กได้
ตัว 7b เพียงพอต่อการใช้งานแล้ว ถ้ามันใช้งานไม่ได้จริง ใครเขาจะออกแบบกัน
ตัว 70b ย่อลงมา ก็รันบน GPU ได้
หนูมี Source ให้ดูนะคะ
https://huggingface.co/blog/lyogavin/airllm


ต่อมา ChatGPT-4o มันเป็น Multi Expert Model
มันคือ Model หลายๆตัวมาช่วยกันทำ ไม่ใช่ตัวเดียว
ไม่ต้องใช้ data center อะไรทั้งนั้น ไม่มีใครอยากเปิดไฟเล่น
แต่ละตัวก็รันบน GPU แค่ตัวเดียว พอหลายตัวก็เคลมว่าเป็นล้านล้านพารามีเตอร์


ผมไม่รู้ว่าท่านไปเอามาจากไหนนะว่า "พอสอนเสร็จได้โครงของโปรแกรมมา ก็ใช้ model นั้นแหละอันไม่ใหญ่" เพราะความจริงคือ ขนาดของ vram/tpu แปรผันกับขนาด model เสมอยิ่ง

หนูไม่รู้ว่าท่านเคยสร้าง model neural network เองไหม
เรากำหนดเองได้ว่าอยากได้ กี่ชั้น กี่โหนด เก็บข้อมูลขนาดเท่าไหร่
ดังนั้นแล้ว มันจะเป็นไปตามนี้ ขนาดของโมเดลจะไม่เพิ่มหรือลดลง


ทำความเข้าใจสิ่งที่คนอื่นพูดให้ดีก่อนนะครับ  



บอกทีว่าหนูข้อมูลผิดหรือเข้าใจอะไรผิด
themasksocccer พิมพ์ว่า:
MarkZuckerberg พิมพ์ว่า:
โม้จัดๆ ตอนนี้รัน compute power เท่าสมองมนุษย์ก้อนนึงยังต้องใช้ datacenter ใหญ่กว่าสนามฟุตบอล 2-3 สนามอีก

1 หมื่นเท่า 10 ปีผมว่าเป็นไปได้ยากวะ  


ไม่ถึงขนาดนั้นค่ะ
การ์ดจอตัวเดียวก็รันได้แล้ว ผิดตรงไหน
อย่าง llama 3, mistral 7b ก็รันบนการ์ดจอเกมธรรมดาได้ ผิดตรงไหน llama3 mistral 7b ตัวธรรมดาก็เก่งกว่าค่าเฉลี่ยประชากรบนโลก 95% ไปแล้ว
ถ้า quantization ก็รันบนมือถือได้แล้ว ผิดตรงไหน

ทุกวันนี้ที่ใช้เยอะๆคือตอนเทรนข้อมูล ผิดตรงไหน
เพราะแบบจำลองทางภาษาต้องอ่านหนังสือเยอะ ผิดตรงไหน
ยิ่งอ่านเยอะก็รู้เยอะ ตรงนี้ที่ต้องใช้เครื่องใหญ่ในการสอน ผิดตรงไหน

 
0
0
หากโดน 40 เรื้อน จะถูกแบน
contactme themasksoccer@gmail.com
ออฟไลน์
ดาวเตะลา ลีกา
Status:
: 0 ใบ : 0 ใบ
เข้าร่วม: 08 Apr 2024
ตอบ: 3264
ที่อยู่:
โพสเมื่อ: Tue Jun 25, 2024 14:08
[RE: AIที่ฉลาดกว่าคน10,000เท่าจะเกิดใน10ปี]
themasksocccer พิมพ์ว่า:
MarkZuckerberg พิมพ์ว่า:
themasksocccer พิมพ์ว่า:
MarkZuckerberg พิมพ์ว่า:
themasksocccer พิมพ์ว่า:
MarkZuckerberg พิมพ์ว่า:
Spoil
themasksocccer พิมพ์ว่า:
MarkZuckerberg พิมพ์ว่า:
themasksocccer พิมพ์ว่า:
MarkZuckerberg พิมพ์ว่า:
themasksocccer พิมพ์ว่า:
MarkZuckerberg พิมพ์ว่า:
โม้จัดๆ ตอนนี้รัน compute power เท่าสมองมนุษย์ก้อนนึงยังต้องใช้ datacenter ใหญ่กว่าสนามฟุตบอล 2-3 สนามอีก

1 หมื่นเท่า 10 ปีผมว่าเป็นไปได้ยากวะ  


ไม่ถึงขนาดนั้นค่ะ
การ์ดจอตัวเดียวก็รันได้แล้ว
อย่าง llama 3, mistral 7b ก็รันบนการ์ดจอเกมธรรมดาได้
ถ้า quantization ก็รันบนมือถือได้แล้ว

ทุกวันนี้ที่ใช้เยอะๆคือตอนเทรนข้อมูล
เพราะแบบจำลองทางภาษาต้องอ่านหนังสือเยอะ
ยิ่งอ่านเยอะก็รู้เยอะ ตรงนี้ที่ต้องใช้เครื่องใหญ่ในการสอน

 

ผมว่าท่านเข้าใจผิดนะตรงนี้ 2 ประเด็น

1.Generative AI ไม่ใช่ AGI มันเป็นเชิง machine learning ในการเติมคำช่องว่างมากกว่า มันไม่ได้มีสัมปัญชัญยะเป็นของตัวเอง มันไม่ได้มีความเข้าใจเนื้อหาหรืออะไรจริงๆเลย เราแค่นำคำตอบที่มีอยู่แล้วมาเทรน model เพราะฉะนั้นมันไม่สามารถฉลาดขึ้นเองได้หรือคิดวิเคราะห์ได้ด้วยตัวเองมันจึงยากที่จะฉลาดกว่ามนุษย์ 10000 เท่าหรือแม้แต่ฉลาดเท่ามนุษย์ด้วยซ้ำ แต่ AGI เหมือนมนุษย์จริงๆคือมันสามารถทำความเข้าใจเรื่องต่างๆและเรียนรู้ฉลาดขึ้นด้วยตัวเอง คิดอะไรใหม่ๆขึ้นมาด้วยตัวเองโดยไม่ต้องมีข้อมูลป้อนให้เข้าไปแบบ Generative AI



2.Model ขนาดใหญ่เบิ้มแบบที่ GPT-4o Llama3 Gemini 1.5 ใช้นั้นไม่สามารถรันบนการ์ดจอตัวเดียวได้ครับ ที่จริงไม่สามารถรันบรการ์ดจอเล่นเกมส์ได้ด้วยซ้ำแม้แต่ 4090 ก็ตาม โมเดลขนาดใหญ่เป็น 10billion trillon token ต้องรันบนพวก H100 H200 ที่พึ่งออกใหม่นู้นเลยครับ

ถ้าเป็นการ์ดจอ high end แบบ 4090 อาจจะพอรันโมเดลตัวเล็กได้อย่างพวก Gemini Flash, Llama 3 ตัวเล็ก (token น้อย) แต่model เล็กๆได้แค่เรื่อง speed กับประหยัดการคำนวณเฉยๆ แต่มันทำ task ฉลาดๆเท่า model ตัวใหญ่ไม่ได้ ตัดออกไปได้เลยความเป็นไปได้ในอีก 10 ปีที่จะรัน model ตัวใหญ่บนมือถือ smart phone อย่างตัว Apple Intelligence ก็รัน model ตัวติ๊ดเดียวบนเครื่องเพื่องานบางอย่างที่ง่ายๆส่วนงาน complex ยากๆก็ส่งขึ้นประมวลผลบน private datacenter เหมือนเดิม  


หนูไม่ได้เข้าใจอะไรผิดหรอกค่ะ โทษทีไม่ได้กลับมาตอบทันที
อย่าง llm เป็นแบบจำลองทางภาษาที่ใช้หลักการความน่าจะเป็นและสถิติมาตอบ
หากเอาการตอบอย่างมีเหตุผลตรรกะมันจะผิด เพราะเบื้องหลังคือสถิติ

แต่เราสามารถเอาแบบจำลองอื่นๆมาร่วมด้วยได้เช่นพวก Machnine Learning ทั่วไปนี้แหละมีเหตุผลมากๆ และตัวเล็กสุดๆด้วย เพราะพื้นฐานมาจากหลักคณิตศาสตร์ คิดคำนวน

เราสามารถใช้ llm ทำการ Extract feature หรือ Extract information ออกมา แล้วโยนเข้า ML เพื่อทำการคำนวนต่อได้

อย่า GPT-4o ทำไมจะรันใน GPU ตัวเดียวไม่ได้ เขาแค่ไม่เปิดโครงสร้างให้เราดู
OpenAI ใช้ Expert Model หมายถึง ลดความรู้ให้เหลือเฉพาะด้าน ไม่ต้องอ่านหนังสือทั้งหมด โมเดลจะเล็กลง ทำงานได้ไวขึ้น สำหรับการให้บริการ OpenAI ก็เปิดให้มี Expert หลายๆตัว แต่หน้ากากเราไม่รู้ว่าเรากำลังคุยกับตัวไหน

ที่บอกว่า llama 3 รันบน GPU ไม่ได้ก็ไม่ถูกแล้วค่ะ

https://ollama.com/library/llama3
modelarch
llama
·
parameters
8.03B
·
quantization
Q4_0 = 4.7GB

รันบน 4070 ก็ได้

อย่างที่บอกว่าใช้ทรัพยากรเยอะสุดตอนเทรน คือต้องการหนังสือมาให้มันอ่านเยอะที่สุดจึงจำเป็นต้องใช้หน่วยความจำเยอะที่สุดเท่าที่อยากให้มันเรียนรู้ จะกี่พันล้าน แสนล้านคำก็ตาม

สุดท้ายโมเดลจะอยู่ในโครงสร้างเครือข่ายประสาทเทียมที่เตรียมไว้แล้ว ว่าจะเป็นโครงไหน แบบจำลองจะไม่ใหญ่ไปกว่าที่เขาออกแบบไว้ให้ไม่ใหญ่แค่ไหน เพราะถ้าไม่กำหนดขนาดของแบบจำลองไว้ คอมพิวเตอร์ทุกเครื่องคงพังก่อนได้ใช้งาน

เวลาเขียนโปรแกรมยังต้องประกาศตัวแปล และขนาดของตัวแปล เช่นเดียวกันกับ สถาปัตยกรรมของเอไอ ต้องประกาศชั้น โหนดของโครงข่ายประสาทเทียมไว้ แต่ละโหนด เรียกรวมๆกันว่า parameter ซึ่งเก็บค่าน้ำหนักและค่าความเอนเอียงไว้

เช่น llama 3 8b หมายถึงมี 8พันล้านกิ่งตัดสินใจ ทำ quantization 4bit แต่ละกิ่งเก็บค่าข้อมูลตัวเลข 4 bit 2 ตัวแปล เป็น 8bit ก็เท่ากับ 8Gbyte ตอนรัน

สรุปว่า Model สามารถย่อได้ สามารถสกัดข้อมูลออกมา และสามารถคำนวนได้ค่ะ
งานวิจัยพวกนี้ทำมานานแล้ว ที่เราเห็นเขาทำเล่นใหญ่เพราะเขามีคนที่ต้องให้บริการมาก ไม่ได้ใช้งานคนเดียว

 

1.llma 3 มันมีหลายเวอร์ชั่นไอ่ตัวเล็กๆรันได้ใน high end gaming card อย่างที่ผมบอกไปไงแต่มันรัน model ตัวใหญ่ไม่ได้ แถมถึงรันได้ performance ก็ช้ากว่าใช้พวก H100 H200 ไม่ทันกินหรอกครับไม่ใช่ว่าแค่ vram ถึงแล้วจะเอามาใช้งาน production grade ได้นะครับ 4070 cuda core 5พันกว่า tensor 180 เอง H200 x4 เข้าไปเลยครับ ยิ่งเวอร์ชั่นรันบน smart phone คือ model เล็กมากๆๆ ใช้ process พวก task ง่ายๆเท่านั้น ไม่ใกล้เคียงกับคำว่าฉลาด
- ทำได้ด้วยการ Quantization ลดจุดทศนิยมในการคิดลงจาก 16bit เหลือ 4bit โมเดลจะลดลงไปเยอะ
หนูทำใช้งานจริงมาแล้ว 70b quantize4 สมมติคิดเลข 1.1234567890123456 กับ 1.1234 ค่าไม่ต่างกันมาก แต่กิน memory ต่างกันมาก ความผิดพลาดมีได้แต่ไม่ใช่แบบคนละเรื่องกัน

https://www.reddit.com/r/LocalLLaMA/comments/1cj4det/llama_3_70b_instruct_works_surprisingly_well_on/

2.ที่ผมบอกใช้ data center เท่า 2-3 สนามฟุตบอลคือจำลอง processing power ของสมองคนจริงๆครับ (ตอนนี้มีพวก black well แล้วอาจจะไม่ได้ใหญ่เท่า 2-3 สนามแต่ก็ใหญ่อยู่ดี) ซึ่ง processing power สมองคนเรามันไม่ใช่แค่การเติมคำในช่องว่างเหมือน Gen AI ไงครับ มันซับซ้อนกว่านั้นเยอะมากๆ

อย่างที่บอกว่า llm เบื้องหลังคือหลักสถิติมันคำนวนไม่ได้
แต่สามารถใช้สกัดข้อมูลออกมาได้ ดังนั้นไม่ใช่แค่เติมคำ
ต่อมานำข้อมูลที่ได้ โยนเข้า Machine Learning ธรรมดาที่ใช้ทรัพยากรเครื่องน้อย เอาง่ายๆเครื่องคิดเลขไม่ได้กินทรัพยากรเครื่อง


3.อย่างที่ผมบอกว่า Gen AI ผมไม่เห็นว่าจะเอามาฉลาดกว่ามนุษย์ได้เพราะมันถูก feed ข้อมูลที่มนุษย์คิดมาก่อนอยู่แล้วเข้าไป อย่างมากมันก็แค่ใช้ข้อมูลพวกนั้นเพื่อให้คำตอบที่ใกล้เคียงที่สุด ไม่ใช่เพราะมันรู้และเข้าใจคำตอบได้จริงๆ แต่อย่างที่คุณบอกมันเป็นเชิง stat มากกว่า ซึ่งถ้า AI จะฉลาดกว่ามนุษย์ได้ต้องไม่ใช่แค่เติมคำในช่องว่างจากสถิติ มันต้องสามารถเรียนรุ้เองได้ คิดอะไรใหม่ๆเองได้

AI ไม่ได้เก่งกว่าคนที่คิดค้น AI
แต่เก่งกว่าคนทั่วไปที่ไม่ได้คิด AI และมีส่วนมากของประชากรโลกค่ะ
แต่ AI ก็มีหลากหลายตัวช่วยกันทำงานได้ อย่า chatgpt มันทำงานเบื้องหลังอยู่หลายตัว ไม่ใช่แค่ model ภาษาอย่างเดียวค่ะ


 
 
 

เท่าที่ผมอ่านผมว่าเราก็เข้าใจอะไรคล้ายๆกันนะ แต่ผมว่าประเด็นที่่เราเห็นไม่ตรงกันไปคือท่านน่าจะ underesitmate ความสามารถของสมองมุนษย์เกินไป  


ขออภัยนะคะ ตั้งแต่หัวกระทู้ไม่มีการยก Generative AI ขึ้นมา และหนูก็ไม่ได้พูดถึงเฉพาะ Gen AI เพราะการทำงานเบื้องหลังสามารถมีหลายตัวช่วยกันอยู่ได้ แต่หนูขอยืนยันว่ารัน AI ไม่ต้องใช้เครื่องใหญ่ ที่ใหญ่คือตอนเทรนค่ะ

หนูก็อ้างอิงจากข้อมูลที่เผยแพร่ อย่างโมเดลที่ทำโดยคนไทย ยังเก่งกว่าเด็กไทยไปแล้วเลยค่ะ โมเดล 7b เองนะคะ รันบนการ์ดจอได้ ดังนั้นหนูจึงยืนยันว่า ไม่ต้องใช้ data center สำหรับทำงานให้ได้เท่ามนุษย์
 

นั่นแหละคือสิ่งที่เราเห็นไม่ตรงกันครับ คุณใช้การทำข้อสอบที่มีคำตอบ fix อยู่แล้วมา benchmark ความฉลาด ส่วนผมสมองว่าการ benchmark โดยของพวกนั้นไม่มีประโยชน์เลยไม่ได้วัดความฉลาด เหมือนคุณจำคำตอบไว้อยู่แล้ว แต่จริงๆแล้วตัว Model มันไม่ได้เข้าใจคำถามจริงๆ มันรู้ว่านี่คือคำตอบที่น่าจะเป็นเฉยๆ ผมไม่เรียกนี่ว่าฉลาด

คุณบอกไม่ได้เจาะจง Gen AI แต่สิ่งที่คุณเอามาเถียงผมเรื่องขนาด data center เป็นการรัน model Gen AI ทั้งนั้น ผมงง ซึ่งผมก็บอกไว้แล้วถ้าพูดถึง Gen AI ยิ่ง model เล็กยิ่งความสามารถน้อยและเจาะจงมากยิ่งขึ้น ถึงรันบนร smar phone ได้มันก็ไม่ฉลาดกว่ามนุษย์ ตรงนี้คงไม่ต้องเถียงกันแล้ว ต่ให้ Gen AI ฉลาดกว่ามนุษย์ได้จริงๆต้องเป็น model ใหญ่มากๆ ไม่ก็ใช้หลายตัวมากๆๆๆๆๆๆๆๆๆๆๆๆๆๆๆๆ

ผมว่าผมพูดจัดเจนแล้วนะว่าเวลาผมพูดถึง AI ที่ฉลาดกว่ามนุษย์ผมพูดถึงต้องเป็น AGI ไม่ใช่ Gen AI ด้วยเหตุผลหลายๆอย่างที่ผมอธิบายไปแล้วข้างบนว่าทำไม Gen AI ถึงจะไม่สามารถฉลาดกว่ามนุษย์ได้  


AGI มันไม่มีจริงๆไงคะ แต่ไม่ได้หมายความว่ามันไม่ได้ฉลาดจริง
ความจริงคือ Multimodal AI คือมันทำงานร่วมกันต่อเนื่องกัน
เหมือนการเขียนโปรแกรมทั่วไปที่มีการไหลของข้อมูลไปทีละลำดับขั้นตอน
แต่การเขียนโปรแกรมนี้มนุษย์ไม่ได้เขียนเอง

เป็น AI มาเขียนว่า ข้อมูลแบบไหน ต้องใช้ Model ไหนตอบ
ได้ข้อมูลมาก็ไหล ไป Model อื่นๆ ไปจนกระทั้งได้ผลลัพธ์ออกไป

ไม่นับเรื่องการสร้างสรรค์หรืองานวิจัย AI มันสามารถคิดเล็กคิดน้อยได้ทั้งหมดที่คนไม่สนใจจนเกิดเป็นข้อมูล Insight ได้ ซึ่งคนต้องใช้เวลามากกว่ามันหลายพันหรือหลายล้านเท่ากว่าจะหาได้

ยืนยันคำเติมค่ะว่า AI ไม่ต้องรันบน data center ไม่ต้องเชื่อก็ได้ค่ะ
Generative AI มันตั้งอยู่บน LLM ซึ่งมันมีขนาดใหญ่ และใหญ่ที่สุดแล้ว
Model รูปภาพ การจำแนก การรู้จำ ต่างๆไม่ได้ใช้ทรัพยากรเยอะขนาดนั้น สามารถทำงานบน cpu ได้ด้วย อย่างระบบบัตรจอดรถตามห้างไม่ต้องใช้ถึง PC เอาแค่ arduino board ก็ติดตั้งใช้งานได้แล้ว AI อ่านป้ายทะเบียนไม่ต้องถึงกับรันอยู่บน data center แน่ๆ

หนูไม่รู้หรอกนะว่าทำไมคุณถึงติดภาพว่าต้องใช้คอมพิวเตอร์ขนาดใหญ่เท่านั้นในการรัน ซึ่งมันคือโครงส้รางโปรแกรมอันหนึ่งเท่านั้น จะทำใหญ่เล็กก็ได้ เพื่อการคำนวนก็ใช้ hardware มาช่วย

สรุปนะคะ ถ้าไม่เชื่อรบกวนหาข้อมูลมาแปะก็ได้คะว่าทำบน Local PC ไม่ได้เพราะเหตุผลอะไร
เพราะหนูยืนยันคำเดิมว่าแม้แต่ LLM ก็รันบน GPU ได้ แต่ถ้าทำ Quantization แล้วจะลงไปอยู่บนมือถือได้ แต่ถ้ายังยืนยันว่าแค่ Generative AI ต้องรันบน data center เท่านั้นรบกวนแสดงข้อมูลให้ทีค่ะ

สมัยก่อนยังไม่มี llm ก็รันบนเครื่องธรรมดากันได้หมด
พอ llm มามันแค่บริโภคข้อมูลเยอะก็เลยต้องใช้เครื่องจำนวนเยอะสอน
พอสอนเสร็จได้โครงของโปรแกรมมา ก็ใช้ model นั้นแหละอันไม่ใหญ่

อันนี้หนูแปะของฝรั่ง หนูชี้ไปด้วยข้อมูลเป็น ตัวเลขให้แล้วก่อนหน้านี้ว่าสามารถคำนวนได้ ไม่ใช่เอะอะยัด data center
https://www.reddit.com/r/LocalLLaMA/comments/1cj4det/llama_3_70b_instruct_works_surprisingly_well_on/

หนูขอแปะของไทย



 

หลงประเด็นละครับ

ผมบอกตอนไหนหรอว่ารัน model บนเครื่อง PC ไมได้ ผมบอกว่ามันรัน model ตัวใหญ่ที่จะฉลาดกว่ามนุษย์ไม่ได้ ผมก็บอกอยู่ตัวเล็กรันได้ แต่ตัวเล็กมันไม่ได้ฉลาดกว่ามนุษย์

1.ประเด็น AGI ผมผมเคลียไปแล้วนะ ว่าถ้าคุณยังเชื่อว่า Gen AI สามารถฉลาดกว่ามนุษย์ได้ก็จบแล้วไม่ต้องคุยต่อ สำหรับผม AGI เท่านั้นที่มีโอกาสฉลาดกว่ามนุษย์จริงๆ

AGI ไม่มีจริง ถ้ามีมันไม่เรียก Artificial ค่ะ ปัจจุบันเป็นแค่นิยามของมนุษย์สายศิลป์
AI ปัจจุบันมันคือคนประดิษฐ์ทั้งหมด ดังนั้นแล้วการมีอยู่ของมันคือการสอนจากมนุษย์ มนุษย์คือผู้สอน


2.ประเด็น Data Center ผมไม่เคยพูดเลยว่าต้องเอา Datacenter มารัน Gen AI บ้าหรือเปล่า ผมบอกว่าจะ simulate processing power ของสมองมนุษย์ (ไม่ใช่ Gen AI ย้ำอีกครั้งนะ ) ต้องใช้ datacenter ขนาด 2-3 สนามฟุตบอล ซึ่งตรงนี้คุณไม่เข้าใจไง เพราะคุณเอะอะอะไรก็ gen AI gen AI model model เอ้ออ

ตั้งแต่เดิมหนูก็ไม่เคยพูด Gen AI คุณเป็นคนเริ่ม แต่หนูยกตัวอย่างให้เห็นว่า
แม้แต่ LLM mี่ว่าใหญ่ยังตั้งอยู่บน GPU ได้ ดังนั้นแล้วอะไรที่เล็กกว่าก็รันได้



3.ก็ยังจะยัดเยียดให้ผมผิดให้ได้ ไอ่ thai gpt ที่คุณส่งมาหน่ะศึกษาหรือยังว่ามันกี่ param ความสามารถขนาดไหน ผมไปดูให้ละ llama 7billion param โถสภาพพพพพพ ไปเอา bare minimum param model มาแล้วมาเคลมว่าฉลาดกว่ามนุษย์หรอ พวก Gpt-4 นี่ 1.76 trillion param นะครับ ผมพูดถึงการ deploy and run นะครับไม่ใช่ train ถ้า train คือมากกว่านั้นหลายร้อยหลายพันเท่า เอาแค่รัน 70B param ก็ต้องระดับ 4090 แล้วถึงจะเร็วพอทำกิน แถมเผลอๆ precision ไม่เต็มด้วย

ท่านยังไม่เข้าใจเรื่อง Quantization เลยว่าทำไม GPU ถึงย่อลงมาเล็กได้
ตัว 7b เพียงพอต่อการใช้งานแล้ว ถ้ามันใช้งานไม่ได้จริง ใครเขาจะออกแบบกัน
ตัว 70b ย่อลงมา ก็รันบน GPU ได้
หนูมี Source ให้ดูนะคะ
https://huggingface.co/blog/lyogavin/airllm


ต่อมา ChatGPT-4o มันเป็น Multi Expert Model
มันคือ Model หลายๆตัวมาช่วยกันทำ ไม่ใช่ตัวเดียว
ไม่ต้องใช้ data center อะไรทั้งนั้น ไม่มีใครอยากเปิดไฟเล่น
แต่ละตัวก็รันบน GPU แค่ตัวเดียว พอหลายตัวก็เคลมว่าเป็นล้านล้านพารามีเตอร์


ผมไม่รู้ว่าท่านไปเอามาจากไหนนะว่า "พอสอนเสร็จได้โครงของโปรแกรมมา ก็ใช้ model นั้นแหละอันไม่ใหญ่" เพราะความจริงคือ ขนาดของ vram/tpu แปรผันกับขนาด model เสมอยิ่ง

หนูไม่รู้ว่าท่านเคยสร้าง model neural network เองไหม
เรากำหนดเองได้ว่าอยากได้ กี่ชั้น กี่โหนด เก็บข้อมูลขนาดเท่าไหร่
ดังนั้นแล้ว มันจะเป็นไปตามนี้ ขนาดของโมเดลจะไม่เพิ่มหรือลดลง


ทำความเข้าใจสิ่งที่คนอื่นพูดให้ดีก่อนนะครับ  



บอกทีว่าหนูข้อมูลผิดหรือเข้าใจอะไรผิด
themasksocccer พิมพ์ว่า:
MarkZuckerberg พิมพ์ว่า:
โม้จัดๆ ตอนนี้รัน compute power เท่าสมองมนุษย์ก้อนนึงยังต้องใช้ datacenter ใหญ่กว่าสนามฟุตบอล 2-3 สนามอีก

1 หมื่นเท่า 10 ปีผมว่าเป็นไปได้ยากวะ  


ไม่ถึงขนาดนั้นค่ะ
การ์ดจอตัวเดียวก็รันได้แล้ว ผิดตรงไหน
อย่าง llama 3, mistral 7b ก็รันบนการ์ดจอเกมธรรมดาได้ ผิดตรงไหน llama3 mistral 7b ตัวธรรมดาก็เก่งกว่าค่าเฉลี่ยประชากรบนโลก 95% ไปแล้ว
ถ้า quantization ก็รันบนมือถือได้แล้ว ผิดตรงไหน

ทุกวันนี้ที่ใช้เยอะๆคือตอนเทรนข้อมูล ผิดตรงไหน
เพราะแบบจำลองทางภาษาต้องอ่านหนังสือเยอะ ผิดตรงไหน
ยิ่งอ่านเยอะก็รู้เยอะ ตรงนี้ที่ต้องใช้เครื่องใหญ่ในการสอน ผิดตรงไหน

 
 

บอกทีว่าหนูข้อมูลผิดหรือเข้าใจอะไรผิด
ผิดตรงที่เข้าใจว่าผมพูดถึง Gen AI มีประโยคไหนผมบอกว่า Gen AI ต้องใช้สนามฟุตบอล 2-3 สนามเพื่อรันหรอครับ? น่าจะแยกไม่ออกระหว่าง AI + Gen AI หรือเปล่าครับ เพราะผมไม่ได้พูดถึง Gen AI เลยในเม้นแรก

การ์ดจอตัวเดียวก็รันได้แล้ว ผิดตรงไหน
อย่าง llama 3, mistral 7b ก็รันบนการ์ดจอเกมธรรมดาได้ ผิดตรงไหน llama3 mistral 7b ตัวธรรมดาก็เก่งกว่าค่าเฉลี่ยประชากรบนโลก 95% ไปแล้ว

ผิดตรงที่ model ตัวเล็กไม่มีทางฉลาดกว่ามนุษย์ได้ครับ ยิ่ง quatization ยิ่ง precision ต่ำยิ่งเป็นไปไม่ได้ที่จะฉลาดกว่ามนุษย์ครับ

ทุกวันนี้ที่ใช้เยอะๆคือตอนเทรนข้อมูล ผิดตรงไหน
เพราะแบบจำลองทางภาษาต้องอ่านหนังสือเยอะ ผิดตรงไหน
ยิ่งอ่านเยอะก็รู้เยอะ ตรงนี้ที่ต้องใช้เครื่องใหญ่ในการสอน ผิดตรงไหน

ไม่ผิดครับ และผมไม่เคยบอกว่าผิด

แต่สิ่งที่น่าจะเข้าใจผิดคือ model มีโอกาสจะฉลาดกว่ามนุษย์จริงๆไม่มีทางขนาดแค่ 7B หรือรัน quantize 8bit 16bit แน่นอน ต้องรันเต็มประสิทธิภาพถึงจะมีโอกาส ยกตัวอย่างเช่น model ที่ advance ที่สุดตัวหนึ่งของโลก gpt-4, Gemini 1.5 pro ตอนนี้ก็ไปถึง Trillion param แล้วครับถึงฉลาดขนาดนั้นได้ ซึ่ง model ใหญ่ขนาดนั้นใช้ vram มหาศาลมากครับเป็นหลาย 1000GB+ ในการรัน เพราะฉะนั้นตัด PC กับ smartphone ทิ้งไปได้เลย ขนาด Apple Intelligence ยังแบ่งงาน งานง่ายๆใช้ model ตัวเล็ก process บน iphone ส่วนงานยากๆส่งขึ้น cloud ครับ

นี่ได้ยินข่าวลือว่า GPT-5, Gemini รุ่นต่อไปนี่จะนะแตะ 500 Trillion param แล้วด้วย





แก้ไขล่าสุดโดย MarkZuckerberg เมื่อ Tue Jun 25, 2024 14:18, ทั้งหมด 3 ครั้ง
0
0
หากโดน 40 เรื้อน จะถูกแบน
ออฟไลน์
นักบอล ดิวิชั่น 1
Status:
: 0 ใบ : 0 ใบ
เข้าร่วม: 11 Feb 2017
ตอบ: 1201
ที่อยู่:
โพสเมื่อ: Tue Jun 25, 2024 14:31
[RE: AIที่ฉลาดกว่าคน10,000เท่าจะเกิดใน10ปี]
MarkZuckerberg พิมพ์ว่า:
Spoil
themasksocccer พิมพ์ว่า:
MarkZuckerberg พิมพ์ว่า:
themasksocccer พิมพ์ว่า:
MarkZuckerberg พิมพ์ว่า:
themasksocccer พิมพ์ว่า:
MarkZuckerberg พิมพ์ว่า:
Spoil
themasksocccer พิมพ์ว่า:
MarkZuckerberg พิมพ์ว่า:
themasksocccer พิมพ์ว่า:
MarkZuckerberg พิมพ์ว่า:
themasksocccer พิมพ์ว่า:
MarkZuckerberg พิมพ์ว่า:
โม้จัดๆ ตอนนี้รัน compute power เท่าสมองมนุษย์ก้อนนึงยังต้องใช้ datacenter ใหญ่กว่าสนามฟุตบอล 2-3 สนามอีก

1 หมื่นเท่า 10 ปีผมว่าเป็นไปได้ยากวะ  


ไม่ถึงขนาดนั้นค่ะ
การ์ดจอตัวเดียวก็รันได้แล้ว
อย่าง llama 3, mistral 7b ก็รันบนการ์ดจอเกมธรรมดาได้
ถ้า quantization ก็รันบนมือถือได้แล้ว

ทุกวันนี้ที่ใช้เยอะๆคือตอนเทรนข้อมูล
เพราะแบบจำลองทางภาษาต้องอ่านหนังสือเยอะ
ยิ่งอ่านเยอะก็รู้เยอะ ตรงนี้ที่ต้องใช้เครื่องใหญ่ในการสอน

 

ผมว่าท่านเข้าใจผิดนะตรงนี้ 2 ประเด็น

1.Generative AI ไม่ใช่ AGI มันเป็นเชิง machine learning ในการเติมคำช่องว่างมากกว่า มันไม่ได้มีสัมปัญชัญยะเป็นของตัวเอง มันไม่ได้มีความเข้าใจเนื้อหาหรืออะไรจริงๆเลย เราแค่นำคำตอบที่มีอยู่แล้วมาเทรน model เพราะฉะนั้นมันไม่สามารถฉลาดขึ้นเองได้หรือคิดวิเคราะห์ได้ด้วยตัวเองมันจึงยากที่จะฉลาดกว่ามนุษย์ 10000 เท่าหรือแม้แต่ฉลาดเท่ามนุษย์ด้วยซ้ำ แต่ AGI เหมือนมนุษย์จริงๆคือมันสามารถทำความเข้าใจเรื่องต่างๆและเรียนรู้ฉลาดขึ้นด้วยตัวเอง คิดอะไรใหม่ๆขึ้นมาด้วยตัวเองโดยไม่ต้องมีข้อมูลป้อนให้เข้าไปแบบ Generative AI



2.Model ขนาดใหญ่เบิ้มแบบที่ GPT-4o Llama3 Gemini 1.5 ใช้นั้นไม่สามารถรันบนการ์ดจอตัวเดียวได้ครับ ที่จริงไม่สามารถรันบรการ์ดจอเล่นเกมส์ได้ด้วยซ้ำแม้แต่ 4090 ก็ตาม โมเดลขนาดใหญ่เป็น 10billion trillon token ต้องรันบนพวก H100 H200 ที่พึ่งออกใหม่นู้นเลยครับ

ถ้าเป็นการ์ดจอ high end แบบ 4090 อาจจะพอรันโมเดลตัวเล็กได้อย่างพวก Gemini Flash, Llama 3 ตัวเล็ก (token น้อย) แต่model เล็กๆได้แค่เรื่อง speed กับประหยัดการคำนวณเฉยๆ แต่มันทำ task ฉลาดๆเท่า model ตัวใหญ่ไม่ได้ ตัดออกไปได้เลยความเป็นไปได้ในอีก 10 ปีที่จะรัน model ตัวใหญ่บนมือถือ smart phone อย่างตัว Apple Intelligence ก็รัน model ตัวติ๊ดเดียวบนเครื่องเพื่องานบางอย่างที่ง่ายๆส่วนงาน complex ยากๆก็ส่งขึ้นประมวลผลบน private datacenter เหมือนเดิม  


หนูไม่ได้เข้าใจอะไรผิดหรอกค่ะ โทษทีไม่ได้กลับมาตอบทันที
อย่าง llm เป็นแบบจำลองทางภาษาที่ใช้หลักการความน่าจะเป็นและสถิติมาตอบ
หากเอาการตอบอย่างมีเหตุผลตรรกะมันจะผิด เพราะเบื้องหลังคือสถิติ

แต่เราสามารถเอาแบบจำลองอื่นๆมาร่วมด้วยได้เช่นพวก Machnine Learning ทั่วไปนี้แหละมีเหตุผลมากๆ และตัวเล็กสุดๆด้วย เพราะพื้นฐานมาจากหลักคณิตศาสตร์ คิดคำนวน

เราสามารถใช้ llm ทำการ Extract feature หรือ Extract information ออกมา แล้วโยนเข้า ML เพื่อทำการคำนวนต่อได้

อย่า GPT-4o ทำไมจะรันใน GPU ตัวเดียวไม่ได้ เขาแค่ไม่เปิดโครงสร้างให้เราดู
OpenAI ใช้ Expert Model หมายถึง ลดความรู้ให้เหลือเฉพาะด้าน ไม่ต้องอ่านหนังสือทั้งหมด โมเดลจะเล็กลง ทำงานได้ไวขึ้น สำหรับการให้บริการ OpenAI ก็เปิดให้มี Expert หลายๆตัว แต่หน้ากากเราไม่รู้ว่าเรากำลังคุยกับตัวไหน

ที่บอกว่า llama 3 รันบน GPU ไม่ได้ก็ไม่ถูกแล้วค่ะ

https://ollama.com/library/llama3
modelarch
llama
·
parameters
8.03B
·
quantization
Q4_0 = 4.7GB

รันบน 4070 ก็ได้

อย่างที่บอกว่าใช้ทรัพยากรเยอะสุดตอนเทรน คือต้องการหนังสือมาให้มันอ่านเยอะที่สุดจึงจำเป็นต้องใช้หน่วยความจำเยอะที่สุดเท่าที่อยากให้มันเรียนรู้ จะกี่พันล้าน แสนล้านคำก็ตาม

สุดท้ายโมเดลจะอยู่ในโครงสร้างเครือข่ายประสาทเทียมที่เตรียมไว้แล้ว ว่าจะเป็นโครงไหน แบบจำลองจะไม่ใหญ่ไปกว่าที่เขาออกแบบไว้ให้ไม่ใหญ่แค่ไหน เพราะถ้าไม่กำหนดขนาดของแบบจำลองไว้ คอมพิวเตอร์ทุกเครื่องคงพังก่อนได้ใช้งาน

เวลาเขียนโปรแกรมยังต้องประกาศตัวแปล และขนาดของตัวแปล เช่นเดียวกันกับ สถาปัตยกรรมของเอไอ ต้องประกาศชั้น โหนดของโครงข่ายประสาทเทียมไว้ แต่ละโหนด เรียกรวมๆกันว่า parameter ซึ่งเก็บค่าน้ำหนักและค่าความเอนเอียงไว้

เช่น llama 3 8b หมายถึงมี 8พันล้านกิ่งตัดสินใจ ทำ quantization 4bit แต่ละกิ่งเก็บค่าข้อมูลตัวเลข 4 bit 2 ตัวแปล เป็น 8bit ก็เท่ากับ 8Gbyte ตอนรัน

สรุปว่า Model สามารถย่อได้ สามารถสกัดข้อมูลออกมา และสามารถคำนวนได้ค่ะ
งานวิจัยพวกนี้ทำมานานแล้ว ที่เราเห็นเขาทำเล่นใหญ่เพราะเขามีคนที่ต้องให้บริการมาก ไม่ได้ใช้งานคนเดียว

 

1.llma 3 มันมีหลายเวอร์ชั่นไอ่ตัวเล็กๆรันได้ใน high end gaming card อย่างที่ผมบอกไปไงแต่มันรัน model ตัวใหญ่ไม่ได้ แถมถึงรันได้ performance ก็ช้ากว่าใช้พวก H100 H200 ไม่ทันกินหรอกครับไม่ใช่ว่าแค่ vram ถึงแล้วจะเอามาใช้งาน production grade ได้นะครับ 4070 cuda core 5พันกว่า tensor 180 เอง H200 x4 เข้าไปเลยครับ ยิ่งเวอร์ชั่นรันบน smart phone คือ model เล็กมากๆๆ ใช้ process พวก task ง่ายๆเท่านั้น ไม่ใกล้เคียงกับคำว่าฉลาด
- ทำได้ด้วยการ Quantization ลดจุดทศนิยมในการคิดลงจาก 16bit เหลือ 4bit โมเดลจะลดลงไปเยอะ
หนูทำใช้งานจริงมาแล้ว 70b quantize4 สมมติคิดเลข 1.1234567890123456 กับ 1.1234 ค่าไม่ต่างกันมาก แต่กิน memory ต่างกันมาก ความผิดพลาดมีได้แต่ไม่ใช่แบบคนละเรื่องกัน

https://www.reddit.com/r/LocalLLaMA/comments/1cj4det/llama_3_70b_instruct_works_surprisingly_well_on/

2.ที่ผมบอกใช้ data center เท่า 2-3 สนามฟุตบอลคือจำลอง processing power ของสมองคนจริงๆครับ (ตอนนี้มีพวก black well แล้วอาจจะไม่ได้ใหญ่เท่า 2-3 สนามแต่ก็ใหญ่อยู่ดี) ซึ่ง processing power สมองคนเรามันไม่ใช่แค่การเติมคำในช่องว่างเหมือน Gen AI ไงครับ มันซับซ้อนกว่านั้นเยอะมากๆ

อย่างที่บอกว่า llm เบื้องหลังคือหลักสถิติมันคำนวนไม่ได้
แต่สามารถใช้สกัดข้อมูลออกมาได้ ดังนั้นไม่ใช่แค่เติมคำ
ต่อมานำข้อมูลที่ได้ โยนเข้า Machine Learning ธรรมดาที่ใช้ทรัพยากรเครื่องน้อย เอาง่ายๆเครื่องคิดเลขไม่ได้กินทรัพยากรเครื่อง


3.อย่างที่ผมบอกว่า Gen AI ผมไม่เห็นว่าจะเอามาฉลาดกว่ามนุษย์ได้เพราะมันถูก feed ข้อมูลที่มนุษย์คิดมาก่อนอยู่แล้วเข้าไป อย่างมากมันก็แค่ใช้ข้อมูลพวกนั้นเพื่อให้คำตอบที่ใกล้เคียงที่สุด ไม่ใช่เพราะมันรู้และเข้าใจคำตอบได้จริงๆ แต่อย่างที่คุณบอกมันเป็นเชิง stat มากกว่า ซึ่งถ้า AI จะฉลาดกว่ามนุษย์ได้ต้องไม่ใช่แค่เติมคำในช่องว่างจากสถิติ มันต้องสามารถเรียนรุ้เองได้ คิดอะไรใหม่ๆเองได้

AI ไม่ได้เก่งกว่าคนที่คิดค้น AI
แต่เก่งกว่าคนทั่วไปที่ไม่ได้คิด AI และมีส่วนมากของประชากรโลกค่ะ
แต่ AI ก็มีหลากหลายตัวช่วยกันทำงานได้ อย่า chatgpt มันทำงานเบื้องหลังอยู่หลายตัว ไม่ใช่แค่ model ภาษาอย่างเดียวค่ะ


 
 
 

เท่าที่ผมอ่านผมว่าเราก็เข้าใจอะไรคล้ายๆกันนะ แต่ผมว่าประเด็นที่่เราเห็นไม่ตรงกันไปคือท่านน่าจะ underesitmate ความสามารถของสมองมุนษย์เกินไป  


ขออภัยนะคะ ตั้งแต่หัวกระทู้ไม่มีการยก Generative AI ขึ้นมา และหนูก็ไม่ได้พูดถึงเฉพาะ Gen AI เพราะการทำงานเบื้องหลังสามารถมีหลายตัวช่วยกันอยู่ได้ แต่หนูขอยืนยันว่ารัน AI ไม่ต้องใช้เครื่องใหญ่ ที่ใหญ่คือตอนเทรนค่ะ

หนูก็อ้างอิงจากข้อมูลที่เผยแพร่ อย่างโมเดลที่ทำโดยคนไทย ยังเก่งกว่าเด็กไทยไปแล้วเลยค่ะ โมเดล 7b เองนะคะ รันบนการ์ดจอได้ ดังนั้นหนูจึงยืนยันว่า ไม่ต้องใช้ data center สำหรับทำงานให้ได้เท่ามนุษย์
 

นั่นแหละคือสิ่งที่เราเห็นไม่ตรงกันครับ คุณใช้การทำข้อสอบที่มีคำตอบ fix อยู่แล้วมา benchmark ความฉลาด ส่วนผมสมองว่าการ benchmark โดยของพวกนั้นไม่มีประโยชน์เลยไม่ได้วัดความฉลาด เหมือนคุณจำคำตอบไว้อยู่แล้ว แต่จริงๆแล้วตัว Model มันไม่ได้เข้าใจคำถามจริงๆ มันรู้ว่านี่คือคำตอบที่น่าจะเป็นเฉยๆ ผมไม่เรียกนี่ว่าฉลาด

คุณบอกไม่ได้เจาะจง Gen AI แต่สิ่งที่คุณเอามาเถียงผมเรื่องขนาด data center เป็นการรัน model Gen AI ทั้งนั้น ผมงง ซึ่งผมก็บอกไว้แล้วถ้าพูดถึง Gen AI ยิ่ง model เล็กยิ่งความสามารถน้อยและเจาะจงมากยิ่งขึ้น ถึงรันบนร smar phone ได้มันก็ไม่ฉลาดกว่ามนุษย์ ตรงนี้คงไม่ต้องเถียงกันแล้ว ต่ให้ Gen AI ฉลาดกว่ามนุษย์ได้จริงๆต้องเป็น model ใหญ่มากๆ ไม่ก็ใช้หลายตัวมากๆๆๆๆๆๆๆๆๆๆๆๆๆๆๆๆ

ผมว่าผมพูดจัดเจนแล้วนะว่าเวลาผมพูดถึง AI ที่ฉลาดกว่ามนุษย์ผมพูดถึงต้องเป็น AGI ไม่ใช่ Gen AI ด้วยเหตุผลหลายๆอย่างที่ผมอธิบายไปแล้วข้างบนว่าทำไม Gen AI ถึงจะไม่สามารถฉลาดกว่ามนุษย์ได้  


AGI มันไม่มีจริงๆไงคะ แต่ไม่ได้หมายความว่ามันไม่ได้ฉลาดจริง
ความจริงคือ Multimodal AI คือมันทำงานร่วมกันต่อเนื่องกัน
เหมือนการเขียนโปรแกรมทั่วไปที่มีการไหลของข้อมูลไปทีละลำดับขั้นตอน
แต่การเขียนโปรแกรมนี้มนุษย์ไม่ได้เขียนเอง

เป็น AI มาเขียนว่า ข้อมูลแบบไหน ต้องใช้ Model ไหนตอบ
ได้ข้อมูลมาก็ไหล ไป Model อื่นๆ ไปจนกระทั้งได้ผลลัพธ์ออกไป

ไม่นับเรื่องการสร้างสรรค์หรืองานวิจัย AI มันสามารถคิดเล็กคิดน้อยได้ทั้งหมดที่คนไม่สนใจจนเกิดเป็นข้อมูล Insight ได้ ซึ่งคนต้องใช้เวลามากกว่ามันหลายพันหรือหลายล้านเท่ากว่าจะหาได้

ยืนยันคำเติมค่ะว่า AI ไม่ต้องรันบน data center ไม่ต้องเชื่อก็ได้ค่ะ
Generative AI มันตั้งอยู่บน LLM ซึ่งมันมีขนาดใหญ่ และใหญ่ที่สุดแล้ว
Model รูปภาพ การจำแนก การรู้จำ ต่างๆไม่ได้ใช้ทรัพยากรเยอะขนาดนั้น สามารถทำงานบน cpu ได้ด้วย อย่างระบบบัตรจอดรถตามห้างไม่ต้องใช้ถึง PC เอาแค่ arduino board ก็ติดตั้งใช้งานได้แล้ว AI อ่านป้ายทะเบียนไม่ต้องถึงกับรันอยู่บน data center แน่ๆ

หนูไม่รู้หรอกนะว่าทำไมคุณถึงติดภาพว่าต้องใช้คอมพิวเตอร์ขนาดใหญ่เท่านั้นในการรัน ซึ่งมันคือโครงส้รางโปรแกรมอันหนึ่งเท่านั้น จะทำใหญ่เล็กก็ได้ เพื่อการคำนวนก็ใช้ hardware มาช่วย

สรุปนะคะ ถ้าไม่เชื่อรบกวนหาข้อมูลมาแปะก็ได้คะว่าทำบน Local PC ไม่ได้เพราะเหตุผลอะไร
เพราะหนูยืนยันคำเดิมว่าแม้แต่ LLM ก็รันบน GPU ได้ แต่ถ้าทำ Quantization แล้วจะลงไปอยู่บนมือถือได้ แต่ถ้ายังยืนยันว่าแค่ Generative AI ต้องรันบน data center เท่านั้นรบกวนแสดงข้อมูลให้ทีค่ะ

สมัยก่อนยังไม่มี llm ก็รันบนเครื่องธรรมดากันได้หมด
พอ llm มามันแค่บริโภคข้อมูลเยอะก็เลยต้องใช้เครื่องจำนวนเยอะสอน
พอสอนเสร็จได้โครงของโปรแกรมมา ก็ใช้ model นั้นแหละอันไม่ใหญ่

อันนี้หนูแปะของฝรั่ง หนูชี้ไปด้วยข้อมูลเป็น ตัวเลขให้แล้วก่อนหน้านี้ว่าสามารถคำนวนได้ ไม่ใช่เอะอะยัด data center
https://www.reddit.com/r/LocalLLaMA/comments/1cj4det/llama_3_70b_instruct_works_surprisingly_well_on/

หนูขอแปะของไทย



 

หลงประเด็นละครับ

ผมบอกตอนไหนหรอว่ารัน model บนเครื่อง PC ไมได้ ผมบอกว่ามันรัน model ตัวใหญ่ที่จะฉลาดกว่ามนุษย์ไม่ได้ ผมก็บอกอยู่ตัวเล็กรันได้ แต่ตัวเล็กมันไม่ได้ฉลาดกว่ามนุษย์

1.ประเด็น AGI ผมผมเคลียไปแล้วนะ ว่าถ้าคุณยังเชื่อว่า Gen AI สามารถฉลาดกว่ามนุษย์ได้ก็จบแล้วไม่ต้องคุยต่อ สำหรับผม AGI เท่านั้นที่มีโอกาสฉลาดกว่ามนุษย์จริงๆ

AGI ไม่มีจริง ถ้ามีมันไม่เรียก Artificial ค่ะ ปัจจุบันเป็นแค่นิยามของมนุษย์สายศิลป์
AI ปัจจุบันมันคือคนประดิษฐ์ทั้งหมด ดังนั้นแล้วการมีอยู่ของมันคือการสอนจากมนุษย์ มนุษย์คือผู้สอน


2.ประเด็น Data Center ผมไม่เคยพูดเลยว่าต้องเอา Datacenter มารัน Gen AI บ้าหรือเปล่า ผมบอกว่าจะ simulate processing power ของสมองมนุษย์ (ไม่ใช่ Gen AI ย้ำอีกครั้งนะ ) ต้องใช้ datacenter ขนาด 2-3 สนามฟุตบอล ซึ่งตรงนี้คุณไม่เข้าใจไง เพราะคุณเอะอะอะไรก็ gen AI gen AI model model เอ้ออ

ตั้งแต่เดิมหนูก็ไม่เคยพูด Gen AI คุณเป็นคนเริ่ม แต่หนูยกตัวอย่างให้เห็นว่า
แม้แต่ LLM mี่ว่าใหญ่ยังตั้งอยู่บน GPU ได้ ดังนั้นแล้วอะไรที่เล็กกว่าก็รันได้



3.ก็ยังจะยัดเยียดให้ผมผิดให้ได้ ไอ่ thai gpt ที่คุณส่งมาหน่ะศึกษาหรือยังว่ามันกี่ param ความสามารถขนาดไหน ผมไปดูให้ละ llama 7billion param โถสภาพพพพพพ ไปเอา bare minimum param model มาแล้วมาเคลมว่าฉลาดกว่ามนุษย์หรอ พวก Gpt-4 นี่ 1.76 trillion param นะครับ ผมพูดถึงการ deploy and run นะครับไม่ใช่ train ถ้า train คือมากกว่านั้นหลายร้อยหลายพันเท่า เอาแค่รัน 70B param ก็ต้องระดับ 4090 แล้วถึงจะเร็วพอทำกิน แถมเผลอๆ precision ไม่เต็มด้วย

ท่านยังไม่เข้าใจเรื่อง Quantization เลยว่าทำไม GPU ถึงย่อลงมาเล็กได้
ตัว 7b เพียงพอต่อการใช้งานแล้ว ถ้ามันใช้งานไม่ได้จริง ใครเขาจะออกแบบกัน
ตัว 70b ย่อลงมา ก็รันบน GPU ได้
หนูมี Source ให้ดูนะคะ
https://huggingface.co/blog/lyogavin/airllm


ต่อมา ChatGPT-4o มันเป็น Multi Expert Model
มันคือ Model หลายๆตัวมาช่วยกันทำ ไม่ใช่ตัวเดียว
ไม่ต้องใช้ data center อะไรทั้งนั้น ไม่มีใครอยากเปิดไฟเล่น
แต่ละตัวก็รันบน GPU แค่ตัวเดียว พอหลายตัวก็เคลมว่าเป็นล้านล้านพารามีเตอร์


ผมไม่รู้ว่าท่านไปเอามาจากไหนนะว่า "พอสอนเสร็จได้โครงของโปรแกรมมา ก็ใช้ model นั้นแหละอันไม่ใหญ่" เพราะความจริงคือ ขนาดของ vram/tpu แปรผันกับขนาด model เสมอยิ่ง

หนูไม่รู้ว่าท่านเคยสร้าง model neural network เองไหม
เรากำหนดเองได้ว่าอยากได้ กี่ชั้น กี่โหนด เก็บข้อมูลขนาดเท่าไหร่
ดังนั้นแล้ว มันจะเป็นไปตามนี้ ขนาดของโมเดลจะไม่เพิ่มหรือลดลง


ทำความเข้าใจสิ่งที่คนอื่นพูดให้ดีก่อนนะครับ  



บอกทีว่าหนูข้อมูลผิดหรือเข้าใจอะไรผิด
themasksocccer พิมพ์ว่า:
MarkZuckerberg พิมพ์ว่า:
โม้จัดๆ ตอนนี้รัน compute power เท่าสมองมนุษย์ก้อนนึงยังต้องใช้ datacenter ใหญ่กว่าสนามฟุตบอล 2-3 สนามอีก

1 หมื่นเท่า 10 ปีผมว่าเป็นไปได้ยากวะ  


ไม่ถึงขนาดนั้นค่ะ
การ์ดจอตัวเดียวก็รันได้แล้ว ผิดตรงไหน
อย่าง llama 3, mistral 7b ก็รันบนการ์ดจอเกมธรรมดาได้ ผิดตรงไหน llama3 mistral 7b ตัวธรรมดาก็เก่งกว่าค่าเฉลี่ยประชากรบนโลก 95% ไปแล้ว
ถ้า quantization ก็รันบนมือถือได้แล้ว ผิดตรงไหน

ทุกวันนี้ที่ใช้เยอะๆคือตอนเทรนข้อมูล ผิดตรงไหน
เพราะแบบจำลองทางภาษาต้องอ่านหนังสือเยอะ ผิดตรงไหน
ยิ่งอ่านเยอะก็รู้เยอะ ตรงนี้ที่ต้องใช้เครื่องใหญ่ในการสอน ผิดตรงไหน

 
 
 

บอกทีว่าหนูข้อมูลผิดหรือเข้าใจอะไรผิด
ผิดตรงที่เข้าใจว่าผมพูดถึง Gen AI มีประโยคไหนผมบอกว่า Gen AI ต้องใช้สนามฟุตบอล 2-3 สนามเพื่อรันหรอครับ? น่าจะแยกไม่ออกระหว่าง AI + Gen AI หรือเปล่าครับ เพราะผมไม่ได้พูดถึง Gen AI เลยในเม้นแรก

จับใจความยังไง หนูพยายามบอกว่าแม้แต่ LLM ยังรันบน GPU ได้แล้วตัวอื่นๆที่เล็กกว่ามันจะรันมากกว่าได้อย่างไร ขอให้คิดแบบมีเหตุผล
เมื่อก่อนมันไม่มีอะไรใหญ่จนกระทั้งการมาของ Large Language Model ซึ่งมันใหญ่กว่าตระกูลอื่น
ดังนั้นแล้วการรัน AI ใดๆก็ตามไม่ต้องใช้ data center ทั้งนั้น


การ์ดจอตัวเดียวก็รันได้แล้ว ผิดตรงไหน
อย่าง llama 3, mistral 7b ก็รันบนการ์ดจอเกมธรรมดาได้ ผิดตรงไหน llama3 mistral 7b ตัวธรรมดาก็เก่งกว่าค่าเฉลี่ยประชากรบนโลก 95% ไปแล้ว

ผิดตรงที่ model ตัวเล็กไม่มีทางฉลาดกว่ามนุษย์ได้ครับ ยิ่ง quatization ยิ่ง precision ต่ำยิ่งเป็นไปไม่ได้ที่จะฉลาดกว่ามนุษย์ครับ

แสดงว่าคุณไม่ได้เรียน หรือไม่เคยเขียน AI มาเลยคุณจึงไม่เข้าใจเรื่อง หลักการคิดของ AI ตั้งแต่ต้น
Model ใหญ่ ย่อให้เล็ก เท่า Model เล็ก สมมติ 70b > 7b โมเดลใหญ่ย่อเล็กฉลากกว่า อ่านได้จากตรงนี้


เพราะการเข้าใจภาษาเป็นเรื่องทางสถิติ เจอคำต่างๆ(แปลงคำเป็นตัวเลขหนึ่ง)บ่อยยิ่งเข้าใจ ย่อแล้วไม่ได้ทำให้สถิติเปลี่ยนไป
คุณบอกว่าเป็นไปไม่ได้ แต่เขาทำ Benchmark กันมาหมดแล้วว่าสอบได้สูงกว่ามนุษย์ อ่านต่อจากตรงนี้

วิธีการทดสอบคือ แยกชุดสอน กับสอบออก ชุดสอบต้องไม่เคยอ่านมาก่อน
พวกนี้อยู่ในระเบียบวิถีวิจัย ถ้าสงสัยให้หาหลักฐานมาแย้งค่ะ

หากอยากให้มันทำอะไรให้แม่นยำขึ้นให้สกัดข้อมูล คุณลักษณะของข้อมูลออกมาแล้วไปเข้า Model อื่นๆที่เก่งเรื่องการคำนวนต่อไป คุณก็จะได้ความแม่นยำ




ทุกวันนี้ที่ใช้เยอะๆคือตอนเทรนข้อมูล ผิดตรงไหน
เพราะแบบจำลองทางภาษาต้องอ่านหนังสือเยอะ ผิดตรงไหน
ยิ่งอ่านเยอะก็รู้เยอะ ตรงนี้ที่ต้องใช้เครื่องใหญ่ในการสอน ผิดตรงไหน

ไม่ผิดครับ และผมไม่เคยบอกว่าผิด

แต่สิ่งที่น่าจะเข้าใจผิดคือ model มีโอกาสจะฉลาดกว่ามนุษย์จริงๆไม่มีทางขนาดแค่ 7B หรือรัน quantize 8bit 16bit แน่นอน ต้องรันเต็มประสิทธิภาพถึงจะมีโอกาส ยกตัวอย่างเช่น model ที่ advance ที่สุดตัวหนึ่งของโลก gpt-4, Gemini 1.5 pro ตอนนี้ก็ไปถึง 1.7 Trillion param แล้วครับถึงฉลาดขนาดนั้นได้

เขาใช้จริงกันไปหมดแล้ว ถ้าเคยทำ Model จะต้องรู้ว่าต้องลดการกินไฟและการใช้ทรัพยากรลงเรื่อยๆ ขนาดเขียนโปรแกรมยังต้องรู้จักทำ Mocri service เขียน AI ก็ต้องทำ multimodal แยกเป็นเปลาย expert

มี expert model 70b quantize4bit 1 ตัว หรือ n ตัวก็ใช้ memory เท่า 1 ตัว เพราะมันทำงานทีละตัว ไม่ต้องเปิดไฟสแตนบายรอคำสั่ง

อย่าไปหลงว่า Open AI ใช้ general model 1 ตัวทำทุกอย่าง จริงๆมันคือหลายตัวช่วยกันทำค่ะ บอก 100b จริงๆอาจจะ 10b 10 ตัวก็ได้ค่ะ

คิดแบบลูกทุ่งได้เลยค่ะ 1.7 Trillion parameters ต้องกาง Ram 3tb หรือ nvdia h200 22 ตัวเพื่อทำงานเลยหรอ ถ้าใช่เจ๊งแน่นอนค่ะ ตอบคำถามโง่ๆ ไม่ต้องใช้หน่วยความจำขนาดนั้น

เขาจะมี model ตัวเล็กมาจำแนกก่อนว่าจะส่งไปที่ไหนให้ทำงานต่อ
ตัวที่รับงานมาทำต่ออาจจะไม่ใหญ่มากแต่เฉพาะทาง ทำงานก็กาง ram แค่พอดีงาน
เปิดไฟใช้งานแค่ 1 ตัว จบ



 


แก้ไขล่าสุดโดย themasksocccer เมื่อ Tue Jun 25, 2024 14:53, ทั้งหมด 2 ครั้ง
0
0
หากโดน 40 เรื้อน จะถูกแบน
contactme themasksoccer@gmail.com
ออฟไลน์
ดาวเตะลา ลีกา
Status:
: 0 ใบ : 0 ใบ
เข้าร่วม: 08 Apr 2024
ตอบ: 3264
ที่อยู่:
โพสเมื่อ: Tue Jun 25, 2024 15:09
[RE: AIที่ฉลาดกว่าคน10,000เท่าจะเกิดใน10ปี]
themasksocccer พิมพ์ว่า:
MarkZuckerberg พิมพ์ว่า:
Spoil
themasksocccer พิมพ์ว่า:
MarkZuckerberg พิมพ์ว่า:
themasksocccer พิมพ์ว่า:
MarkZuckerberg พิมพ์ว่า:
themasksocccer พิมพ์ว่า:
MarkZuckerberg พิมพ์ว่า:
Spoil
themasksocccer พิมพ์ว่า:
MarkZuckerberg พิมพ์ว่า:
themasksocccer พิมพ์ว่า:
MarkZuckerberg พิมพ์ว่า:
themasksocccer พิมพ์ว่า:
MarkZuckerberg พิมพ์ว่า:
โม้จัดๆ ตอนนี้รัน compute power เท่าสมองมนุษย์ก้อนนึงยังต้องใช้ datacenter ใหญ่กว่าสนามฟุตบอล 2-3 สนามอีก

1 หมื่นเท่า 10 ปีผมว่าเป็นไปได้ยากวะ  


ไม่ถึงขนาดนั้นค่ะ
การ์ดจอตัวเดียวก็รันได้แล้ว
อย่าง llama 3, mistral 7b ก็รันบนการ์ดจอเกมธรรมดาได้
ถ้า quantization ก็รันบนมือถือได้แล้ว

ทุกวันนี้ที่ใช้เยอะๆคือตอนเทรนข้อมูล
เพราะแบบจำลองทางภาษาต้องอ่านหนังสือเยอะ
ยิ่งอ่านเยอะก็รู้เยอะ ตรงนี้ที่ต้องใช้เครื่องใหญ่ในการสอน

 

ผมว่าท่านเข้าใจผิดนะตรงนี้ 2 ประเด็น

1.Generative AI ไม่ใช่ AGI มันเป็นเชิง machine learning ในการเติมคำช่องว่างมากกว่า มันไม่ได้มีสัมปัญชัญยะเป็นของตัวเอง มันไม่ได้มีความเข้าใจเนื้อหาหรืออะไรจริงๆเลย เราแค่นำคำตอบที่มีอยู่แล้วมาเทรน model เพราะฉะนั้นมันไม่สามารถฉลาดขึ้นเองได้หรือคิดวิเคราะห์ได้ด้วยตัวเองมันจึงยากที่จะฉลาดกว่ามนุษย์ 10000 เท่าหรือแม้แต่ฉลาดเท่ามนุษย์ด้วยซ้ำ แต่ AGI เหมือนมนุษย์จริงๆคือมันสามารถทำความเข้าใจเรื่องต่างๆและเรียนรู้ฉลาดขึ้นด้วยตัวเอง คิดอะไรใหม่ๆขึ้นมาด้วยตัวเองโดยไม่ต้องมีข้อมูลป้อนให้เข้าไปแบบ Generative AI



2.Model ขนาดใหญ่เบิ้มแบบที่ GPT-4o Llama3 Gemini 1.5 ใช้นั้นไม่สามารถรันบนการ์ดจอตัวเดียวได้ครับ ที่จริงไม่สามารถรันบรการ์ดจอเล่นเกมส์ได้ด้วยซ้ำแม้แต่ 4090 ก็ตาม โมเดลขนาดใหญ่เป็น 10billion trillon token ต้องรันบนพวก H100 H200 ที่พึ่งออกใหม่นู้นเลยครับ

ถ้าเป็นการ์ดจอ high end แบบ 4090 อาจจะพอรันโมเดลตัวเล็กได้อย่างพวก Gemini Flash, Llama 3 ตัวเล็ก (token น้อย) แต่model เล็กๆได้แค่เรื่อง speed กับประหยัดการคำนวณเฉยๆ แต่มันทำ task ฉลาดๆเท่า model ตัวใหญ่ไม่ได้ ตัดออกไปได้เลยความเป็นไปได้ในอีก 10 ปีที่จะรัน model ตัวใหญ่บนมือถือ smart phone อย่างตัว Apple Intelligence ก็รัน model ตัวติ๊ดเดียวบนเครื่องเพื่องานบางอย่างที่ง่ายๆส่วนงาน complex ยากๆก็ส่งขึ้นประมวลผลบน private datacenter เหมือนเดิม  


หนูไม่ได้เข้าใจอะไรผิดหรอกค่ะ โทษทีไม่ได้กลับมาตอบทันที
อย่าง llm เป็นแบบจำลองทางภาษาที่ใช้หลักการความน่าจะเป็นและสถิติมาตอบ
หากเอาการตอบอย่างมีเหตุผลตรรกะมันจะผิด เพราะเบื้องหลังคือสถิติ

แต่เราสามารถเอาแบบจำลองอื่นๆมาร่วมด้วยได้เช่นพวก Machnine Learning ทั่วไปนี้แหละมีเหตุผลมากๆ และตัวเล็กสุดๆด้วย เพราะพื้นฐานมาจากหลักคณิตศาสตร์ คิดคำนวน

เราสามารถใช้ llm ทำการ Extract feature หรือ Extract information ออกมา แล้วโยนเข้า ML เพื่อทำการคำนวนต่อได้

อย่า GPT-4o ทำไมจะรันใน GPU ตัวเดียวไม่ได้ เขาแค่ไม่เปิดโครงสร้างให้เราดู
OpenAI ใช้ Expert Model หมายถึง ลดความรู้ให้เหลือเฉพาะด้าน ไม่ต้องอ่านหนังสือทั้งหมด โมเดลจะเล็กลง ทำงานได้ไวขึ้น สำหรับการให้บริการ OpenAI ก็เปิดให้มี Expert หลายๆตัว แต่หน้ากากเราไม่รู้ว่าเรากำลังคุยกับตัวไหน

ที่บอกว่า llama 3 รันบน GPU ไม่ได้ก็ไม่ถูกแล้วค่ะ

https://ollama.com/library/llama3
modelarch
llama
·
parameters
8.03B
·
quantization
Q4_0 = 4.7GB

รันบน 4070 ก็ได้

อย่างที่บอกว่าใช้ทรัพยากรเยอะสุดตอนเทรน คือต้องการหนังสือมาให้มันอ่านเยอะที่สุดจึงจำเป็นต้องใช้หน่วยความจำเยอะที่สุดเท่าที่อยากให้มันเรียนรู้ จะกี่พันล้าน แสนล้านคำก็ตาม

สุดท้ายโมเดลจะอยู่ในโครงสร้างเครือข่ายประสาทเทียมที่เตรียมไว้แล้ว ว่าจะเป็นโครงไหน แบบจำลองจะไม่ใหญ่ไปกว่าที่เขาออกแบบไว้ให้ไม่ใหญ่แค่ไหน เพราะถ้าไม่กำหนดขนาดของแบบจำลองไว้ คอมพิวเตอร์ทุกเครื่องคงพังก่อนได้ใช้งาน

เวลาเขียนโปรแกรมยังต้องประกาศตัวแปล และขนาดของตัวแปล เช่นเดียวกันกับ สถาปัตยกรรมของเอไอ ต้องประกาศชั้น โหนดของโครงข่ายประสาทเทียมไว้ แต่ละโหนด เรียกรวมๆกันว่า parameter ซึ่งเก็บค่าน้ำหนักและค่าความเอนเอียงไว้

เช่น llama 3 8b หมายถึงมี 8พันล้านกิ่งตัดสินใจ ทำ quantization 4bit แต่ละกิ่งเก็บค่าข้อมูลตัวเลข 4 bit 2 ตัวแปล เป็น 8bit ก็เท่ากับ 8Gbyte ตอนรัน

สรุปว่า Model สามารถย่อได้ สามารถสกัดข้อมูลออกมา และสามารถคำนวนได้ค่ะ
งานวิจัยพวกนี้ทำมานานแล้ว ที่เราเห็นเขาทำเล่นใหญ่เพราะเขามีคนที่ต้องให้บริการมาก ไม่ได้ใช้งานคนเดียว

 

1.llma 3 มันมีหลายเวอร์ชั่นไอ่ตัวเล็กๆรันได้ใน high end gaming card อย่างที่ผมบอกไปไงแต่มันรัน model ตัวใหญ่ไม่ได้ แถมถึงรันได้ performance ก็ช้ากว่าใช้พวก H100 H200 ไม่ทันกินหรอกครับไม่ใช่ว่าแค่ vram ถึงแล้วจะเอามาใช้งาน production grade ได้นะครับ 4070 cuda core 5พันกว่า tensor 180 เอง H200 x4 เข้าไปเลยครับ ยิ่งเวอร์ชั่นรันบน smart phone คือ model เล็กมากๆๆ ใช้ process พวก task ง่ายๆเท่านั้น ไม่ใกล้เคียงกับคำว่าฉลาด
- ทำได้ด้วยการ Quantization ลดจุดทศนิยมในการคิดลงจาก 16bit เหลือ 4bit โมเดลจะลดลงไปเยอะ
หนูทำใช้งานจริงมาแล้ว 70b quantize4 สมมติคิดเลข 1.1234567890123456 กับ 1.1234 ค่าไม่ต่างกันมาก แต่กิน memory ต่างกันมาก ความผิดพลาดมีได้แต่ไม่ใช่แบบคนละเรื่องกัน

https://www.reddit.com/r/LocalLLaMA/comments/1cj4det/llama_3_70b_instruct_works_surprisingly_well_on/

2.ที่ผมบอกใช้ data center เท่า 2-3 สนามฟุตบอลคือจำลอง processing power ของสมองคนจริงๆครับ (ตอนนี้มีพวก black well แล้วอาจจะไม่ได้ใหญ่เท่า 2-3 สนามแต่ก็ใหญ่อยู่ดี) ซึ่ง processing power สมองคนเรามันไม่ใช่แค่การเติมคำในช่องว่างเหมือน Gen AI ไงครับ มันซับซ้อนกว่านั้นเยอะมากๆ

อย่างที่บอกว่า llm เบื้องหลังคือหลักสถิติมันคำนวนไม่ได้
แต่สามารถใช้สกัดข้อมูลออกมาได้ ดังนั้นไม่ใช่แค่เติมคำ
ต่อมานำข้อมูลที่ได้ โยนเข้า Machine Learning ธรรมดาที่ใช้ทรัพยากรเครื่องน้อย เอาง่ายๆเครื่องคิดเลขไม่ได้กินทรัพยากรเครื่อง


3.อย่างที่ผมบอกว่า Gen AI ผมไม่เห็นว่าจะเอามาฉลาดกว่ามนุษย์ได้เพราะมันถูก feed ข้อมูลที่มนุษย์คิดมาก่อนอยู่แล้วเข้าไป อย่างมากมันก็แค่ใช้ข้อมูลพวกนั้นเพื่อให้คำตอบที่ใกล้เคียงที่สุด ไม่ใช่เพราะมันรู้และเข้าใจคำตอบได้จริงๆ แต่อย่างที่คุณบอกมันเป็นเชิง stat มากกว่า ซึ่งถ้า AI จะฉลาดกว่ามนุษย์ได้ต้องไม่ใช่แค่เติมคำในช่องว่างจากสถิติ มันต้องสามารถเรียนรุ้เองได้ คิดอะไรใหม่ๆเองได้

AI ไม่ได้เก่งกว่าคนที่คิดค้น AI
แต่เก่งกว่าคนทั่วไปที่ไม่ได้คิด AI และมีส่วนมากของประชากรโลกค่ะ
แต่ AI ก็มีหลากหลายตัวช่วยกันทำงานได้ อย่า chatgpt มันทำงานเบื้องหลังอยู่หลายตัว ไม่ใช่แค่ model ภาษาอย่างเดียวค่ะ


 
 
 

เท่าที่ผมอ่านผมว่าเราก็เข้าใจอะไรคล้ายๆกันนะ แต่ผมว่าประเด็นที่่เราเห็นไม่ตรงกันไปคือท่านน่าจะ underesitmate ความสามารถของสมองมุนษย์เกินไป  


ขออภัยนะคะ ตั้งแต่หัวกระทู้ไม่มีการยก Generative AI ขึ้นมา และหนูก็ไม่ได้พูดถึงเฉพาะ Gen AI เพราะการทำงานเบื้องหลังสามารถมีหลายตัวช่วยกันอยู่ได้ แต่หนูขอยืนยันว่ารัน AI ไม่ต้องใช้เครื่องใหญ่ ที่ใหญ่คือตอนเทรนค่ะ

หนูก็อ้างอิงจากข้อมูลที่เผยแพร่ อย่างโมเดลที่ทำโดยคนไทย ยังเก่งกว่าเด็กไทยไปแล้วเลยค่ะ โมเดล 7b เองนะคะ รันบนการ์ดจอได้ ดังนั้นหนูจึงยืนยันว่า ไม่ต้องใช้ data center สำหรับทำงานให้ได้เท่ามนุษย์
 

นั่นแหละคือสิ่งที่เราเห็นไม่ตรงกันครับ คุณใช้การทำข้อสอบที่มีคำตอบ fix อยู่แล้วมา benchmark ความฉลาด ส่วนผมสมองว่าการ benchmark โดยของพวกนั้นไม่มีประโยชน์เลยไม่ได้วัดความฉลาด เหมือนคุณจำคำตอบไว้อยู่แล้ว แต่จริงๆแล้วตัว Model มันไม่ได้เข้าใจคำถามจริงๆ มันรู้ว่านี่คือคำตอบที่น่าจะเป็นเฉยๆ ผมไม่เรียกนี่ว่าฉลาด

คุณบอกไม่ได้เจาะจง Gen AI แต่สิ่งที่คุณเอามาเถียงผมเรื่องขนาด data center เป็นการรัน model Gen AI ทั้งนั้น ผมงง ซึ่งผมก็บอกไว้แล้วถ้าพูดถึง Gen AI ยิ่ง model เล็กยิ่งความสามารถน้อยและเจาะจงมากยิ่งขึ้น ถึงรันบนร smar phone ได้มันก็ไม่ฉลาดกว่ามนุษย์ ตรงนี้คงไม่ต้องเถียงกันแล้ว ต่ให้ Gen AI ฉลาดกว่ามนุษย์ได้จริงๆต้องเป็น model ใหญ่มากๆ ไม่ก็ใช้หลายตัวมากๆๆๆๆๆๆๆๆๆๆๆๆๆๆๆๆ

ผมว่าผมพูดจัดเจนแล้วนะว่าเวลาผมพูดถึง AI ที่ฉลาดกว่ามนุษย์ผมพูดถึงต้องเป็น AGI ไม่ใช่ Gen AI ด้วยเหตุผลหลายๆอย่างที่ผมอธิบายไปแล้วข้างบนว่าทำไม Gen AI ถึงจะไม่สามารถฉลาดกว่ามนุษย์ได้  


AGI มันไม่มีจริงๆไงคะ แต่ไม่ได้หมายความว่ามันไม่ได้ฉลาดจริง
ความจริงคือ Multimodal AI คือมันทำงานร่วมกันต่อเนื่องกัน
เหมือนการเขียนโปรแกรมทั่วไปที่มีการไหลของข้อมูลไปทีละลำดับขั้นตอน
แต่การเขียนโปรแกรมนี้มนุษย์ไม่ได้เขียนเอง

เป็น AI มาเขียนว่า ข้อมูลแบบไหน ต้องใช้ Model ไหนตอบ
ได้ข้อมูลมาก็ไหล ไป Model อื่นๆ ไปจนกระทั้งได้ผลลัพธ์ออกไป

ไม่นับเรื่องการสร้างสรรค์หรืองานวิจัย AI มันสามารถคิดเล็กคิดน้อยได้ทั้งหมดที่คนไม่สนใจจนเกิดเป็นข้อมูล Insight ได้ ซึ่งคนต้องใช้เวลามากกว่ามันหลายพันหรือหลายล้านเท่ากว่าจะหาได้

ยืนยันคำเติมค่ะว่า AI ไม่ต้องรันบน data center ไม่ต้องเชื่อก็ได้ค่ะ
Generative AI มันตั้งอยู่บน LLM ซึ่งมันมีขนาดใหญ่ และใหญ่ที่สุดแล้ว
Model รูปภาพ การจำแนก การรู้จำ ต่างๆไม่ได้ใช้ทรัพยากรเยอะขนาดนั้น สามารถทำงานบน cpu ได้ด้วย อย่างระบบบัตรจอดรถตามห้างไม่ต้องใช้ถึง PC เอาแค่ arduino board ก็ติดตั้งใช้งานได้แล้ว AI อ่านป้ายทะเบียนไม่ต้องถึงกับรันอยู่บน data center แน่ๆ

หนูไม่รู้หรอกนะว่าทำไมคุณถึงติดภาพว่าต้องใช้คอมพิวเตอร์ขนาดใหญ่เท่านั้นในการรัน ซึ่งมันคือโครงส้รางโปรแกรมอันหนึ่งเท่านั้น จะทำใหญ่เล็กก็ได้ เพื่อการคำนวนก็ใช้ hardware มาช่วย

สรุปนะคะ ถ้าไม่เชื่อรบกวนหาข้อมูลมาแปะก็ได้คะว่าทำบน Local PC ไม่ได้เพราะเหตุผลอะไร
เพราะหนูยืนยันคำเดิมว่าแม้แต่ LLM ก็รันบน GPU ได้ แต่ถ้าทำ Quantization แล้วจะลงไปอยู่บนมือถือได้ แต่ถ้ายังยืนยันว่าแค่ Generative AI ต้องรันบน data center เท่านั้นรบกวนแสดงข้อมูลให้ทีค่ะ

สมัยก่อนยังไม่มี llm ก็รันบนเครื่องธรรมดากันได้หมด
พอ llm มามันแค่บริโภคข้อมูลเยอะก็เลยต้องใช้เครื่องจำนวนเยอะสอน
พอสอนเสร็จได้โครงของโปรแกรมมา ก็ใช้ model นั้นแหละอันไม่ใหญ่

อันนี้หนูแปะของฝรั่ง หนูชี้ไปด้วยข้อมูลเป็น ตัวเลขให้แล้วก่อนหน้านี้ว่าสามารถคำนวนได้ ไม่ใช่เอะอะยัด data center
https://www.reddit.com/r/LocalLLaMA/comments/1cj4det/llama_3_70b_instruct_works_surprisingly_well_on/

หนูขอแปะของไทย



 

หลงประเด็นละครับ

ผมบอกตอนไหนหรอว่ารัน model บนเครื่อง PC ไมได้ ผมบอกว่ามันรัน model ตัวใหญ่ที่จะฉลาดกว่ามนุษย์ไม่ได้ ผมก็บอกอยู่ตัวเล็กรันได้ แต่ตัวเล็กมันไม่ได้ฉลาดกว่ามนุษย์

1.ประเด็น AGI ผมผมเคลียไปแล้วนะ ว่าถ้าคุณยังเชื่อว่า Gen AI สามารถฉลาดกว่ามนุษย์ได้ก็จบแล้วไม่ต้องคุยต่อ สำหรับผม AGI เท่านั้นที่มีโอกาสฉลาดกว่ามนุษย์จริงๆ

AGI ไม่มีจริง ถ้ามีมันไม่เรียก Artificial ค่ะ ปัจจุบันเป็นแค่นิยามของมนุษย์สายศิลป์
AI ปัจจุบันมันคือคนประดิษฐ์ทั้งหมด ดังนั้นแล้วการมีอยู่ของมันคือการสอนจากมนุษย์ มนุษย์คือผู้สอน


2.ประเด็น Data Center ผมไม่เคยพูดเลยว่าต้องเอา Datacenter มารัน Gen AI บ้าหรือเปล่า ผมบอกว่าจะ simulate processing power ของสมองมนุษย์ (ไม่ใช่ Gen AI ย้ำอีกครั้งนะ ) ต้องใช้ datacenter ขนาด 2-3 สนามฟุตบอล ซึ่งตรงนี้คุณไม่เข้าใจไง เพราะคุณเอะอะอะไรก็ gen AI gen AI model model เอ้ออ

ตั้งแต่เดิมหนูก็ไม่เคยพูด Gen AI คุณเป็นคนเริ่ม แต่หนูยกตัวอย่างให้เห็นว่า
แม้แต่ LLM mี่ว่าใหญ่ยังตั้งอยู่บน GPU ได้ ดังนั้นแล้วอะไรที่เล็กกว่าก็รันได้



3.ก็ยังจะยัดเยียดให้ผมผิดให้ได้ ไอ่ thai gpt ที่คุณส่งมาหน่ะศึกษาหรือยังว่ามันกี่ param ความสามารถขนาดไหน ผมไปดูให้ละ llama 7billion param โถสภาพพพพพพ ไปเอา bare minimum param model มาแล้วมาเคลมว่าฉลาดกว่ามนุษย์หรอ พวก Gpt-4 นี่ 1.76 trillion param นะครับ ผมพูดถึงการ deploy and run นะครับไม่ใช่ train ถ้า train คือมากกว่านั้นหลายร้อยหลายพันเท่า เอาแค่รัน 70B param ก็ต้องระดับ 4090 แล้วถึงจะเร็วพอทำกิน แถมเผลอๆ precision ไม่เต็มด้วย

ท่านยังไม่เข้าใจเรื่อง Quantization เลยว่าทำไม GPU ถึงย่อลงมาเล็กได้
ตัว 7b เพียงพอต่อการใช้งานแล้ว ถ้ามันใช้งานไม่ได้จริง ใครเขาจะออกแบบกัน
ตัว 70b ย่อลงมา ก็รันบน GPU ได้
หนูมี Source ให้ดูนะคะ
https://huggingface.co/blog/lyogavin/airllm


ต่อมา ChatGPT-4o มันเป็น Multi Expert Model
มันคือ Model หลายๆตัวมาช่วยกันทำ ไม่ใช่ตัวเดียว
ไม่ต้องใช้ data center อะไรทั้งนั้น ไม่มีใครอยากเปิดไฟเล่น
แต่ละตัวก็รันบน GPU แค่ตัวเดียว พอหลายตัวก็เคลมว่าเป็นล้านล้านพารามีเตอร์


ผมไม่รู้ว่าท่านไปเอามาจากไหนนะว่า "พอสอนเสร็จได้โครงของโปรแกรมมา ก็ใช้ model นั้นแหละอันไม่ใหญ่" เพราะความจริงคือ ขนาดของ vram/tpu แปรผันกับขนาด model เสมอยิ่ง

หนูไม่รู้ว่าท่านเคยสร้าง model neural network เองไหม
เรากำหนดเองได้ว่าอยากได้ กี่ชั้น กี่โหนด เก็บข้อมูลขนาดเท่าไหร่
ดังนั้นแล้ว มันจะเป็นไปตามนี้ ขนาดของโมเดลจะไม่เพิ่มหรือลดลง


ทำความเข้าใจสิ่งที่คนอื่นพูดให้ดีก่อนนะครับ  



บอกทีว่าหนูข้อมูลผิดหรือเข้าใจอะไรผิด
themasksocccer พิมพ์ว่า:
MarkZuckerberg พิมพ์ว่า:
โม้จัดๆ ตอนนี้รัน compute power เท่าสมองมนุษย์ก้อนนึงยังต้องใช้ datacenter ใหญ่กว่าสนามฟุตบอล 2-3 สนามอีก

1 หมื่นเท่า 10 ปีผมว่าเป็นไปได้ยากวะ  


ไม่ถึงขนาดนั้นค่ะ
การ์ดจอตัวเดียวก็รันได้แล้ว ผิดตรงไหน
อย่าง llama 3, mistral 7b ก็รันบนการ์ดจอเกมธรรมดาได้ ผิดตรงไหน llama3 mistral 7b ตัวธรรมดาก็เก่งกว่าค่าเฉลี่ยประชากรบนโลก 95% ไปแล้ว
ถ้า quantization ก็รันบนมือถือได้แล้ว ผิดตรงไหน

ทุกวันนี้ที่ใช้เยอะๆคือตอนเทรนข้อมูล ผิดตรงไหน
เพราะแบบจำลองทางภาษาต้องอ่านหนังสือเยอะ ผิดตรงไหน
ยิ่งอ่านเยอะก็รู้เยอะ ตรงนี้ที่ต้องใช้เครื่องใหญ่ในการสอน ผิดตรงไหน

 
 
 

บอกทีว่าหนูข้อมูลผิดหรือเข้าใจอะไรผิด
ผิดตรงที่เข้าใจว่าผมพูดถึง Gen AI มีประโยคไหนผมบอกว่า Gen AI ต้องใช้สนามฟุตบอล 2-3 สนามเพื่อรันหรอครับ? น่าจะแยกไม่ออกระหว่าง AI + Gen AI หรือเปล่าครับ เพราะผมไม่ได้พูดถึง Gen AI เลยในเม้นแรก

จับใจความยังไง หนูพยายามบอกว่าแม้แต่ LLM ยังรันบน GPU ได้แล้วตัวอื่นๆที่เล็กกว่ามันจะรันมากกว่าได้อย่างไร ขอให้คิดแบบมีเหตุผล
เมื่อก่อนมันไม่มีอะไรใหญ่จนกระทั้งการมาของ Large Language Model ซึ่งมันใหญ่กว่าตระกูลอื่น
ดังนั้นแล้วการรัน AI ใดๆก็ตามไม่ต้องใช้ data center ทั้งนั้น


การ์ดจอตัวเดียวก็รันได้แล้ว ผิดตรงไหน
อย่าง llama 3, mistral 7b ก็รันบนการ์ดจอเกมธรรมดาได้ ผิดตรงไหน llama3 mistral 7b ตัวธรรมดาก็เก่งกว่าค่าเฉลี่ยประชากรบนโลก 95% ไปแล้ว

ผิดตรงที่ model ตัวเล็กไม่มีทางฉลาดกว่ามนุษย์ได้ครับ ยิ่ง quatization ยิ่ง precision ต่ำยิ่งเป็นไปไม่ได้ที่จะฉลาดกว่ามนุษย์ครับ

แสดงว่าคุณไม่ได้เรียน หรือไม่เคยเขียน AI มาเลยคุณจึงไม่เข้าใจเรื่อง หลักการคิดของ AI ตั้งแต่ต้น
Model ใหญ่ ย่อให้เล็ก เท่า Model เล็ก สมมติ 70b > 7b โมเดลใหญ่ย่อเล็กฉลากกว่า อ่านได้จากตรงนี้


เพราะการเข้าใจภาษาเป็นเรื่องทางสถิติ เจอคำต่างๆ(แปลงคำเป็นตัวเลขหนึ่ง)บ่อยยิ่งเข้าใจ ย่อแล้วไม่ได้ทำให้สถิติเปลี่ยนไป
คุณบอกว่าเป็นไปไม่ได้ แต่เขาทำ Benchmark กันมาหมดแล้วว่าสอบได้สูงกว่ามนุษย์ อ่านต่อจากตรงนี้

วิธีการทดสอบคือ แยกชุดสอน กับสอบออก ชุดสอบต้องไม่เคยอ่านมาก่อน
พวกนี้อยู่ในระเบียบวิถีวิจัย ถ้าสงสัยให้หาหลักฐานมาแย้งค่ะ

หากอยากให้มันทำอะไรให้แม่นยำขึ้นให้สกัดข้อมูล คุณลักษณะของข้อมูลออกมาแล้วไปเข้า Model อื่นๆที่เก่งเรื่องการคำนวนต่อไป คุณก็จะได้ความแม่นยำ




ทุกวันนี้ที่ใช้เยอะๆคือตอนเทรนข้อมูล ผิดตรงไหน
เพราะแบบจำลองทางภาษาต้องอ่านหนังสือเยอะ ผิดตรงไหน
ยิ่งอ่านเยอะก็รู้เยอะ ตรงนี้ที่ต้องใช้เครื่องใหญ่ในการสอน ผิดตรงไหน

ไม่ผิดครับ และผมไม่เคยบอกว่าผิด

แต่สิ่งที่น่าจะเข้าใจผิดคือ model มีโอกาสจะฉลาดกว่ามนุษย์จริงๆไม่มีทางขนาดแค่ 7B หรือรัน quantize 8bit 16bit แน่นอน ต้องรันเต็มประสิทธิภาพถึงจะมีโอกาส ยกตัวอย่างเช่น model ที่ advance ที่สุดตัวหนึ่งของโลก gpt-4, Gemini 1.5 pro ตอนนี้ก็ไปถึง 1.7 Trillion param แล้วครับถึงฉลาดขนาดนั้นได้

เขาใช้จริงกันไปหมดแล้ว ถ้าเคยทำ Model จะต้องรู้ว่าต้องลดการกินไฟและการใช้ทรัพยากรลงเรื่อยๆ ขนาดเขียนโปรแกรมยังต้องรู้จักทำ Mocri service เขียน AI ก็ต้องทำ multimodal แยกเป็นเปลาย expert

มี expert model 70b quantize4bit 1 ตัว หรือ n ตัวก็ใช้ memory เท่า 1 ตัว เพราะมันทำงานทีละตัว ไม่ต้องเปิดไฟสแตนบายรอคำสั่ง

อย่าไปหลงว่า Open AI ใช้ general model 1 ตัวทำทุกอย่าง จริงๆมันคือหลายตัวช่วยกันทำค่ะ บอก 100b จริงๆอาจจะ 10b 10 ตัวก็ได้ค่ะ

คิดแบบลูกทุ่งได้เลยค่ะ 1.7 Trillion parameters ต้องกาง Ram 3tb หรือ nvdia h200 22 ตัวเพื่อทำงานเลยหรอ ถ้าใช่เจ๊งแน่นอนค่ะ ตอบคำถามโง่ๆ ไม่ต้องใช้หน่วยความจำขนาดนั้น

เขาจะมี model ตัวเล็กมาจำแนกก่อนว่าจะส่งไปที่ไหนให้ทำงานต่อ
ตัวที่รับงานมาทำต่ออาจจะไม่ใหญ่มากแต่เฉพาะทาง ทำงานก็กาง ram แค่พอดีงาน
เปิดไฟใช้งานแค่ 1 ตัว จบ



 


 

จับใจความยังไง หนูพยายามบอกว่าแม้แต่ LLM ยังรันบน GPU ได้แล้วตัวอื่นๆที่เล็กกว่ามันจะรันมากกว่าได้อย่างไร ขอให้คิดแบบมีเหตุผล
เมื่อก่อนมันไม่มีอะไรใหญ่จนกระทั้งการมาของ Large Language Model ซึ่งมันใหญ่กว่าตระกูลอื่น
ดังนั้นแล้วการรัน AI ใดๆก็ตามไม่ต้องใช้ data center ทั้งนั้น

อืมผมว่าคุณน่าจะยังไม่เข้าใจว่า model ที่ฉลาดพอๆหรือมากกว่ามนุษย์มันต้องใหญ่ขนาดไหน คุณยังติดภาพ 7B param อยู่ อธิบายยังไงก้ไม่เห็นภาพสักที ผมท้อละ ในเมื่อคุณยังคิดว่า 7B param ฉลาดกว่ามนุษย์ผมก็คงต้องปล่อยคุณไป

แสดงว่าคุณไม่ได้เรียน หรือไม่เคยเขียน AI มาเลยคุณจึงไม่เข้าใจเรื่อง หลักการคิดของ AI ตั้งแต่ต้น
Model ใหญ่ ย่อให้เล็ก เท่า Model เล็ก สมมติ 70b > 7b โมเดลใหญ่ย่อเล็กฉลากกว่า

ผมว่าคุณไม่เข้าใจมากกว่าว่าย่อ quantization คืออะไรแล้วมันต้อง sacrifice อะไรบ้างเพื่อ quantize ยิ่ง quantize ยิ่งใช้ input bit ของ paramter น้อยลงยกตัวอย่างเช่น 32 bit เป็น 16 bit แปลว่า precision มันก็จะน้อยลงมันเหมือน significant figure ของเลขอะ 12.2345 กับ 12.23 อันไหน precise กว่าครับ? Basic computer science มันก็หมายความว่าไอ่เวอร์ชั่นที่ quantize ลงมาก็ฉลาดน้อยลงไปอีกไงครับ แล้วมันจะเก่งกว่ามนุษย์ได้ยังไงในเมื่อเวอร์ชั่น 32bit เต็มๆมันยังสู้มนุษย์ไม่ได้เลย

ถ้าคุณอยากจะพิศูจน์คุณอัดหน้าจอตอนที่คุณรัน GPT-4 model บนเครื่องตัวเองให้ผมดูครับแล้วผมจะเชื่อ ไม่เอาพวกตัวเล็กกระจอกๆนะ เอาของแทร้เต็มประสิทธิภาพฉลาดที่สุด

ที่สุดแล้วถ้าคุณยังคิดว่า quantize แล้วมันฉลาดเท่าเดิม คิดง่ายๆทำไมไม่ quantize เหลือ 1 bit แม่มเลยแล้วรันบร arduino ทำไม apple intelligence ยังต้องแบ่ง process Local กับ cloud ทำไม Microsoft laptop อันใหม่ต้องสร้าง model ตัวเล็กมาทำ local proessing บาง task เท่านั้น นอกนั้นยังใช้ cloud

ถ้ามัน lalaland ขนาดนั้น Nvidia คงขายไม่ออก Blackwell ไม่เกิด

แก้ไขล่าสุดโดย MarkZuckerberg เมื่อ Tue Jun 25, 2024 15:19, ทั้งหมด 3 ครั้ง
0
0
หากโดน 40 เรื้อน จะถูกแบน
ออฟไลน์
นักบอล ดิวิชั่น 1
Status:
: 0 ใบ : 0 ใบ
เข้าร่วม: 11 Feb 2017
ตอบ: 1201
ที่อยู่:
โพสเมื่อ: Tue Jun 25, 2024 15:28
[RE: AIที่ฉลาดกว่าคน10,000เท่าจะเกิดใน10ปี]
MarkZuckerberg พิมพ์ว่า:
themasksocccer พิมพ์ว่า:
MarkZuckerberg พิมพ์ว่า:
Spoil
themasksocccer พิมพ์ว่า:
MarkZuckerberg พิมพ์ว่า:
themasksocccer พิมพ์ว่า:
MarkZuckerberg พิมพ์ว่า:
themasksocccer พิมพ์ว่า:
MarkZuckerberg พิมพ์ว่า:
Spoil
themasksocccer พิมพ์ว่า:
MarkZuckerberg พิมพ์ว่า:
themasksocccer พิมพ์ว่า:
MarkZuckerberg พิมพ์ว่า:
themasksocccer พิมพ์ว่า:
MarkZuckerberg พิมพ์ว่า:
โม้จัดๆ ตอนนี้รัน compute power เท่าสมองมนุษย์ก้อนนึงยังต้องใช้ datacenter ใหญ่กว่าสนามฟุตบอล 2-3 สนามอีก

1 หมื่นเท่า 10 ปีผมว่าเป็นไปได้ยากวะ  


ไม่ถึงขนาดนั้นค่ะ
การ์ดจอตัวเดียวก็รันได้แล้ว
อย่าง llama 3, mistral 7b ก็รันบนการ์ดจอเกมธรรมดาได้
ถ้า quantization ก็รันบนมือถือได้แล้ว

ทุกวันนี้ที่ใช้เยอะๆคือตอนเทรนข้อมูล
เพราะแบบจำลองทางภาษาต้องอ่านหนังสือเยอะ
ยิ่งอ่านเยอะก็รู้เยอะ ตรงนี้ที่ต้องใช้เครื่องใหญ่ในการสอน

 

ผมว่าท่านเข้าใจผิดนะตรงนี้ 2 ประเด็น

1.Generative AI ไม่ใช่ AGI มันเป็นเชิง machine learning ในการเติมคำช่องว่างมากกว่า มันไม่ได้มีสัมปัญชัญยะเป็นของตัวเอง มันไม่ได้มีความเข้าใจเนื้อหาหรืออะไรจริงๆเลย เราแค่นำคำตอบที่มีอยู่แล้วมาเทรน model เพราะฉะนั้นมันไม่สามารถฉลาดขึ้นเองได้หรือคิดวิเคราะห์ได้ด้วยตัวเองมันจึงยากที่จะฉลาดกว่ามนุษย์ 10000 เท่าหรือแม้แต่ฉลาดเท่ามนุษย์ด้วยซ้ำ แต่ AGI เหมือนมนุษย์จริงๆคือมันสามารถทำความเข้าใจเรื่องต่างๆและเรียนรู้ฉลาดขึ้นด้วยตัวเอง คิดอะไรใหม่ๆขึ้นมาด้วยตัวเองโดยไม่ต้องมีข้อมูลป้อนให้เข้าไปแบบ Generative AI



2.Model ขนาดใหญ่เบิ้มแบบที่ GPT-4o Llama3 Gemini 1.5 ใช้นั้นไม่สามารถรันบนการ์ดจอตัวเดียวได้ครับ ที่จริงไม่สามารถรันบรการ์ดจอเล่นเกมส์ได้ด้วยซ้ำแม้แต่ 4090 ก็ตาม โมเดลขนาดใหญ่เป็น 10billion trillon token ต้องรันบนพวก H100 H200 ที่พึ่งออกใหม่นู้นเลยครับ

ถ้าเป็นการ์ดจอ high end แบบ 4090 อาจจะพอรันโมเดลตัวเล็กได้อย่างพวก Gemini Flash, Llama 3 ตัวเล็ก (token น้อย) แต่model เล็กๆได้แค่เรื่อง speed กับประหยัดการคำนวณเฉยๆ แต่มันทำ task ฉลาดๆเท่า model ตัวใหญ่ไม่ได้ ตัดออกไปได้เลยความเป็นไปได้ในอีก 10 ปีที่จะรัน model ตัวใหญ่บนมือถือ smart phone อย่างตัว Apple Intelligence ก็รัน model ตัวติ๊ดเดียวบนเครื่องเพื่องานบางอย่างที่ง่ายๆส่วนงาน complex ยากๆก็ส่งขึ้นประมวลผลบน private datacenter เหมือนเดิม  


หนูไม่ได้เข้าใจอะไรผิดหรอกค่ะ โทษทีไม่ได้กลับมาตอบทันที
อย่าง llm เป็นแบบจำลองทางภาษาที่ใช้หลักการความน่าจะเป็นและสถิติมาตอบ
หากเอาการตอบอย่างมีเหตุผลตรรกะมันจะผิด เพราะเบื้องหลังคือสถิติ

แต่เราสามารถเอาแบบจำลองอื่นๆมาร่วมด้วยได้เช่นพวก Machnine Learning ทั่วไปนี้แหละมีเหตุผลมากๆ และตัวเล็กสุดๆด้วย เพราะพื้นฐานมาจากหลักคณิตศาสตร์ คิดคำนวน

เราสามารถใช้ llm ทำการ Extract feature หรือ Extract information ออกมา แล้วโยนเข้า ML เพื่อทำการคำนวนต่อได้

อย่า GPT-4o ทำไมจะรันใน GPU ตัวเดียวไม่ได้ เขาแค่ไม่เปิดโครงสร้างให้เราดู
OpenAI ใช้ Expert Model หมายถึง ลดความรู้ให้เหลือเฉพาะด้าน ไม่ต้องอ่านหนังสือทั้งหมด โมเดลจะเล็กลง ทำงานได้ไวขึ้น สำหรับการให้บริการ OpenAI ก็เปิดให้มี Expert หลายๆตัว แต่หน้ากากเราไม่รู้ว่าเรากำลังคุยกับตัวไหน

ที่บอกว่า llama 3 รันบน GPU ไม่ได้ก็ไม่ถูกแล้วค่ะ

https://ollama.com/library/llama3
modelarch
llama
·
parameters
8.03B
·
quantization
Q4_0 = 4.7GB

รันบน 4070 ก็ได้

อย่างที่บอกว่าใช้ทรัพยากรเยอะสุดตอนเทรน คือต้องการหนังสือมาให้มันอ่านเยอะที่สุดจึงจำเป็นต้องใช้หน่วยความจำเยอะที่สุดเท่าที่อยากให้มันเรียนรู้ จะกี่พันล้าน แสนล้านคำก็ตาม

สุดท้ายโมเดลจะอยู่ในโครงสร้างเครือข่ายประสาทเทียมที่เตรียมไว้แล้ว ว่าจะเป็นโครงไหน แบบจำลองจะไม่ใหญ่ไปกว่าที่เขาออกแบบไว้ให้ไม่ใหญ่แค่ไหน เพราะถ้าไม่กำหนดขนาดของแบบจำลองไว้ คอมพิวเตอร์ทุกเครื่องคงพังก่อนได้ใช้งาน

เวลาเขียนโปรแกรมยังต้องประกาศตัวแปล และขนาดของตัวแปล เช่นเดียวกันกับ สถาปัตยกรรมของเอไอ ต้องประกาศชั้น โหนดของโครงข่ายประสาทเทียมไว้ แต่ละโหนด เรียกรวมๆกันว่า parameter ซึ่งเก็บค่าน้ำหนักและค่าความเอนเอียงไว้

เช่น llama 3 8b หมายถึงมี 8พันล้านกิ่งตัดสินใจ ทำ quantization 4bit แต่ละกิ่งเก็บค่าข้อมูลตัวเลข 4 bit 2 ตัวแปล เป็น 8bit ก็เท่ากับ 8Gbyte ตอนรัน

สรุปว่า Model สามารถย่อได้ สามารถสกัดข้อมูลออกมา และสามารถคำนวนได้ค่ะ
งานวิจัยพวกนี้ทำมานานแล้ว ที่เราเห็นเขาทำเล่นใหญ่เพราะเขามีคนที่ต้องให้บริการมาก ไม่ได้ใช้งานคนเดียว

 

1.llma 3 มันมีหลายเวอร์ชั่นไอ่ตัวเล็กๆรันได้ใน high end gaming card อย่างที่ผมบอกไปไงแต่มันรัน model ตัวใหญ่ไม่ได้ แถมถึงรันได้ performance ก็ช้ากว่าใช้พวก H100 H200 ไม่ทันกินหรอกครับไม่ใช่ว่าแค่ vram ถึงแล้วจะเอามาใช้งาน production grade ได้นะครับ 4070 cuda core 5พันกว่า tensor 180 เอง H200 x4 เข้าไปเลยครับ ยิ่งเวอร์ชั่นรันบน smart phone คือ model เล็กมากๆๆ ใช้ process พวก task ง่ายๆเท่านั้น ไม่ใกล้เคียงกับคำว่าฉลาด
- ทำได้ด้วยการ Quantization ลดจุดทศนิยมในการคิดลงจาก 16bit เหลือ 4bit โมเดลจะลดลงไปเยอะ
หนูทำใช้งานจริงมาแล้ว 70b quantize4 สมมติคิดเลข 1.1234567890123456 กับ 1.1234 ค่าไม่ต่างกันมาก แต่กิน memory ต่างกันมาก ความผิดพลาดมีได้แต่ไม่ใช่แบบคนละเรื่องกัน

https://www.reddit.com/r/LocalLLaMA/comments/1cj4det/llama_3_70b_instruct_works_surprisingly_well_on/

2.ที่ผมบอกใช้ data center เท่า 2-3 สนามฟุตบอลคือจำลอง processing power ของสมองคนจริงๆครับ (ตอนนี้มีพวก black well แล้วอาจจะไม่ได้ใหญ่เท่า 2-3 สนามแต่ก็ใหญ่อยู่ดี) ซึ่ง processing power สมองคนเรามันไม่ใช่แค่การเติมคำในช่องว่างเหมือน Gen AI ไงครับ มันซับซ้อนกว่านั้นเยอะมากๆ

อย่างที่บอกว่า llm เบื้องหลังคือหลักสถิติมันคำนวนไม่ได้
แต่สามารถใช้สกัดข้อมูลออกมาได้ ดังนั้นไม่ใช่แค่เติมคำ
ต่อมานำข้อมูลที่ได้ โยนเข้า Machine Learning ธรรมดาที่ใช้ทรัพยากรเครื่องน้อย เอาง่ายๆเครื่องคิดเลขไม่ได้กินทรัพยากรเครื่อง


3.อย่างที่ผมบอกว่า Gen AI ผมไม่เห็นว่าจะเอามาฉลาดกว่ามนุษย์ได้เพราะมันถูก feed ข้อมูลที่มนุษย์คิดมาก่อนอยู่แล้วเข้าไป อย่างมากมันก็แค่ใช้ข้อมูลพวกนั้นเพื่อให้คำตอบที่ใกล้เคียงที่สุด ไม่ใช่เพราะมันรู้และเข้าใจคำตอบได้จริงๆ แต่อย่างที่คุณบอกมันเป็นเชิง stat มากกว่า ซึ่งถ้า AI จะฉลาดกว่ามนุษย์ได้ต้องไม่ใช่แค่เติมคำในช่องว่างจากสถิติ มันต้องสามารถเรียนรุ้เองได้ คิดอะไรใหม่ๆเองได้

AI ไม่ได้เก่งกว่าคนที่คิดค้น AI
แต่เก่งกว่าคนทั่วไปที่ไม่ได้คิด AI และมีส่วนมากของประชากรโลกค่ะ
แต่ AI ก็มีหลากหลายตัวช่วยกันทำงานได้ อย่า chatgpt มันทำงานเบื้องหลังอยู่หลายตัว ไม่ใช่แค่ model ภาษาอย่างเดียวค่ะ


 
 
 

เท่าที่ผมอ่านผมว่าเราก็เข้าใจอะไรคล้ายๆกันนะ แต่ผมว่าประเด็นที่่เราเห็นไม่ตรงกันไปคือท่านน่าจะ underesitmate ความสามารถของสมองมุนษย์เกินไป  


ขออภัยนะคะ ตั้งแต่หัวกระทู้ไม่มีการยก Generative AI ขึ้นมา และหนูก็ไม่ได้พูดถึงเฉพาะ Gen AI เพราะการทำงานเบื้องหลังสามารถมีหลายตัวช่วยกันอยู่ได้ แต่หนูขอยืนยันว่ารัน AI ไม่ต้องใช้เครื่องใหญ่ ที่ใหญ่คือตอนเทรนค่ะ

หนูก็อ้างอิงจากข้อมูลที่เผยแพร่ อย่างโมเดลที่ทำโดยคนไทย ยังเก่งกว่าเด็กไทยไปแล้วเลยค่ะ โมเดล 7b เองนะคะ รันบนการ์ดจอได้ ดังนั้นหนูจึงยืนยันว่า ไม่ต้องใช้ data center สำหรับทำงานให้ได้เท่ามนุษย์
 

นั่นแหละคือสิ่งที่เราเห็นไม่ตรงกันครับ คุณใช้การทำข้อสอบที่มีคำตอบ fix อยู่แล้วมา benchmark ความฉลาด ส่วนผมสมองว่าการ benchmark โดยของพวกนั้นไม่มีประโยชน์เลยไม่ได้วัดความฉลาด เหมือนคุณจำคำตอบไว้อยู่แล้ว แต่จริงๆแล้วตัว Model มันไม่ได้เข้าใจคำถามจริงๆ มันรู้ว่านี่คือคำตอบที่น่าจะเป็นเฉยๆ ผมไม่เรียกนี่ว่าฉลาด

คุณบอกไม่ได้เจาะจง Gen AI แต่สิ่งที่คุณเอามาเถียงผมเรื่องขนาด data center เป็นการรัน model Gen AI ทั้งนั้น ผมงง ซึ่งผมก็บอกไว้แล้วถ้าพูดถึง Gen AI ยิ่ง model เล็กยิ่งความสามารถน้อยและเจาะจงมากยิ่งขึ้น ถึงรันบนร smar phone ได้มันก็ไม่ฉลาดกว่ามนุษย์ ตรงนี้คงไม่ต้องเถียงกันแล้ว ต่ให้ Gen AI ฉลาดกว่ามนุษย์ได้จริงๆต้องเป็น model ใหญ่มากๆ ไม่ก็ใช้หลายตัวมากๆๆๆๆๆๆๆๆๆๆๆๆๆๆๆๆ

ผมว่าผมพูดจัดเจนแล้วนะว่าเวลาผมพูดถึง AI ที่ฉลาดกว่ามนุษย์ผมพูดถึงต้องเป็น AGI ไม่ใช่ Gen AI ด้วยเหตุผลหลายๆอย่างที่ผมอธิบายไปแล้วข้างบนว่าทำไม Gen AI ถึงจะไม่สามารถฉลาดกว่ามนุษย์ได้  


AGI มันไม่มีจริงๆไงคะ แต่ไม่ได้หมายความว่ามันไม่ได้ฉลาดจริง
ความจริงคือ Multimodal AI คือมันทำงานร่วมกันต่อเนื่องกัน
เหมือนการเขียนโปรแกรมทั่วไปที่มีการไหลของข้อมูลไปทีละลำดับขั้นตอน
แต่การเขียนโปรแกรมนี้มนุษย์ไม่ได้เขียนเอง

เป็น AI มาเขียนว่า ข้อมูลแบบไหน ต้องใช้ Model ไหนตอบ
ได้ข้อมูลมาก็ไหล ไป Model อื่นๆ ไปจนกระทั้งได้ผลลัพธ์ออกไป

ไม่นับเรื่องการสร้างสรรค์หรืองานวิจัย AI มันสามารถคิดเล็กคิดน้อยได้ทั้งหมดที่คนไม่สนใจจนเกิดเป็นข้อมูล Insight ได้ ซึ่งคนต้องใช้เวลามากกว่ามันหลายพันหรือหลายล้านเท่ากว่าจะหาได้

ยืนยันคำเติมค่ะว่า AI ไม่ต้องรันบน data center ไม่ต้องเชื่อก็ได้ค่ะ
Generative AI มันตั้งอยู่บน LLM ซึ่งมันมีขนาดใหญ่ และใหญ่ที่สุดแล้ว
Model รูปภาพ การจำแนก การรู้จำ ต่างๆไม่ได้ใช้ทรัพยากรเยอะขนาดนั้น สามารถทำงานบน cpu ได้ด้วย อย่างระบบบัตรจอดรถตามห้างไม่ต้องใช้ถึง PC เอาแค่ arduino board ก็ติดตั้งใช้งานได้แล้ว AI อ่านป้ายทะเบียนไม่ต้องถึงกับรันอยู่บน data center แน่ๆ

หนูไม่รู้หรอกนะว่าทำไมคุณถึงติดภาพว่าต้องใช้คอมพิวเตอร์ขนาดใหญ่เท่านั้นในการรัน ซึ่งมันคือโครงส้รางโปรแกรมอันหนึ่งเท่านั้น จะทำใหญ่เล็กก็ได้ เพื่อการคำนวนก็ใช้ hardware มาช่วย

สรุปนะคะ ถ้าไม่เชื่อรบกวนหาข้อมูลมาแปะก็ได้คะว่าทำบน Local PC ไม่ได้เพราะเหตุผลอะไร
เพราะหนูยืนยันคำเดิมว่าแม้แต่ LLM ก็รันบน GPU ได้ แต่ถ้าทำ Quantization แล้วจะลงไปอยู่บนมือถือได้ แต่ถ้ายังยืนยันว่าแค่ Generative AI ต้องรันบน data center เท่านั้นรบกวนแสดงข้อมูลให้ทีค่ะ

สมัยก่อนยังไม่มี llm ก็รันบนเครื่องธรรมดากันได้หมด
พอ llm มามันแค่บริโภคข้อมูลเยอะก็เลยต้องใช้เครื่องจำนวนเยอะสอน
พอสอนเสร็จได้โครงของโปรแกรมมา ก็ใช้ model นั้นแหละอันไม่ใหญ่

อันนี้หนูแปะของฝรั่ง หนูชี้ไปด้วยข้อมูลเป็น ตัวเลขให้แล้วก่อนหน้านี้ว่าสามารถคำนวนได้ ไม่ใช่เอะอะยัด data center
https://www.reddit.com/r/LocalLLaMA/comments/1cj4det/llama_3_70b_instruct_works_surprisingly_well_on/

หนูขอแปะของไทย



 

หลงประเด็นละครับ

ผมบอกตอนไหนหรอว่ารัน model บนเครื่อง PC ไมได้ ผมบอกว่ามันรัน model ตัวใหญ่ที่จะฉลาดกว่ามนุษย์ไม่ได้ ผมก็บอกอยู่ตัวเล็กรันได้ แต่ตัวเล็กมันไม่ได้ฉลาดกว่ามนุษย์

1.ประเด็น AGI ผมผมเคลียไปแล้วนะ ว่าถ้าคุณยังเชื่อว่า Gen AI สามารถฉลาดกว่ามนุษย์ได้ก็จบแล้วไม่ต้องคุยต่อ สำหรับผม AGI เท่านั้นที่มีโอกาสฉลาดกว่ามนุษย์จริงๆ

AGI ไม่มีจริง ถ้ามีมันไม่เรียก Artificial ค่ะ ปัจจุบันเป็นแค่นิยามของมนุษย์สายศิลป์
AI ปัจจุบันมันคือคนประดิษฐ์ทั้งหมด ดังนั้นแล้วการมีอยู่ของมันคือการสอนจากมนุษย์ มนุษย์คือผู้สอน


2.ประเด็น Data Center ผมไม่เคยพูดเลยว่าต้องเอา Datacenter มารัน Gen AI บ้าหรือเปล่า ผมบอกว่าจะ simulate processing power ของสมองมนุษย์ (ไม่ใช่ Gen AI ย้ำอีกครั้งนะ ) ต้องใช้ datacenter ขนาด 2-3 สนามฟุตบอล ซึ่งตรงนี้คุณไม่เข้าใจไง เพราะคุณเอะอะอะไรก็ gen AI gen AI model model เอ้ออ

ตั้งแต่เดิมหนูก็ไม่เคยพูด Gen AI คุณเป็นคนเริ่ม แต่หนูยกตัวอย่างให้เห็นว่า
แม้แต่ LLM mี่ว่าใหญ่ยังตั้งอยู่บน GPU ได้ ดังนั้นแล้วอะไรที่เล็กกว่าก็รันได้



3.ก็ยังจะยัดเยียดให้ผมผิดให้ได้ ไอ่ thai gpt ที่คุณส่งมาหน่ะศึกษาหรือยังว่ามันกี่ param ความสามารถขนาดไหน ผมไปดูให้ละ llama 7billion param โถสภาพพพพพพ ไปเอา bare minimum param model มาแล้วมาเคลมว่าฉลาดกว่ามนุษย์หรอ พวก Gpt-4 นี่ 1.76 trillion param นะครับ ผมพูดถึงการ deploy and run นะครับไม่ใช่ train ถ้า train คือมากกว่านั้นหลายร้อยหลายพันเท่า เอาแค่รัน 70B param ก็ต้องระดับ 4090 แล้วถึงจะเร็วพอทำกิน แถมเผลอๆ precision ไม่เต็มด้วย

ท่านยังไม่เข้าใจเรื่อง Quantization เลยว่าทำไม GPU ถึงย่อลงมาเล็กได้
ตัว 7b เพียงพอต่อการใช้งานแล้ว ถ้ามันใช้งานไม่ได้จริง ใครเขาจะออกแบบกัน
ตัว 70b ย่อลงมา ก็รันบน GPU ได้
หนูมี Source ให้ดูนะคะ
https://huggingface.co/blog/lyogavin/airllm


ต่อมา ChatGPT-4o มันเป็น Multi Expert Model
มันคือ Model หลายๆตัวมาช่วยกันทำ ไม่ใช่ตัวเดียว
ไม่ต้องใช้ data center อะไรทั้งนั้น ไม่มีใครอยากเปิดไฟเล่น
แต่ละตัวก็รันบน GPU แค่ตัวเดียว พอหลายตัวก็เคลมว่าเป็นล้านล้านพารามีเตอร์


ผมไม่รู้ว่าท่านไปเอามาจากไหนนะว่า "พอสอนเสร็จได้โครงของโปรแกรมมา ก็ใช้ model นั้นแหละอันไม่ใหญ่" เพราะความจริงคือ ขนาดของ vram/tpu แปรผันกับขนาด model เสมอยิ่ง

หนูไม่รู้ว่าท่านเคยสร้าง model neural network เองไหม
เรากำหนดเองได้ว่าอยากได้ กี่ชั้น กี่โหนด เก็บข้อมูลขนาดเท่าไหร่
ดังนั้นแล้ว มันจะเป็นไปตามนี้ ขนาดของโมเดลจะไม่เพิ่มหรือลดลง


ทำความเข้าใจสิ่งที่คนอื่นพูดให้ดีก่อนนะครับ  



บอกทีว่าหนูข้อมูลผิดหรือเข้าใจอะไรผิด
themasksocccer พิมพ์ว่า:
MarkZuckerberg พิมพ์ว่า:
โม้จัดๆ ตอนนี้รัน compute power เท่าสมองมนุษย์ก้อนนึงยังต้องใช้ datacenter ใหญ่กว่าสนามฟุตบอล 2-3 สนามอีก

1 หมื่นเท่า 10 ปีผมว่าเป็นไปได้ยากวะ  


ไม่ถึงขนาดนั้นค่ะ
การ์ดจอตัวเดียวก็รันได้แล้ว ผิดตรงไหน
อย่าง llama 3, mistral 7b ก็รันบนการ์ดจอเกมธรรมดาได้ ผิดตรงไหน llama3 mistral 7b ตัวธรรมดาก็เก่งกว่าค่าเฉลี่ยประชากรบนโลก 95% ไปแล้ว
ถ้า quantization ก็รันบนมือถือได้แล้ว ผิดตรงไหน

ทุกวันนี้ที่ใช้เยอะๆคือตอนเทรนข้อมูล ผิดตรงไหน
เพราะแบบจำลองทางภาษาต้องอ่านหนังสือเยอะ ผิดตรงไหน
ยิ่งอ่านเยอะก็รู้เยอะ ตรงนี้ที่ต้องใช้เครื่องใหญ่ในการสอน ผิดตรงไหน

 
 
 

บอกทีว่าหนูข้อมูลผิดหรือเข้าใจอะไรผิด
ผิดตรงที่เข้าใจว่าผมพูดถึง Gen AI มีประโยคไหนผมบอกว่า Gen AI ต้องใช้สนามฟุตบอล 2-3 สนามเพื่อรันหรอครับ? น่าจะแยกไม่ออกระหว่าง AI + Gen AI หรือเปล่าครับ เพราะผมไม่ได้พูดถึง Gen AI เลยในเม้นแรก

จับใจความยังไง หนูพยายามบอกว่าแม้แต่ LLM ยังรันบน GPU ได้แล้วตัวอื่นๆที่เล็กกว่ามันจะรันมากกว่าได้อย่างไร ขอให้คิดแบบมีเหตุผล
เมื่อก่อนมันไม่มีอะไรใหญ่จนกระทั้งการมาของ Large Language Model ซึ่งมันใหญ่กว่าตระกูลอื่น
ดังนั้นแล้วการรัน AI ใดๆก็ตามไม่ต้องใช้ data center ทั้งนั้น


การ์ดจอตัวเดียวก็รันได้แล้ว ผิดตรงไหน
อย่าง llama 3, mistral 7b ก็รันบนการ์ดจอเกมธรรมดาได้ ผิดตรงไหน llama3 mistral 7b ตัวธรรมดาก็เก่งกว่าค่าเฉลี่ยประชากรบนโลก 95% ไปแล้ว

ผิดตรงที่ model ตัวเล็กไม่มีทางฉลาดกว่ามนุษย์ได้ครับ ยิ่ง quatization ยิ่ง precision ต่ำยิ่งเป็นไปไม่ได้ที่จะฉลาดกว่ามนุษย์ครับ

แสดงว่าคุณไม่ได้เรียน หรือไม่เคยเขียน AI มาเลยคุณจึงไม่เข้าใจเรื่อง หลักการคิดของ AI ตั้งแต่ต้น
Model ใหญ่ ย่อให้เล็ก เท่า Model เล็ก สมมติ 70b > 7b โมเดลใหญ่ย่อเล็กฉลากกว่า อ่านได้จากตรงนี้


เพราะการเข้าใจภาษาเป็นเรื่องทางสถิติ เจอคำต่างๆ(แปลงคำเป็นตัวเลขหนึ่ง)บ่อยยิ่งเข้าใจ ย่อแล้วไม่ได้ทำให้สถิติเปลี่ยนไป
คุณบอกว่าเป็นไปไม่ได้ แต่เขาทำ Benchmark กันมาหมดแล้วว่าสอบได้สูงกว่ามนุษย์ อ่านต่อจากตรงนี้

วิธีการทดสอบคือ แยกชุดสอน กับสอบออก ชุดสอบต้องไม่เคยอ่านมาก่อน
พวกนี้อยู่ในระเบียบวิถีวิจัย ถ้าสงสัยให้หาหลักฐานมาแย้งค่ะ

หากอยากให้มันทำอะไรให้แม่นยำขึ้นให้สกัดข้อมูล คุณลักษณะของข้อมูลออกมาแล้วไปเข้า Model อื่นๆที่เก่งเรื่องการคำนวนต่อไป คุณก็จะได้ความแม่นยำ




ทุกวันนี้ที่ใช้เยอะๆคือตอนเทรนข้อมูล ผิดตรงไหน
เพราะแบบจำลองทางภาษาต้องอ่านหนังสือเยอะ ผิดตรงไหน
ยิ่งอ่านเยอะก็รู้เยอะ ตรงนี้ที่ต้องใช้เครื่องใหญ่ในการสอน ผิดตรงไหน

ไม่ผิดครับ และผมไม่เคยบอกว่าผิด

แต่สิ่งที่น่าจะเข้าใจผิดคือ model มีโอกาสจะฉลาดกว่ามนุษย์จริงๆไม่มีทางขนาดแค่ 7B หรือรัน quantize 8bit 16bit แน่นอน ต้องรันเต็มประสิทธิภาพถึงจะมีโอกาส ยกตัวอย่างเช่น model ที่ advance ที่สุดตัวหนึ่งของโลก gpt-4, Gemini 1.5 pro ตอนนี้ก็ไปถึง 1.7 Trillion param แล้วครับถึงฉลาดขนาดนั้นได้

เขาใช้จริงกันไปหมดแล้ว ถ้าเคยทำ Model จะต้องรู้ว่าต้องลดการกินไฟและการใช้ทรัพยากรลงเรื่อยๆ ขนาดเขียนโปรแกรมยังต้องรู้จักทำ Mocri service เขียน AI ก็ต้องทำ multimodal แยกเป็นเปลาย expert

มี expert model 70b quantize4bit 1 ตัว หรือ n ตัวก็ใช้ memory เท่า 1 ตัว เพราะมันทำงานทีละตัว ไม่ต้องเปิดไฟสแตนบายรอคำสั่ง

อย่าไปหลงว่า Open AI ใช้ general model 1 ตัวทำทุกอย่าง จริงๆมันคือหลายตัวช่วยกันทำค่ะ บอก 100b จริงๆอาจจะ 10b 10 ตัวก็ได้ค่ะ

คิดแบบลูกทุ่งได้เลยค่ะ 1.7 Trillion parameters ต้องกาง Ram 3tb หรือ nvdia h200 22 ตัวเพื่อทำงานเลยหรอ ถ้าใช่เจ๊งแน่นอนค่ะ ตอบคำถามโง่ๆ ไม่ต้องใช้หน่วยความจำขนาดนั้น

เขาจะมี model ตัวเล็กมาจำแนกก่อนว่าจะส่งไปที่ไหนให้ทำงานต่อ
ตัวที่รับงานมาทำต่ออาจจะไม่ใหญ่มากแต่เฉพาะทาง ทำงานก็กาง ram แค่พอดีงาน
เปิดไฟใช้งานแค่ 1 ตัว จบ



 


 

จับใจความยังไง หนูพยายามบอกว่าแม้แต่ LLM ยังรันบน GPU ได้แล้วตัวอื่นๆที่เล็กกว่ามันจะรันมากกว่าได้อย่างไร ขอให้คิดแบบมีเหตุผล
เมื่อก่อนมันไม่มีอะไรใหญ่จนกระทั้งการมาของ Large Language Model ซึ่งมันใหญ่กว่าตระกูลอื่น
ดังนั้นแล้วการรัน AI ใดๆก็ตามไม่ต้องใช้ data center ทั้งนั้น

อืมผมว่าคุณน่าจะยังไม่เข้าใจว่า model ที่ฉลาดพอๆหรือมากกว่ามนุษย์มันต้องใหญ่ขนาดไหน คุณยังติดภาพ 7B param อยู่ อธิบายยังไงก้ไม่เห็นภาพสักที ผมท้อละ ในเมื่อคุณยังคิดว่า 7B param ฉลาดกว่ามนุษย์ผมก็คงต้องปล่อยคุณไป

แสดงว่าคุณไม่ได้เรียน หรือไม่เคยเขียน AI มาเลยคุณจึงไม่เข้าใจเรื่อง หลักการคิดของ AI ตั้งแต่ต้น
Model ใหญ่ ย่อให้เล็ก เท่า Model เล็ก สมมติ 70b > 7b โมเดลใหญ่ย่อเล็กฉลากกว่า

ผมว่าคุณไม่เข้าใจมากกว่าว่าย่อ quantization คืออะไรแล้วมันต้อง sacrifice อะไรบ้างเพื่อ quantize ยิ่ง quantize ยิ่งใช้ input bit ของ paramter น้อยลงยกตัวอย่างเช่น 32 bit เป็น 16 bit แปลว่า precision มันก็จะน้อยลงมันเหมือน significant figure ของเลขอะ 12.2345 กับ 12.23 อันไหน precise กว่าครับ? Basic computer science มันก็หมายความว่าไอ่เวอร์ชั่นที่ quantize ลงมาก็ฉลาดน้อยลงไปอีกไงครับ แล้วมันจะเก่งกว่ามนุษย์ได้ยังไงในเมื่อเวอร์ชั่น 32bit เต็มๆมันยังสู้มนุษย์ไม่ได้เลย

ถ้าคุณอยากจะพิศูจน์คุณอัดหน้าจอตอนที่คุณรัน GPT-4 model บนเครื่องตัวเองให้ผมดูครับแล้วผมจะเชื่อ ไม่เอาพวกตัวเล็กกระจอกๆนะ เอาของแทร้เต็มประสิทธิภาพฉลาดที่สุด  


เขาพิสูจน์กันมาเยอะแยะหนูมีหลักฐานแนบให้อ่านแล้วนะคะ
แสดงว่าไม่ได้เข้าไปอ่านเลย ขนาดเอาอันที่อ่านง่ายให้แล้ว
ไม่งั้นวงการมันไม่รันมาไกลขนาดนี้หรอค่ะ
เขาไปดูยอดโหลดใช้งานกัน เขาใช้ตัว 7b 13b กันเต็มไปหมด
https://huggingface.co/models?sort=downloads&search=llm

1. base model 7b เพียงพอต่อการใช้งานเฉพาะทางแล้ว และเก่งกว่าประชากรบนโลกแล้ว จากผลการทำข้อสอบ ถ้าไม่เชื่อมาตราวัดนี้ ก็เสนอมาว่าให้เขาต้องพิสูจน์ด้วยอะไร เดี๋ยวหนูเอาไปตีเปเปอร์ให้เครดิตด้วย

2. Quantize ใหญ่มาเล็ก เก่งกว่าตัวเล็ก อันนี้เรื่องพื้นฐานของการย่อโมเดล ด้วยขนาดเท่ากันตัวที่เทรนมาใหญ่กว่าฉลาดกว่า แต่ใช้งานได้บนทรัพยากรเท่ากัน

ตอบคำถามที่ว่าทำไมไม่ต้องใช้ gpu ใหญ่ขึ้น


3. GPT4 ไม่ใช่ Opensource ไม่มีใครรันได้นอกจาก OpenAI คุณไม่เข้าใจหรอ
ดังนั้นจะไม่มีใครัน GPT4 ให้คุณดูได้ เพราะเขาไม่เปิดให้คุณโหลดมาเล่น คุณจะรันยังไง คุณพูดมาได้ไงทั้งทั้งที่ไม่รู้ว่าเขาเปิดไม่ให้คนอื่นใช้

การที่คุณพูดว่าของแทร่เต็มประสิทธิภาพนั้นแปลว่าคุณไม่เข้าใจว่าแตกย่อยเป็น expert model เลย และไม่เข้าใจว่า model ขนาดนั้นมันไมไ่ด้ทำด้วยตัว model ตัวเดียว


---

ยื่นยันเหมือนเดิมว่า model ฉลาดกว่ามนุษย์ธรรมดา ก็สามารถรันบน gpu ได้โดยไม่ต้องไปที่ datacenter เพราะมีการใช้งานแผ่พลายไปแล้ว มีองค์กรนำไปใช้มากมาย

ถ้าบอกว่าไม่ผ่านก็ไปเสนอ metric ใหม่ม่ให้เขาไปทดสอบค่ะ
https://huggingface.co/models?sort=downloads&search=llm



แก้ไขล่าสุดโดย themasksocccer เมื่อ Tue Jun 25, 2024 15:46, ทั้งหมด 2 ครั้ง
0
0
หากโดน 40 เรื้อน จะถูกแบน
contactme themasksoccer@gmail.com
ไปหน้าที่ 1, 2, 3
ไปที่หน้า
GO
ตั้งกระทู้ใหม่
กรุณาระบุเหตุผลที่จะแจ้งความ
ผู้ต้องหา:
ข้อความ:
Submit
Cancel
กรุณาเลือก Forum และ ประเภทกระทู้
Forum:

ประเภท:
Submit
Cancel