Machine Learning กับ Chemical Process Design ทั้งสองอย่างนี้มาเจอกันได้ยังไง เดี๋ยวเล่าให้ฟังครับ | by Suppawat Boonrach | TechNounia | Jun, 2023

0
101


หลายคนอาจมองว่า Chemical Course of design หรือการออกแบบกระบวนการทางวิศวกรรมเคมี อาจเป็นเรื่องที่เข้าใจยาก และซับซ้อน ต้องอาศัยวิศวกรกระบวนการหรือวิศวกรเคมีที่ชำนาญในการออกแบบกระบวนการเหล่านั้นมาออกแบบว่า กระบวนการทางเคมีต้องใช้ Unit operations อะไรบ้าง มีสมบัติทาง Thermodynamics ใดบ้างที่ต้องพิจารณา ฟังดูทำเอาเหนื่อยเลยใช่ไหมล่ะครับ

ตัวอย่าง Chemical Course of diagram (ที่มา Creating a Create a Chemical Process Flow Diagram | ConceptDraw HelpDesk)

การที่จะนำเอา Machine Studying มาช่วยในการออกแบบกระบวนการเหล่านี้ได้ด้วยคงจะดีไม่น้อยเลย จึงน่าสนใจว่า จะมีใครหยิบ Machine Studying มาประยุกต์ใช้กับ Chemical Course of design บ้างไหมหนอ

Belongings are derived from freepik.com

ความคิดที่ว่านี้เกิดขึ้นไม่นานมานี้เอง โดยมีคณะวิจัยจาก Delft College of Expertise ซึ่งเป็นมหาวิทยาลัยชั้นนำทางด้านวิศวกรรมและเทคโนโลยีที่ประเทศเนเธอแลนด์ พวกเขาได้ประยุกต์เอา Reinforcement Studying ซึ่งเป็นส่วนหนึ่งของ Machine Studying มาใช้ในการออกแบบ Flowsheet หรือแผนผังของกระบวนการ ของการผลิต Methyl Acetate ซึ่งฟังดูไม่ซับซ้อนเท่าไร แต่ถือว่าเป็นประตูสู่โอกาสใหม่ ๆ ในการนำ Machine Studying มาใช้กับทางด้าน Course of design ได้เลยทีเดียวครับ

Delft College of Expertise (ที่มา PhD Positions Delft University of Technology the Netherlands — Scholarship Positions 2022 2023 (scholarship-positions.com))

ว่าแต่จะเป็นยังไงนั้น ไปรับชมกันดีกว่าครับผม

บทความนี้จะอ้างอิงจากงานวิจัยสองฉบับ ได้แก่ Switch studying for course of design with reinforcement studying [1]โดย Qinghe Gaoa , Haoyu Yanga , Shachi M. Shanbhaga , Artur M. Schweidtmann และ Flowsheet synthesis by means of hierarchical reinforcement studying and graph neural networks [2]โดย Laura Stops, Roel Leenhouts, Qinghe Gao, Artur M. Schweidtmann

และเพื่อให้ง่ายต่อความเข้าใจ เนื่องจากงานวิจัยทั้งสองเป็นวิจัยที่เกี่ยวข้องกัน โดยงานแรกจะต่อยอดมาจาการที่สอง เพราะมีการประยุกต์ใช้ Switch Studying เข้ากับ Reinforcement Studying ด้วย ขณะที่งานที่สองจะเป็นรากฐานให้กับงานแรก รวมไปถึงทั้งงานมี Case examine เดียวกันคือการผลิต Methyl Acetate จึงจะหยิบงานวิจัยฉบับแรกมาพูดเป็นหลัก โดยใช้งานที่สองมาอธิบายถึงโมเดลของ Reinforcement Studying ในเชิงลึกครับ

คณะวิจัยได้เล็งเห็นว่าการเปลี่ยนผ่านทางด้านวิศวกรรมเคมีไปสู่ความยั่งยืนและการหมุนเวียนได้นั้นต้องอาศัยวิธีการใหม่ในการออกแบบกระบวนการ โดยหนึ่งในนั้นคือการประยุกต์ใช้ Reinforcement Studying หรือ RL ที่เป็นแขนงหนึ่งของ Machine Studying หรือ ML ซึ่งนับได้ว่าให้ผลที่น่าสนใจในการออกแบบกระบวนการ โดยหนึ่งในความท้าทายในด้านนี้คือใช้กระบวนการสอนแบบลองผิดลองถูก (trial-and-error primarily based coaching) ที่ต้องอาศัยการจำลองแบบจำนวนมากมาใช้ในการสอนนี้ ทำให้ต้องสิ้นเปลืองกำลังในการประมวลผลเป็นอย่างมาก

ทำให้คณะวิจัยได้เสนอการใช้งาน Switch Studying สำหรับการออกแบบกระบวนการเข้ากับ Reinforcement Studying ซึ่งเป็นเทคนิคที่เพิ่มประสิทธิภาพได้จากการจะจับเอาความแตกต่างที่มีความเชื่อมโยงไปยังเป้าหมายหลัก

โดย Reinforcement Studying จะใช้ตาม Markov choice course of หรือ MDP (อ่านเพิ่มเติมได้ที่: Markov Decision Process — GeeksforGeeks) ที่โมเดลจะมุ่งเน้นไปที่การเพิ่ม Reward ให้สูงที่สุด ด้วยการ Motion, ประเมิน Reward และปรับค่า Reward ใหม่ โดยจะแบ่ง Motion ออกเป็นสองส่วนคือ 1. ส่วน Discrete ประกอบไปด้วยการเลือกใช้ Unit operation และตำแหน่งของพวกมันบน Course of flowsheet และ 2. ส่วน Steady ที่จะใช้อธิบายการออกแบบและตัวแปรต่าง ๆ ของ Unit operation โดยจะทำ Motion เหล้านี้วนไปเรื่อย ๆ เพื่อให้ RL mannequin นี้เกิดการเรียนรู้ใหม่ ๆ จากการ Motion ใหม่เรื่อย ๆ ซึ่งจะนำไปสู่ผลที่ดีขึ้นของ Course of flowsheet

อ่านเพิ่มเติม Markov Choice Course of

Markov Decision Process — GeeksforGeeks

ในส่วนของ Reinforcement studying เอง สามารถแบ่งออกเป็น 2 แนวทางด้วยกัน คือ Worth-based กับ Coverage-based และ Actor-critic ซึ่งเป็นรูปแบบที่ได้เปรียบกว่าทั้งสองรูปแบบก่อนหน้า กล่าวคือ ขณะที่รูปแบบ Worth-based นั้นไม่สามารถประยุกต์เข้ากับการทำงานแบบต่อเนื่องได้ง่ายดายเท่าไร ส่วนรูปแบบ Actor-critic จะสามารถเรียนรู้ได้ทั้งการตัดสินใจทั้งแบบ Discrete และ Steady เลย ดังภาพด้านล่าง ที่แสดงให้เห็นว่า Actor-critic brokers ที่ประมาณ Worth operate และตัดสินใจการกระทำต่าง ๆ ได้ด้วยการประมาณ Coverage ได้เลยในตัวเดียว

ที่มา Flowsheet synthesis through hierarchical reinforcement learning and graph neural networks

สำหรับงานวิจัยฉบับนี้จึงเลือกใช้ RL framework เป็น Actor-critic PPO (Proximal Coverage Optimization) algorithm ของ OpenAI (อ่านเพิ่มเติมได้ที่ [1707.06347] Proximal Policy Optimization Algorithms (arxiv.org)) สำหรับ PPO นี้นั้น Goal operate จะมุ่งเน้นไปในการป้องกันการพังทลายของประสิทธิภาพของ Agent ขณะที่ทำการเรียนรู้ นอกจากนี้แล้ว Entropy ได้ถูกพิจารณาในฐานะ Loss operate ของระบบด้วย รวมถึง Generalized estimation ได้ถูกใช้งานสำหรับโครงข่าย Reinforcement studying นี้ด้วยเช่นกัน

อ่านเพิ่มเติมเกี่ยวกับ Proximal Coverage Optimization

[1707.06347] Proximal Policy Optimization Algorithms (arxiv.org)

ในภาพด้านล่างนี้แสดงให้เห็นถึงแผนภาพที่เป็นตัวแทนของ Flowsheets อันประกอบไปด้วย Feeds, Merchandise และ Unit Operations ซึ่งจะแทนด้วย Node ที่มีข้อมูลว่าเป็น Unit operation ชนิดใด กับตัวแปรที่ใช้การออกแบบต่าง ๆ ขณะที่ Edge จะเป็นตัวแทนของ Course of streams ต่าง ๆ อันมีข้อมูลทาง Thermodynamics ไม่ว่าจะเป็นอุณหภูมิ, Molar stream และ Molar fractions

ที่มา Flowsheet synthesis through hierarchical reinforcement learning and graph neural networks

โดยจะมี Intermediate flowsheets ที่มี node ที่ยังไม่ได้กำหนดค่าไว้ สำหรับถูกใช้ในการเพิ่ม Unit operations ใหม่ ๆ เข้ามาใน Flowsheet และเมื่อมีการเพิ่ม Unit operation เหล่านั้นเข้ามาใน Open streams จะนับว่าเป็น node ที่ยังไม่ได้กำหนดค่าไว้ หลังจากนั้นระบบก็จะหาตำแหน่งที่เป็นไปได้สำหรับ Unit operations ตัวที่ใหม่กว่ามาแทนที่ node เหล่านั้นนั่นเอง

หัวใจหลักของ Reinforcement studying ในงานวิจัยฉบับนี้จะมีรากฐานอยู่บน Actor-critic agent แบบผสมและเป็นลำดับขั้น ที่รวมเอา GNN (Graph Neural Community) หลาย ๆ อันเข้ากับ MLP (Multilayer Perceptron) โดยมีรายละเอียดดังนี้

1) Motion area แบบผสมและเป็นลำดับขั้น

โครงสร้างของ Agent มีผลมาจาก Motion area แบบผสมและเป็นลำดับขั้น โดยกระบวนการ Choice making เป็นดังภาพด้านล่าง ที่จะเริ่มจาก Intermediate flowsheet

ที่มา Flowsheet synthesis through hierarchical reinforcement learning and graph neural networks

กล่าวคือจะมีการแบ่งเป็น 3 ระดับ และรูปแบบการตัดสินใจ 2 แบบ ได้แก่

ระดับที่ 1

Agent จะทำการเลือกตำแหน่งภายใน Flowsheet ที่สามารถขยายได้ โดยมักจะเป็น Open streams ต่าง ๆ ที่เป็น Nodes ที่ไม่ได้กำหนดค่าไว้ (เป็นการตัดสินใจแบบ Discrete)

ระดับที่ 2

ต่อมา Agent จะทำการเลือก Unit operation อาทิ Warmth exchanger, Reactor, Column รวมไปถึง Streams ต่าง ๆ ที่เป็นได้ทั้ง Product หรือ Recycle (เป็นการตัดสินใจแบบ Discrete)

ระดับที่ 3

หลังจากนั้น Agent จะเลือก Design variables สำหรับ Unit operations และ Streams นั้น ๆ (เป็นการตัดสินใจแบบ Steady)

2) การใช้งาน GNNs ในการสร้าง Flowsheet fingerprints

สำหรับงานวิจัยฉบับนี้ คณะวิจัยได้ยกเอาการงานวิจัยของคุณ Schweidtmann และคณะ (อ่านเพิ่มเติม Graph Neural Networks for Prediction of Fuel Ignition Quality | Energy & Fuels (acs.org)) ที่ได้ประยุกต์เอา Graph Neural Community มาใช้ในการสร้าง Molecule fingerprints โดยใช้หลักการของ MPNN หรือ Message Passing Neural Community ที่เสนอโดยคุณ Gilmer และคณะ (อ่านเพิ่มเติม [1704.01212] Neural Message Passing for Quantum Chemistry (arxiv.org)) โดย GNN ของคณะวิจัยเป็นไปตามภาพด้านล่าง

ที่มา Flowsheet synthesis through hierarchical reinforcement learning and graph neural networks

-อ่านเพิ่มเติมเกี่ยวกับ Graph Neural Community

Graph Neural Networks for Prediction of Fuel Ignition Quality | Energy & Fuels (acs.org)

-อ่านเพิ่มเติมเกี่ยวกับ Message Passing Neural Community

[1704.01212] Neural Message Passing for Quantum Chemistry (arxiv.org)

จะเห็นได้ว่ากระบวนการที่ใช้ในการสร้าง Flowsheet graph ขึ้นมานั้น ขั้นแรก Flowsheet graph จะถูกสร้างผ่าน MPNN ที่เป็นการใช้งาน GCN หรือ Graph Convolutional Community ที่มีหลายชั้น เพื่อที่จะแลกเปลี่ยนข้อมูลระหว่างและปรับสถานะของ Nodes แต่ละตัว และเข้าสู่ขั้นตอน Readout ที่มีการใช้งาน Pooling operate เพื่อสร้างข้อมูลออกมาเป็นรูปแบบ Vector ที่เป็น Flowsheet fingerprint นั่นเอง

หากเจาะลึกลงไปที่การทำงานของตัว GCN นั้นจะเป็นไปดังที่แสดงในภาพด้านล่าง ในการปรับสถานะของ Node สีน้ำเงิน จะมีการเก็บข้อมูลไว้ที่ Node สีเหลืองที่อยู่ติดกัน และ Edges ที่เกี่ยวข้องก็จะทำการประมวลผล และรวมข้อมูลเข้าไว้ด้วยกันและส่งไปยัง Message operate M หลังจากนั้น Node ที่ทำการพิจารณาอยู่นั้นจะได้รับการปรับค่าผ่านข้อมูลภายใน Replace operate U โดยแต่ละชั้นของ GCN จะทำตามขั้นตอนนี้กับทุก ๆ Node ใน Graph เลย

ที่มา Flowsheet synthesis through hierarchical reinforcement learning and graph neural networks

3) โครงสร้างของ Agent แบบเป็นลำดับขั้น

สำหรับโครงสร้างของตัว Agent เองนั้นได้รับแนวทางมาจากงานของคุณ Fan และคณะ (อ่านเพิ่มเติม [1903.01344] Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space (arxiv.org)) ดังในหัวข้อ Motion area แบบผสมและเป็นลำดับขั้น และเป็นไปดังภาพด้านล่าง

ที่มา Flowsheet synthesis through hierarchical reinforcement learning and graph neural networks

อ่านเพิ่มเติมเกี่ยวกับ Hybrid Actor-Critic

[1903.01344] Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space (arxiv.org)

ในส่วนด้านบนของภาพนั้นเป็นส่วนที่ใช้ในการสร้าง Fingerprint ออกมา ซึ่งเป็นไปตามภาพที่ 4 หัวข้อ การใช้งาน GNNs ในการสร้าง Flowsheet fingerprints โดยหลังจากที่สร้าง Fingerprint ออกมาได้แล้วนั้น ข้อมูลจะถูกส่งไปที่ Actor ในส่วนด้านล่างของภาพ ต่อมาก็จะมีการประมวลขั้นต่อไปด้วย GCN ชั้นอื่น ๆ แบ่งออกเป็น 3 ระดับ และ 2 รูปแบบการตัดสินใจ ดังนี้

ระดับที่ 1

ขั้นแรกของส่วน Actor จะเป็นการเลือก Open stream เพื่อขยาย Flowsheet ต่อไป หลังจากที่ GCN ส่วนแรกทำการตัดสินไปแล้วนั้น จำนวน Characteristic ของ Node จะลดเหลือเพียงแค่อันเดียวขณะที่อันอื่น ๆ จะถูกกรองออกไป โดย Characteristic ที่ถูกเลือกของแต่ละ Node ใน GCN ชั้นสุดท้ายจะแสดงถึงความเป็นไปได้ในการถูกเลือกเป็นตำแหน่งของ Unit operation อันใหม่ ก่อนที่จะส่งไปยังระดับที่ 2 และ 3 ต่อไป (เป็นการตัดสินใจแบบ Discrete)

ระดับที่ 2

สำหรับระดับที่ 2 จะประกอบไปด้วย MLP ที่จะส่งค่ากลับมาเป็นความน่าจะเป็นสำหรับแต่ละ Unit operation ที่ถูกเลือก โดย MLP ที่เป็นของ Unit operation แต่ละชนิดนั้นจะถูกตั้งให้เป็น Actor สำหรับระดับที่ 3 ต่อไป (เป็นการตัดสินใจแบบ Discrete)

ระดับที่ 3

MLP ที่อยู่ในระดับนี้จะนำเอา Vector ที่ได้มาจาก Flowsheet fingerprint และ ID ของตำแหน่ง มาเป็นข้อมูลขาเข้าของมัน โดยจะคืนกลับข้อมูลขาออกออกมาเป็นตัวแปรสองตัวได้แก่ α และ β ซึ่งถูกอธิบายในรูปแบบของ Beta distribution (เป็นการตัดสินใจแบบ Steady)

สำหรับส่วน Critic ที่ใช้ในการประมาณสถานะดั้งเดิม จะอยู่ที่มุมบนด้านขวาของภาพที่ 6 โดยเมื่อได้รับ Flowsheet fingerprint จากส่วนการสร้าง Fingerprint ค่า Reward (ตาม MDP หรือ Markov Choice Course of) ที่ได้จากการประมาณจะถูกส่งไปยัง Agent ในการจบการประมวลผลในแต่ละ Episode โดยคณะวิจัยได้มีการใช้งานค่าที่นำไปประมวลผลนั้นโดยอ้างอิงมาจาก Generalized benefit estimation จากงานวิจัยของคุณ Schulman และคณะ (อ่านเพิ่มเติม [1506.02438] High-Dimensional Continuous Control Using Generalized Advantage Estimation (arxiv.org)) โดยมันจะช่วยบอกได้ว่า Motion ที่กระทำลงไปนั้นดีหรือแย่กว่าที่คาดการณ์ไว้ด้วยการเทียบค่าที่ได้จาก Reward ที่แท้จริง

อ่านเพิ่มเติมเกี่ยวกับ Generalized benefit estimation

[1506.02438] High-Dimensional Continuous Control Using Generalized Advantage Estimation (arxiv.org)

สำหรับปฏิสัมพันธ์ระหว่าง Actor-critic agent กับสิ่งแวดล้อมนั้นจะถูกอธิบายด้วย Algorithm ด้านล่างนี้ ซึ่งเป็น Pseudocode โดยสิ่งแวดล้อมเริ่มต้นที่ Feed ส่วน Flowsheet จะถูกสร้างขึ้นมาระหว่างทำการคำนวณ โดย Agent จะสังเกตสถานะปัจจุบัน (s) ในสิ่งแวดล้อมและเลือกการกระทำ (a) จากระดับการตัดสินใจทั้งสามที่กล่าวไปก่อนหน้านี้ด้วยการสุ่มตัวอย่าง หลังจากนั้น Agent จะส่งค่าคืนกลับมาเป็นความน่าจะเป็นและการกระทำที่ถูกเลือกในรูปแบบของค่าสถานะ (v)

หลังจากที่การกระทำได้ถูกใช้กับสิ่งแวดล้อมไปแล้ว สถานะขั้นต่อไป (s’) จะถูกคำนวณผ่านการจำลอง Flowsheet ที่ถูกขยาย นอกจากนี้แล้วสิ่งแวดล้อมจะทำการตรวจสอบ Open streams ใด ๆ ก็ตามที่เหลืออยู่ใน Flowsheet รวมไปถึงการบ่งชี้ไปยังรอบการคำนวณที่ยังไม่เสร็จสิ้น เนื่องจากการถ่วงค่าน้ำหนักของ Agent จะเริ่มขึ้นโดยสุ่ม ในการ Coaching รอบแรก ๆ จะให้ผลออกมาเป็น Flowsheet ขนาดใหญ่มากออกมา ดังนั้นจำนวนของ Unit ต่าง ๆ ภายในระบบจะถูกกำหนดไว้ไม่ให้เกิน 25 หน่วย และเมื่อหากมี Flowsheet มีจำนวนเกินจากนี้ไปจะนับว่า Open streams ทั้งหมดเป็นสายของ Merchandise ต่าง ๆ ไป

นอกจากนี้แล้ว สิ่งแวดล้อมจะคำนวณ Reward โดยขึ้นอยู่กับ Flowsheet ไม่ว่าจะถูกคำนวณออกมาสมบูรณ์หรือไม่ก็ตาม หาก Internet money stream มีค่าเป็นบวก จะทำให้ Reward มีค่าเท่ากับ Internet money flows ขณะเดียวกันถ้าเป็นลบ จะมีให้มีค่าเท่ากับ Reward หารด้วย 10

ในส่วนของการ Coaching ทั้งวิธีการที่คณะวิจัยได้นำเสนอและการจำลองแบบ Flowsheet จะทำด้วยภาษา Python เวอร์ชั่น 3.9 โดยได้หยิบยกขั้นตอนการ Coaching มาจาก PPO หรือ Proximal Coverage Optimization โดย OpenAI ดังที่กล่าวไปในช่วงแรกของสรุปที่กล่าว RL framework นั่นเอง

กรณีศึกษาที่ใช้จะเป็นกระบวนการผลิต Methyl Acetate ผ่านทางการจำลองกระบวนการบนโปรแกรม DWSIM โดยมีการใช้งาน Unit operation ที่นับเป็นตัวแปร Motion ดังนี้

1. Reactor แบบ Plug stream reactor หรือ PFR โดยกำหนดขนาดตั้งแต่ 3–10 เมตร (ขนาดเป็น Steady choice course of ลำดับที่ 3 ของ RL Mannequin) โดยมีปฏิกิริยาเคมีแบบผันกลับได้ดังนี้

2. Distillation column โดยกำหนด Distillate to feed ratio หรือ D/F ratio มีค่าตั้งแต่ 0.4–0.6 (D/F ratio เป็น Steady choice course of ลำดับที่ 3 ของ RL Mannequin) และตัวแปรอื่น ๆ ที่สามารถปรับเปลี่ยนค่าได้ก็คือจำนวนชั้นของคอลัมน์และ Reflux ratio ที่จะมีค่า 35 และ 1.5 ตามลำดับ

3. Warmth exchanger โดยกำหนดให้อุณหภูมิขาออกมีค่าตั้งแต่ 278.15–330.05 Okay (Outlet temperature เป็น Steady choice course of ลำดับที่ 3 ของ RL Mannequin)

4. Recycle course of อันประกอบไปด้วย Splitter และ Mixer โดยส่วนแรกจะแยก Recycle stream กับ Purge ออกจากกัน และส่วนที่สองจะรวม Recycled stream เข้า Feed stream

สำหรับตัวแปร Reward จะใช้การคำนวณความเป็นไปทางเศรษฐศาสตร์ของ Flowsheet ที่ถูกทำออกมา พร้อมทั้งสอน RL mannequin ให้ทำ Motion ที่เป็นไปได้ดังสมการด้านล่าง

โดย

Pproduct = รายได้ของผลิตภัณฑ์ที่ถูกจำหน่ายไป

Cfeed = ต้นทุนของ Feed

Coperation = ค่าใช้จ่ายของค่าดำเนินการ

Cinvest = ค่าใช้จ่ายในการลงทุนทั้งหมด พร้อมทั้งคูณกับ issue 0.15 หรือ 10 ในกรณีได้ค่า Reward ติดลบออกมา

จากผลลัพธ์ที่ได้ออกมาระหว่างการที่ใช้และไม่ใช้ Switch Studying เข้ากับ RL mannequin พบว่าแบบที่ไม่มี Switch studying ใช้เวลาในการคำนวณหา Reward จำนวน 10000 ครั้งเป็นเวลากว่า 72 ชั่วโมง ขณะที่แบบที่ใช้ Switch studying ใช้เวลาเพียง 2 ชั่วโมงในการคำนวณหา Reward จำนวนที่เท่ากัน ดังภาพด้านล่าง

ที่มา Transfer learning for process design with reinforcement learning

ความเห็นจากการวิเคราะห์ของผม เข้าใจว่า RL mannequin ของคณะวิจัยที่มีการใช้งาน Switch studying ด้วย จะมีการส่งต่อค่าที่คำนวณได้ครั้งก่อนไปยังการคำนวณครั้งถัดไปผ่านค่า Reward ที่ได้ออกมาในแต่ละครั้ง และคำนวณต่อไปเรื่อยจนให้ผลที่พึงพอใจได้ในรอบการคำนวณที่ต่ำกว่า เมื่อเทียบกับ RL mode ที่ไม่มี Switch studying จะไม่มีการนำค่าในการคำนวณครั้งก่อนมาใช้คำนวณด้วย

สำหรับ Flowsheet ที่ดีที่สุดที่ถูกสร้างออกมาหลังจาก RL mannequin แบบที่ใช้ Switch studying จะเป็นไปดังภาพด้านล่างนี้

ที่มา Transfer learning for process design with reinforcement learning

Flowsheet นี้จะเริ่มต้นที่ Feed (F1) เข้าไปในเตาปฏิกรณ์ทั้งหมด 3 ตัว ได้แก่ R1, R2 และ R3 ตามลำดับ ซึ่งจะทำให้ได้สารผลิตภัณฑ์อย่าง Methyl acetate และน้ำผ่านทางปฏิกิริยา Esterification ออกมานั่นเอง หลังจากนั้น จะนำไปแยกผ่าน Distillation column แรก (C1) จะได้ High product ที่เข้าไปสู่ Warmth exchanger ตัวแรก (Hex1) ได้ออกมาเป็นสารผลิตภัณฑ์แรก (P1) ที่ประกอบไปด้วย Methyl acetate เข้มข้นและ Residues ปะปนมา ขณะที่ Backside product จาก Distillation column แรกจะเข้าสู่ Distillation column อันที่สอง (C2) เพื่อที่จะได้ High product เป็นน้ำบริสุทธิ์ (P2) และ Backside product เป็นสารผสมระหว่าง Methanol และน้ำ (P3) ซึ่งจะถูกนำกลับไปเข้ารวมกับ F1 อีกครั้งกว่าร้อยละ 90

อย่างไรก็ดี โมเดลนี้ยังมีข้อจำกัดจำนวน 3 ข้อ ได้แก่

1. ผลที่ได้จาก RL mannequin นี้นั้นยังถูกใช้งานจริงยาก เนื่องจากกระบวนการดังกล่าวจะใช้ Reactive distillation ในการผลิตเป็นหลัก ซึ่งในโมเดลนี้ไม่ได้รวม Unit operation ดังกล่าวลงไปด้วย และ

2. ขนาดของ PFR ถูกจำกัดสูงสุดไว้เพียง 10 เมตร ซึ่งการใช้งานจริงขนาดความยาวเพียงเท่านี้ไม่เพียงพอที่จะทำให้เกิดปฏิกิริยาได้อย่างสมบูรณ์ได้

3. Warmth exchanger (Hex1) ถูกเพิ่มเข้ามาอย่างไม่จำเป็น เนื่องจากโมเดลอาจเข้าใจว่า Warmth exchanger มีค่าใช้จ่ายในการดำเนินการที่ต่ำ

โดยสรุปตามความเห็นของผม ผมคิดว่าการใช้งาน Reinforcement Studying ช่วยในการออกแบบกระบวนการทางเคมีนั้นสามารถทำได้ และช่วยร่นระยะเวลาในการออกแบบกระบวนการได้มาก อย่างไรก็ดีจากข้อจำกัดของโมเดลดังกล่าวที่ทางคณะวิจัยได้ตรวจพบนั้น อาจแสดงให้เห็นว่า ต้องมีการทำงานควบคู่ระหว่างผู้เขี่ยวชาญในการออกแบบกระบวนการและผู้จัดทำโมเดลของปัญญาประดิษฐ์ดังกล่าวอย่างใกล้ชิด และแก้ไขข้อจำกัดต่าง ๆ ก่อนที่จะนำผลลัพธ์ที่น่าสนใจมากกว่านี้ไปทดสอบผ่านการจำลองอีกครั้ง หรือประยุกต์ใช้งานได้จริงต่อไปในอนาคตได้ครับ

[1] [2302.03375] Transfer learning for process design with reinforcement learning (arxiv.org)

[2] [2207.12051] Flowsheet synthesis through hierarchical reinforcement learning and graph neural networks (arxiv.org)



Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here