یتیوقت ییگدای...python pacman.py -p approximateqagent -a extractor=simpleextractor -n 10...

Post on 29-Feb-2020

5 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

یادگیری تقویتیn.razavi@tabrizu.ac.irسید ناصر رضوی

۱۳۹۵

www.snrazavi.ir

تقویتییادگیری

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

2

www.snrazavi.ir

یادآوری:تقویتییادگیری

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

3

داریممارکوفتصمیمفرآیندیکهنوز:حالت هاازمجموعهیک𝑠 ∈ 𝑆

اعمالازمجموعهیک𝑎 ∈ 𝐴

مدلیک𝑇 𝑠,𝑎,𝑠′

پاداشتابعیک𝑅 𝑠,𝑎,𝑠′

سیاستیکدنبالبههنوز𝜋(𝑠)هستیم.

توابع.تفاوت𝑇و𝑅هستندناشناخته.کنیمآزمایشراشدهنتیجهحالت هایومختلفعمل هایبایدیادگیریبرای.

رویمیانگینمحاسبه ی.اصلیایده ی𝑇نمونه هاازاستفادهبا.

www.snrazavi.ir

RLوMDP:کنونتا

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

4

هدف

∗𝑉∗ ،𝑄∗ ،𝜋محاسبه ی

𝜋ارزیابی سیاست ثابت

روش

تسیاس/ الگوریتم تکرار مقدار

ارزیابی سیاست

MDPراه حل آفالین: شناخته شده

هدف

∗𝑉∗ ،𝑄∗ ،𝜋محاسبه ی

𝜋ارزیابی سیاست ثابت

روش

روی مدل تقریبیVI/PIالگوریتم

ارزیابی سیاست روی مدل تقریبی

MDPمبتنی بر مدل: شناختهنا

هدف

∗𝑉∗ ،𝑄∗ ،𝜋محاسبه ی

𝜋ارزیابی سیاست ثابت

روش

Qیادگیری

یادگیری مقدار

MDPمستقل از مدل: شناختهنا

www.snrazavi.ir

Qمقدارتکرار

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

5

شوندهتکرارصورتبهحالت هاارزشمحاسبه ی.مقدارتکراربرداربا𝑉0 𝑠 = .(استدرستمی دانیمکه)کنشروع0

بردارداشتنباتکرار،هردر𝑉𝑘(𝑠)،بردار𝑉𝑘+1(𝑠)کنمحاسبهرا.

𝑉𝑘+1 𝑠 ← max𝑎

𝑠′

𝑇 𝑠, 𝑎, 𝑠′ 𝑅 𝑠, 𝑎, 𝑠′ + 𝛾𝑉𝑘(𝑠′)

𝑄𝑘+1 𝑠, 𝑎 ←

𝑠′

𝑇 𝑠, 𝑎, 𝑠′ 𝑅 𝑠, 𝑎, 𝑠′ + 𝛾max𝑎′

𝑄𝑘 𝑠′, 𝑎′

مقادیراما𝑄کنمحاسبهراآنهاپسهستند،مفیدتر.با𝑄0 𝑠,𝑎 = .(استدرستمی دانیمکه)کنشروع0

بردارداشتنباتکرار،هردر𝑄𝑘(𝑠,𝑎)بردار𝑄𝑘+1(𝑠,𝑎)کنمحاسبهرا.

s

s, a

a

s, a, s’s’

s’, a’

a’

www.snrazavi.ir

Qیادگیریالگوریتم

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

6

یادگیریQ.مقدارتکرارالگوریتم𝑄نمونه برداریبرمبتنی

مقادیریادگیریQ(s, a)

نمونهدریافت(s, a, s', r)

قبلیتخمینگرفتننظردر:Q(s, a)

جدیدنمونه یبهمربوطتخمینگرفتننظردر:

[میانگین گیری]:تخمینرسانیروزبه

𝑄𝑘+1 𝑠, 𝑎 =

𝑠′

𝑇 𝑠, 𝑎, 𝑠′ 𝑅 𝑠, 𝑎, 𝑠′ + 𝛾max𝑎′

𝑄𝑘 𝑠′, 𝑎′

𝑠𝑎𝑚𝑝𝑙𝑒 = 𝑅 𝑠, 𝑎, 𝑠′ + 𝛾max𝑎′

𝑄(𝑠′, 𝑎′)

𝑄 𝑠, 𝑎 = 1 − 𝛼 𝑄 𝑠, 𝑎 + 𝛼 𝑠𝑎𝑚𝑝𝑙𝑒% python gridworld.py -a q -k 1000

!ندناشناخته هستRو Tاما

www.snrazavi.ir

Qیادگیریالگوریتمویژگی های

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

7

یادگیریالگوریتم.همگراییQمی شودهمگرابهینهسیاستدر.نکندعملبهینهعاملاگرحتی!!!

هشدارها.کندکاوشرامحیطکافیاندازه یبهبایدعامل.شودکوچککافیاندازه یبهنهایتدربایدیادگیرینرخ....شوددادهکاهشسریعخیلینبایدآنمقداراما.ندارداهمیتعاملوسیله یبهعملانتخابچگونگیحد،درمبنایی،طوربه!

www.snrazavi.ir

بهره برداریبرابردرکاوش

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

8

www.snrazavi.ir

بهره برداریبرابردرکاوش:نمایشیاجرای

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

9

% python gridworld.py -a q -g BridgeGrid -k 100 -m

www.snrazavi.ir

کنیم؟کاوشچگونه

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

10

محیطکاوشبرایمختلفروش های.کنعملتصادفیمواقعبرخی:روشساده ترین𝜀 − 𝑔𝑟𝑒𝑒𝑑𝑦

کنخطیاشیرحرکت،هرانجامازقبل.

کوچکاحتمالبا𝜀،کنعملتصادفی.1بزرگاحتمالبا − 𝜀،کندنبالرافعلیسیاست.

کردنعملتصادفیمشکالت.ملعکهاینبامدتیازپسامامی کند،کاوشرامحیطتمامیسرانجامعامل

.می کندعملتصادفیهمبازاست،گرفتهیادرادرستمقدارکاهش:راه حلیک𝜀زمانطولدر

کاوشتوابع:دیگرراه حلیک

www.snrazavi.ir

کاوشتوابع

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

11

کنیم؟کاوشبایدچگونهوزمانیچهبرابرصورتبهنواحیتمامکاوش:تصادفیاعمال(وزهن)آنهابودنبدکهناحیه هاییدربیشترکاوش:بهترایده ییک

است،بدناحیهیکفهمیدیکهاینمحضبهاما.استنشدهثابت.بردارناحیهآندرجستجوازدست

𝑓 𝑢, 𝑛 = 𝑢 + Τ𝑘 𝑛

𝑄 𝑠, 𝑎 ←𝛼 𝑅 𝑠, 𝑎, 𝑠′ + 𝛾max𝑎′

𝑄(𝑠′, 𝑎′) قاعده ی به روزرسانی معمولی

𝑄 𝑠, 𝑎 ←𝛼 𝑅 𝑠, 𝑎, 𝑠′ + 𝛾max𝑎′

𝑓 𝑄 𝑠′, 𝑎′ , 𝑁 𝑠′, 𝑎′ قاعده ی به روزرسانی اصالح شده

کاوشتابع.حالتیکرویتدفعاتتعداد:ورودی(𝑛)حالتآنسودمندیازتخمینیکو(𝑢)

مانندحالتسودمندیازخوش بینانهتخمینیک:خروجی:

www.snrazavi.ir

خزندهروبات:نمایشیاجرای

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

12

www.snrazavi.ir

خالصه

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

13

:محاسبهقابلکمیت های

اگرMDPباشدشدهشناخته:دقیقمحاسبه یV*،Q*و𝜋∗

ثابتسیاستارزیابی𝜋

اگرMDPباشدناشناخته:کنیمحلسپسوزدهتخمینراآنمی توانیم.

می توانیمVثابتسیاستبرایرا𝜋بزنیمتخمین.

می توانیمQ*(s, a)مبزنیتخمینبهینهسیاستبرایرا.

:محاسبهروش های

آفالینراه حل:مقدارتکرارالگوریتم

سیاستتکرارالگوریتم

تقویتییادگیری:مدلبرمبتنیتقویتییادگیری

مقداریادگیری:مدلازمستقل

کیویادگیری:مدلازمستقل.

www.snrazavi.ir

!حسرت

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

14

www.snrazavi.ir

!حسرت

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

15

ندکاشتباهیادگیریطولدرعاملاستممکنبهینه،سیاستگرفتنیادصورتدرحتی.

استیادگیریفرایندطولدراشتباهاتهزینه یمجموعبیانگرحسرتمعیار:،انتظارموردبهینه یپاداشومرحلههردرآمدهدستبهانتظارموردپاداشمیاناختالفیعنی.

استبودنبهینهیادگیریازفراترحسرتمعیارکمینه سازی:بودنبهینهبرایبهینهیادگیری!،اشتباهاتمیزانکمترینبابهینهسیاستیادگیرییعنی!

اوشکامامی شوند،بهینهسیاستیادگیریبهمنجردوهرکاوشتابعوتصادفیکاوش.مثال.استبیشتری(حسرت)اشتباهاتمیزاندارایمجموعدرتصادفی

www.snrazavi.ir

تقریبیQیادگیری

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

16

www.snrazavi.ir

حالت هامیانتعمیم

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

17

یادگیریالگوریتمQمقادیرتمامیازجدولیکQمی کندنگهداری.نداردوجودجداگانهصورتبهحالت هاهمه یمورددریادگیریامکانواقعی،موقعیت هایدر!

نمودرویتآموزشحیندرراحالت هاهمه ینمی توانحالت ها،زیادبسیارتعداددلیلبه.

نمودذخیرهحافظهدرراجدولهمه ینمی توانحالت ها،زیادبسیارتعداددلیلبه.

دهیمتعمیممی توانیمعوضدر.حالت هاازکوچکزیرمجموعه ییکمورددرتجربهکسب

مشابهجدیدحالت هایبهتجربهاینتعمیم

استماشینیادگیریدراصلیمفاهیمازیکیتعمیمقابلیت.

www.snrazavi.ir

پکمن:مثال

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

18

ه در محیط فرض کنید با تجاربی ککه این کسب می کنیم، دریابیم

.حالت، حالت خوبی نیست

ایه ای با این وجود در الگوریتم پ، هنوز هیچ چیزی در Qیادگیری

.مورد این حالت نمی دانیم

!همین طور در مورد این حالت

www.snrazavi.ir

...یادگیریحیندر:نمایشیاجرای

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

19

pacman.py -p PacmanQAgent -n 10 -l tinyTest

www.snrazavi.ir

...یادگیریازپس:نمایشیاجرای

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

20

pacman.py -p PacmanQAgent -x 2000 -n 2010 -l

tinyTest

www.snrazavi.ir

...یادگیریحیندر:نمایشیاجرای

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

21

pacman.py -p PacmanQAgent -n 30 -l tinyTest2

www.snrazavi.ir

...یادگیریازپس:نمایشیاجرای

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

22

pacman.py -p PacmanQAgent -x 2000 -n 2010

-l tinyTest2

www.snrazavi.ir

ویژگیبرمبتنینمایش

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

23

ویژگی هاازبرداریکصورتبهحالت هاتوصیف.راه حل!استحالتآنمهمخصوصیاتبیانگرواستحقیقیاعدادبهحالت هاازتابعیکویژگیهر.

مثالیویژگی های.روحنزدیک ترینتافاصله

غذانزدیک ترینتافاصله

ارواحتعداد

(یک-صفر)است؟تونلیکدرپکمنآیا

و...

حالت هایترتیب،همینبهqدادنمایشویژگی هاازبرداریصورتبهمی تواننیزرا.ًمی کند؟نزدیک ترغذابهراپکمنعملاینآیامثال

www.snrazavi.ir

خطیمقدارتوابع

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

24

ابعتیکوزنتعدادیازاستفادهباحالتهربرایمی توانویژگی،برمبتنینمایشوسیلهبهqنوشت:

می شودخالصه(وزنپارامترهایمقادیر)عددچنددرعاملتجربه ی.مزیت.

باشدمتفاوتبسیارآنهاارزشاماباشند،داشتهمشترکویژگی هایحالت هااستممکن.ایراد.

𝑉 𝑠 = 𝑤1𝑓1 𝑠 + 𝑤2𝑓2 𝑠 +⋯+ 𝑤𝑛𝑓𝑛(𝑠)

𝑄 𝑠, 𝑎 = 𝑤1𝑓1 𝑠, 𝑎 + 𝑤2𝑓2 𝑠, 𝑎 + ⋯+𝑤𝑛𝑓𝑛(𝑠, 𝑎)

www.snrazavi.ir

Qتقریبییادگیریالگوریتم

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

25

خطیتوابعازاستفادهبایادگیری𝑞.[حالتتغییر]:جدیدتجربه ییکمشاهده ی

تفاوتمحاسبه ی:تابعاصالح𝑞وزن هااصالحبا:

𝑄 𝑠, 𝑎 = 𝑤1𝑓1 𝑠, 𝑎 + 𝑤2𝑓2 𝑠, 𝑎 + ⋯+𝑤𝑛𝑓𝑛(𝑠, 𝑎)

شهودیصورتبه:فعالویژگی هایبهمربوطوزنتنظیم.،دادهاهشکویژگیآنبهمربوطوزنبیفتد،بدیاتفاقناگهانیطوربهاگریعنی

از،دارندراویژگیاینکهمشابهحالت هایتماممی شودباعثعملاینومی شود.شوندارزش ترکمعاملنظر

𝑤𝑖 ← 𝑤𝑖 + 𝛼 ∙ 𝑑𝑖𝑓𝑓𝑒𝑟𝑒𝑛𝑐𝑒 ∙ 𝑓𝑖 𝑠, 𝑎

𝑑𝑖𝑓𝑓𝑒𝑟𝑒𝑛𝑐𝑒 = 𝑟 + 𝛾max𝑎′

𝑄 𝑠′, 𝑎′ − 𝑄(𝑠, 𝑎)

𝑠, 𝑎, 𝑠′, 𝑟

𝑄 𝑠, 𝑎 ← 𝑄 𝑠, 𝑎 + 𝛼 𝑑𝑖𝑓𝑓𝑒𝑟𝑒𝑛𝑐𝑒 Qمقادیر دقیق

Qمقادیر تقریبی

www.snrazavi.ir

پکمن:مثال

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

26

𝑄 𝑠, 𝑎 = 4.0𝑓𝐷𝑂𝑇 𝑠, 𝑎 − 1.0𝑓𝐺𝑆𝑇 𝑠, 𝑎

𝑎 = NORTH𝑟 = -500

عکس فاصله تا نزدیک ترین غذا

𝑟 + 𝛾max𝑎′

𝑄 𝑠′, 𝑎′ = −500 + 0

𝑑𝑖𝑓𝑓𝑒𝑟𝑒𝑛𝑐𝑒 = −501𝑤𝐷𝑂𝑇 = 4.0 + 𝛼 −501 0.5

𝑤𝐺𝑆𝑇 = −1.0 + 𝛼 −501 1.0

عکس فاصله تا نزدیک ترین روح

𝑄 𝑠, 𝑎 = 3.0𝑓𝐷𝑂𝑇 𝑠, 𝑎 − 3.0𝑓𝐺𝑆𝑇 𝑠, 𝑎

www.snrazavi.ir

نمایشیاجرای

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

27

python pacman.py -p ApproximateQAgent -a extractor=SimpleExtractor -n 10 -l smallClassic

www.snrazavi.ir

خطاکمینه سازی

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

28

www.snrazavi.ir

رگرسیون:خطیتقریب

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

29

ො𝑦 = 𝑤0 +𝑤1𝑓1(𝑥) ො𝑦 = 𝑤0 +𝑤1𝑓1 𝑥 + 𝑤2𝑓2(𝑥)

www.snrazavi.ir

خطاکمینه سازی:بهینه سازی

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

30

𝑓1(𝑥)

𝑦

ො𝑦مشاهدهخطا

پیش بینی

𝑒𝑟𝑟𝑜𝑟 =1

2

𝑖

𝑦𝑖 − ො𝑦𝑖2 =

1

2

𝑖

𝑦𝑖 −

𝑘

𝑤𝑘𝑓𝑘 𝑥

2

www.snrazavi.ir

خطاکمینه سازی

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

31

نمونهیکتنهاکنیدفرض.خطاکمینه سازی𝑥،ویژگیبرداربا𝑓(𝑥)،هدفمقدار𝑦وزنهایو𝑤باشیمداشته.

𝑒𝑟𝑟𝑜𝑟 𝑤 =1

2𝑦 −

𝑘

𝑤𝑘𝑓𝑘 𝑥

2

𝜕𝑒𝑟𝑟𝑜𝑟 𝑤

𝜕𝑤𝑚= − 𝑦 −

𝑘

𝑤𝑘𝑓𝑘 𝑥 𝑓𝑚(𝑥)

𝑤𝑚 ← 𝑤𝑚 + 𝛼 𝑦 −

𝑘

𝑤𝑘𝑓𝑘 𝑥 𝑓𝑚(𝑥)

𝑤𝑚 ← 𝑤𝑚 + 𝛼 𝑟 + 𝛾max𝑎′

𝑄 𝑠′, 𝑎′ − 𝑄 𝑠, 𝑎 𝑓𝑚(𝑥)

مشاهدهپیش بینی

یادگیریتقریبیالگوریتمدروزن هاروزرسانیبهقاعدهq.

www.snrazavi.ir

است؟مفیدظرفیتکردنمحدودچرا:بیش برازش

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

32

www.snrazavi.ir

است؟مفیدظرفیتکردنمحدودچرا:بیش برازش

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

33

2چند جمله ای از درجه

www.snrazavi.ir

است؟مفیدظرفیتکردنمحدودچرا:بیش برازش

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

34

۱۵چند جمله ای از درجه

www.snrazavi.ir

سیاستجستجوی

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

35

www.snrazavi.ir

سیاستجستجوی

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

36

رندهب)می کنندکارخوبیبهعملدرکهویژگیبرمبتنیسیاست هایموارداغلبدر.مشکل.می زنندتخمینخوبیبهراVیاQمقادیرکهنیستندآنهایی،(بازیدرشدن

یادگیریالگوریتمدراصلیاولویتQ:مقادیردقیقتخمینQ(مدل سازی)مقادیربرایدرستترتیبآوردندستبه:عملانتخابدراصلیاولویتQ(پیش بینی)

رایاست هاسکهمقادیرییادگیرینهمی سازند،بیشنهراپاداشکهسیاست هایییادگیری.راه حل!می کنندپیش بینی

خوبراه حلیکبا.سیاستجستجوی(ًیادگیریازآمدهدستبهراه حلمثالQ)وکنشروع.ببخشبهبودراآنویژگی ها،وزنرویبرتپه نوردیانجامباسپس

www.snrazavi.ir

سیاستجستجوی

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

37

سیاستجستجویروشساده ترین.تابعیکباQکنشروعاولیه.خیریاشدهبهترقبلبهنسبتجدیدسیاستآیاببینوکنزیادوکمراوزنهامقادیر.

مشکالت.است؟شدهبهترقبلبهنسبتسیاستیکدادتشخیصمی توانچگونه

زیادبسیارآموزشیاپیزودهایاجرایبهنیاز!

نیستعملیروشاینباشد،زیادویژگی هاتعداداگر.

بهرامترپاچندتغییرهوشمندانه،نمونه برداریپیش بینی،ساختارازبهره برداری.بهترروش های...وهمزمانطور

www.snrazavi.ir

سیاستجستجوی

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

38

www.snrazavi.ir

نتیجه گیری

1395-سید ناصر رضوی -یادگیری تقویتی -هوش مصنوعی

39

برنامه ریزیوجستجو:اولبخشپایان!

برایمصنوعیهوشازاستفاده:جستجومسائلمحدودیتارضایمسائلبازی هامارکوفتصمیم گیریمسائلتقویتییادگیری

یادگیریوقطعیتعدم:دومبخش!

top related