728x90

<๋…ผ๋ฌธ ์›๋ณธ>

On Adversarial Examples for Character-Level Neural Machine Translation - Javid Ebrahimi, Daniel Lowd, Dejing Dou


<๋…ผ๋ฌธ ์š”์•ฝ>

NLP๋ž€?

  • NLP(์ž์—ฐ์–ด ์ฒ˜๋ฆฌ)๋ž€ ์ธ๊ณต์ ์ด์ง€ ์•Š์€, ์ฆ‰ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๋ฐœ์ƒํ•œ ๋ชจ๋“  ์–ธ์–ด(ํ•œ๊ตญ์–ด, ์˜์–ด, ์ผ๋ณธ์–ด ๋“ฑ)๋ฅผ ์ปดํ“จํ„ฐ๊ฐ€ ์ฒ˜๋ฆฌํ•˜๊ณ  ์‘์šฉํ•˜๊ฒŒ๋” ํ•ด์ฃผ๋Š” ๋ชจ๋“  ๊ธฐ๋ฒ•๋“ค์„ ๋‹ค๋ฃจ๋Š” ๋จธ์‹ ๋Ÿฌ๋‹(๋”ฅ๋Ÿฌ๋‹)์˜ ํ•œ ๋ถ„์•ผ๋ฅผ ๋งํ•œ๋‹ค.
  • NLU(Natural Language Understaing): ๊ฐ ์–ธ์–ด ํ…์ŠคํŠธ์˜ ๋ฌธ๋ฒ•๊ณผ ๋ฌธ๋งฅ ๋“ฑ์„ ์ปดํ“จํ„ฐ๊ฐ€ ์‚ฌ๋žŒ์ด ์˜๋„ํ•œ ๋ฐ”์™€ ๊ฐ™์ด ์ดํ•ดํ•˜๊ฒŒ๋” ํ•˜๋Š” ์˜์—ญ
  • NLG(Natural Language Generation): ์ปดํ“จํ„ฐ๊ฐ€ ์ดํ•ดํ•œ ๊ฒƒ์„ ๋ฐ”ํƒ•์œผ๋กœ ์ง์ ‘ ์ธ๊ฐ„์ด ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š” ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•ด๋‚ด๋Š” ์˜์—ญ


Black-Box and White-Box Attacks

  • ๋ธ”๋ž™๋ฐ•์Šค ๊ณต๊ฒฉ(Black-Box Attack): ๊ณต๊ฒฉ์ž๊ฐ€ ๋ชจ๋ธ ๋‚ด๋ถ€๋ฅผ ๋ชจ๋ฅด๋Š” ์ƒํƒœ์—์„œ ์ž…๋ ฅ ๋ณ€ํ˜•์„ ํ†ตํ•ด ๋ชจ๋ธ์„ ์†์ด๋ ค๋Š” ๊ณต๊ฒฉ์ž…๋‹ˆ๋‹ค.
  • ํ™”์ดํŠธ๋ฐ•์Šค ๊ณต๊ฒฉ(White-Box Attack): ๊ณต๊ฒฉ์ž๊ฐ€ ๋ชจ๋ธ์˜ ๋‚ด๋ถ€ ๊ตฌ์กฐ์™€ ๊ฐ€์ค‘์น˜์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ์•Œ๊ณ  ์ด๋ฅผ ์ด์šฉํ•ด ๋” ์ •๊ตํ•œ ๊ณต๊ฒฉ์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.


Controlled and Targeted Attacks

  • ํ†ต์ œ๋œ ๊ณต๊ฒฉ(Controlled Attack): ์ด ๊ณต๊ฒฉ์€ ๋ฒˆ์—ญ๋œ ๋ฌธ์žฅ์—์„œ ํŠน์ • ๋‹จ์–ด๊ฐ€ ์‚ฌ๋ผ์ง€๊ฒŒ ํ•˜๊ฑฐ๋‚˜, ์ค‘์š”ํ•œ ์ •๋ณด๋ฅผ ์™œ๊ณกํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์ด๋ฃจ์–ด์ง‘๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋ฒˆ์—ญ๋œ ๋ฌธ์žฅ์—์„œ ํŠน์ • ๋‹จ์–ด๋ฅผ ์ œ๊ฑฐํ•˜๋„๋ก ํ•˜๋Š” ๊ณต๊ฒฉ์ž…๋‹ˆ๋‹ค.
  • ๋ชฉํ‘œ๋œ ๊ณต๊ฒฉ(Targeted Attack): ์ด ๊ณต๊ฒฉ์€ ํŠน์ • ๋‹จ์–ด๋ฅผ ๋‹ค๋ฅธ ๋‹จ์–ด๋กœ ๋ฐ”๊พธ์–ด ๋ฒˆ์—ญ ๊ฒฐ๊ณผ๋ฅผ ์™œ๊ณกํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ๊ณต๊ฒฉ์ž๋Š” ๋ฒˆ์—ญ ๊ฒฐ๊ณผ์—์„œ ํŠน์ • ๋‹จ์–ด๋ฅผ ๋ชฉํ‘œ๋กœ ์‚ผ์•„ ๋ณ€๊ฒฝํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค.

White-Box Adversarial Examples

  • ์ ๋Œ€์  ์˜ˆ์ œ๋ฅผ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ๋ฌธ์ž ์ˆ˜์ค€์—์„œ ํŽธ์ง‘ ์ž‘์—…(์˜ˆ: ๊ต์ฒด, ๊ตํ™˜, ์‚ญ์ œ, ์‚ฝ์ž…)์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ž‘์—…์€ ๊ธฐ๊ณ„ ๋ฒˆ์—ญ ๋ชจ๋ธ์ด ์–ด๋–ป๊ฒŒ ์ž‘์€ ๋ณ€ํ˜•์— ์‰ฝ๊ฒŒ ์†์„ ์ˆ˜ ์žˆ๋Š”์ง€๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ์ค‘์š”ํ•œ ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.
  • ๋„ํ•จ์ˆ˜-๊ธฐ๋ฐ˜ ์ตœ์ ํ™” ๊ณผ์ •(gradient-based optimization) ์‚ฌ์šฉํ•˜์—ฌ ์ ๋Œ€์  ์˜ˆ์ œ๋ฅผ ๋” ์ •๊ตํ•˜๊ฒŒ ๋งŒ๋“ญ๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ๋ชจ๋ธ์˜ ์†์‹ค ํ•จ์ˆ˜๋ฅผ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ๋ฌธ์ž๋ฅผ ๋ณ€๊ฒฝํ•˜๋Š” ๊ณผ์ •์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค.

Experiments

  • ์‹คํ—˜์—์„œ๋Š” IWSLT 2016 TED ๊ฐ•์—ฐ ๋ฐ์ดํ„ฐ์…‹์„ ์‚ฌ์šฉํ•˜์—ฌ, ํ”„๋ž‘์Šค์–ด-์˜์–ด, ๋…์ผ์–ด-์˜์–ด, ์ฒด์ฝ”์–ด-์˜์–ด ๋ฒˆ์—ญ ๋ชจ๋ธ์„ ๋Œ€์ƒ์œผ๋กœ ๋ธ”๋ž™๋ฐ•์Šค์™€ ํ™”์ดํŠธ๋ฐ•์Šค ๊ณต๊ฒฉ์˜ ์˜ํ–ฅ์„ ๋น„๊ตํ•ฉ๋‹ˆ๋‹ค.
  • ์‹คํ—˜ ๊ฒฐ๊ณผ๋Š” ํ™”์ดํŠธ๋ฐ•์Šค ๊ณต๊ฒฉ์ด ๋ธ”๋ž™๋ฐ•์Šค ๊ณต๊ฒฉ๋ณด๋‹ค ํ›จ์”ฌ ๋” ๊ฐ•๋ ฅํ•œ ๊ณต๊ฒฉ์ž„์„ ์ž…์ฆํ•ฉ๋‹ˆ๋‹ค. ํ™”์ดํŠธ๋ฐ•์Šค ๊ณต๊ฒฉ์—์„œ ๋ชจ๋ธ์˜ BLEU ์ ์ˆ˜๊ฐ€ ๊ธ‰๊ฒฉํžˆ ๊ฐ์†Œํ•˜๋Š” ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

cf) BLEU(Bilingual Evaluation Understudy) ์ ์ˆ˜: ๊ธฐ๊ณ„ ๋ฒˆ์—ญ์˜ ํ’ˆ์งˆ์„ ํ‰๊ฐ€ํ•˜๋Š” ์ง€ํ‘œ๋กœ, ๋ฒˆ์—ญ๋œ ํ…์ŠคํŠธ์™€ ์ฐธ์กฐ ํ…์ŠคํŠธ ๊ฐ„์˜ ์œ ์‚ฌ๋„๋ฅผ ์ธก์ •ํ•ฉ๋‹ˆ๋‹ค. ์ ์ˆ˜๊ฐ€ ๋†’์„์ˆ˜๋ก ๋ฒˆ์—ญ ํ’ˆ์งˆ์ด ์ข‹์Œ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

Conclusion

  • Character-Level Neural Machine Translation์ด ์ ๋Œ€์  ์˜ˆ์ œ์— ๋งค์šฐ ์ทจ์•ฝํ•˜๋‹ค๋Š” ์ ์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ, ํ™”์ดํŠธ๋ฐ•์Šค ๊ณต๊ฒฉ์ด ๋ธ”๋ž™๋ฐ•์Šค ๊ณต๊ฒฉ๋ณด๋‹ค ํ›จ์”ฌ ๋” ๊ฐ•๋ ฅํ•˜๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ์ ๋Œ€์  ํ•™์Šต์„ ํ†ตํ•ด ๋ชจ๋ธ์˜ Robustness๋ฅผ ๋†’์ด๋Š” ๋ฐฉ์•ˆ์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.

cf) Robustness: ๋ชจ๋ธ์ด ์ ๋Œ€์  ์˜ˆ์ œ๋‚˜ ์˜ˆ๊ธฐ์น˜ ๋ชปํ•œ ์ž…๋ ฅ ๋ณ€ํ™”์— ๋Œ€ํ•ด ์–ผ๋งˆ๋‚˜ ์ž˜ ๋Œ€์‘ํ•˜๋Š”์ง€๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ์„ฑ์งˆ.

+ Recent posts