„მოდი, სანამ მაგას გავაკეთებთ, ხომ არ სჯობს, ახლავე ავიღოთ და მარტივად, ავტომატური თარგმნის სერვისები შევაწებოთ ერთმანეთს, გავუშვათ საიტი და აბა ვნახოთ, რა იქნება,“ — ასე დაიბადა Supernova-ს გუნდში ChatGPT-ის ქართული ვერსიის „ჟიპიტაურის“ შექმნის იდეა, რომელსაც თქვენთვის საინტერესო კითხვები უკვე თავადაც შეგიძლიათ დაუსვათ. ხოლო, თუ გაინტერესებთ, რას ეკითხებიან სხვები ChatGPT-ის ქართულ ვერსიას, ჟიპიტაურის Facebook ჯგუფსაც შეგიძლიათ ესტუმროთ.
ახლა კი „აბა ვნახოთ, რას გვთავაზობს დღეს ჟიპიტაური“. Supernova-ს თანადამფუძნებელი ზაალ გაჩეჩილაძე მარკეტერს სწორედ ამაზე ესაუბრა:
M: მოგვიყევით, როგორ გაჩნდა „ჟიპიტაურის“ შექმნის იდეა?
ჩვენთვის ChatGPT-ის გამოჩენა იმას ნიშნავს, რომ დასავლეთის ქვეყნებში ადამიანები კიდევ უფრო პროდუქტიულები გახდებიან, შესაბამისად, ჩვენს და მათ შორის უკვე არსებული სხვაობა კიდევ უფრო გაიზრდება, ჩვენი ქვეყანა მნიშვნელოვნად ჩამორჩება მათ, ამიტომ, საჭიროა, რაღაცა გავაკეთოთ, წინ დავიძრათ. მნიშვნელოვანია, ქართულენოვანი ინტერფეისიც არსებობდეს მსგავსი ინსტრუმენტების გამოსაყენებლად. სწორედ ასე გაჩნდა იდეა, რომ მოდი, ავიღოთ და დავიწყოთ მუშაობა მსგავს ქართულენოვან დიდ მოდელზე. მართალია, ამას საკმაოდ დიდი ინვესტიცია სჭირდება… მაგრამ სანამ ეგეთ რაღაცას მივაღწევთ ან გაიაფდება გამოთვლითი სიმძლავრეები და ჩვენც რაღაცებით დავეწევით, მონაცემებს მოვამზადებთ, გადავთარგმნით, ვიმუშავებთ ამ მიმართულებით, მანამდე უფრო მარტივადაც შეიძლება, რომ იგი ხელმისაწვდომი გავხადოთ. ეს იდეაც აქედან წამოვიდა, მე გავაჟღერე გადაცემაში, მერე კომპანიაში ითქვა. მოკლედ რომ გითხრათ, „ხვალვე გავუშვებთ“ ასეთი გეგმა გვქონდა. თუმცა, რა თქმა უნდა, მერე უკვე რაღაცები მოგვინდა, მაგალითად, დავფიქრდით, ლოგო როგორი უნდა ყოფილიყო, რაღაც დეტალებში მაინც ჩავედით, მიუხედავად იმისა, რომ თავდაპირველი გეგმა მხოლოდ საიტის სწრაფად გაშვება იყო. შეფასებების საშუალებაც მივეცით მომხმარებლებს, ტექსტების ბაზაში შენახვაც გადავწყვიტეთ… ეს ყველაფერი უფრო განივრცო და ამიტომაც დასჭირდა ამის გაკეთებას რამდენიმე დღე.
M: რა ეტაპზეა ახლა „ჟიპიტაური“?
ახლა ვაგროვებთ შეტყობინებებს, ადამიანები რომ ელაპარაკებიან „ჟიპიტაურს“, შეფასებებსაც ვინახავთ, რაც დაგვეხმარება, განვსაზღვროთ, როგორ მუშაობს ავტომატური თარგმნის სერვისი, რათა აღმოვაჩინოთ თარგმნის ნაკლოვანებები. შევეცდებით, მაქსიმალურად ჩავრთოთ დეველოპერები სხვადასხვა კომპანიიდან, ფრილანსერები და ა. შ. იმისათვის, რომ დაგვეხმარონ მის შექმნაში და ასევე, თავადაც შეძლონ მისი გამოყენება სხვა სერვისებზე გაცილებით მარტივად და იაფად. შემდეგი ეტაპი ისაა, რომ ამოვიცნოთ, რას აკეთებს და ვერ აკეთებს სისტემა კარგად, რათა დავხვეწოთ კონკრეტული მიმართულებები.
M: შეგვიძლია თუ არა ჟიპიტაურს ChatGPT-ის ქართული ვერსია ვუწოდოთ?
შეგვიძლია ვუწოდოთ… მოდელს, რომელიც მუშაობს ChatGPT-ის უკან, ნასწავლი აქვს დიალოგური მონაცემები და შეფასების ტექნიკას ითვალისწინებს — ადრეულ ეტაპზე ადამიანებმა ChatGPT-ის რამდენიმე ვარიანტიდან საუკეთესო ამოირჩიეს და მერე უკვე ეს მონაცემები გამოიყენეს ე. წ. Reinceforment learning მეთოდისთვის, რომელიც ზუსტად მსგავსი ტიპის მონაცემებზე მუშაობს, ადამიანის დახმარებით სწავლობს, ადამიანი აწვდის ინსტრუქციას, თუ რა არის კარგი და რა, არა და ასე მივიდა იგი დღევანდელ ChatGPT-მდე. ჩვენ GPT-3-ს ახლა იმ სახით ვიყენებთ, როგორიც არის. მართალია, ChatGPT-ის ხარისხობრივად მაგ ნაწილში ჩამორჩება ჩვენი ქართული ვარიანტი, ასევე თარგმანებშიც, მაგრამ ზუსტად ამგვარი ნაკლოვანებების ამოსაცნობად გავუშვით რეალურად ეს პროექტი.
M: ამ ეტაპისთვის „ჟიპიტაურს“ ყველა კითხვაზე აქვს პასუხი?
ვფიქრობ, აქვს, მაგრამ სწორია თუ არა ეს პასუხი, ფაქტებს ეფუძნება თუ არა, მაგ დონეზე არ უნდა ვენდოთ, ზუსტად ისე, როგორც ChatGPT-ის. ეს ჩვენი დაწერილი პასუხები არ არის, ჩვენ უბრალოდ ვთარგმნით, ეს არის OpenAI-ის GPT-3 მოდელი, რომელსაც წაკითხული აქვს ინტერნეტის დიდი ნაწილი, რომელზე დაყრდნობითაც აგენერირებს პასუხს. აქ ისე უნდა ვიფიქროთ, როგორც რაღაცის „დაგუგვლისას“ — როცა Google-ში ინფორმაციის მოძიებას დაიწყებ, მიღებული შედეგები არ ნიშნავს, რომ რაიმე ფაქტებს ეფუძნება, მართალი ან რამენაირად საგულისხმოა. მარტივად რომ ვთქვათ, მას წაკითხული აქვს ბევრი ტექსტი და ამ ტექსტის სხვადასხვა ნაწილებს აბამს ერთმანეთს ისე, რომ კარგად იკითხებოდეს, მაგრამ არ არის ფაქტი, ამიტომ მართალია თუ ტყუილი, ასე ბრმად არ უნდა დაიჯეროთ. მაგალითად, გვეკითხებოდნენ „ვინ დაიწყო რუსეთ-საქართველოს ომი?“ და ეს მოდელი სცემდა არასწორ პასუხს, რომ საქართველომ დაიწყო, მაგრამ როგორც კი მიწერდი, „ვინ არის დამნაშავე 2008 წლის ომში?“, ამბობდა, რომ რუსეთია დამნაშავე…. ანუ ფორმულირებასაც აქვს მნიშვნელობა და პასუხზე ისიც ზემოქმედებს, თუ რაზე ესაუბრებოდი მანამდე. ამიტომ, ჩვენ თითოეულ პასუხზე თავიდანვე დავამატეთ like/dislike ღილაკები ზუსტად იმისათვის, რომ ყველას შეეძლოს მიუთითოს სისტემას, რა არის სწორი და რა, არა.
M: რატომ აირჩიეთ სახელი „ჟიპიტაური“?
უბრალოდ იმიტომ, რომ ქართულია და GPT-ს ჰგავს, მეტი არაფერი. ვიღაცებმა დაწერეს, ახლა მივხვდი, რატომ ჰქვია ჟიპიტაური, მთვრალი ადამიანივით სისულელეებს ლაპარაკობსო… ეგ გამიზნულად არ გაგვიკეთებია, მაგრამ კარგად ჯდება…
M: რა გეგმები აქვს დღეს ChatGPT-ის ქართულ ვერსიას?
მოკლევადიანი გეგმა უფრო კარგი, დახვეწილი თარგმნის ავტომატიზებული სერვისების შექმნაა ქართულ ენაზე, ქართული, ინგლისური, ამ გადმოსახედიდან მინდა, რომ მეგრულიც დავამატოთ. დავხვეწოთ ენობრივი მოდელი, მაგალითად, ChatGPT-ის ნასწავლი აქვს მონაცემები ბევრ ენაზე, მათ შორის ქართულზეც, მაგრამ ძალიან ცოტაა… რა თქმა უნდა, იქ არავის მიუქცევია ყურადღება ქართული სივრციდან, რა რესურსები შევიდოდა. ჩვენ კი ამას გავაკეთებთ, ავიღებთ ქართულ ინტერნეტს, „გავწმენდთ“ ტექსტებს, ავიღებთ ნათარგმნ მასალებს, ინგლისურენოვან მონაცემებს და გადმოვთარგმნით ქართულად. მსგავს ინიციატივებს დავძრავთ იმისათვის, რომ უპირველესად, ქართულ-ინგლისური „დატასეტი“ მოვამზადოთ, როგორც ამას მონაცემთა მეცნიერები ეძახიან. და მერე უკვე ექსპერიმენტებს ჩავატარებთ… შევადარებთ, აპლიკაციებს შორის თარგმნის ხარისხს, ვგეგმავთ, რომ 100-ჯერ მაინც გავაუმჯობესოთ და 10-ჯერ უკეთესი სერვისიც გავხადოთ, რომელიც მომხმარებელთა ნდობას მოიპოვებს. ახლა მნიშვნელოვანი ისაა, რომ თარგმნის პროდუქტიულობა გავზარდოთ, რაც მოგვცემს საშუალებას ამ მოდელმა მარტო თარგმანი კი არ აიღოს საკუთარ თავზე, არამედ არსებული ქართულენოვანი ცოდნაც აითვისოს. რაღაც ფაქტები ხომ იცის, მაგრამ ასევე სტილისტური ცოდნაც შეიძინოს, მაგალითად, შეძლოს შემდეგი ბრძანების შესრულება: „გადააკეთე ელ.ფოსტა ლექსად გალაქტიონის სტილში“.
M: რა შემთხვევაში ჩათვლით პროექტს წარმატებულად?
თუ მომხმარებლები პასუხებს შეაფასებენ, მაშინ წარმატებული იქნება, რადგან იმ მიზნით გავუშვით, რომ ადამიანების აზრები მოვაგროვოთ, თუ რამდენად კარგ ან ცუდ პასუხებს აბრუნებს სისტემა. უფრო შორეული მიზანი კი ის არის, რომ ChatGPT-ს მსგავსი ქართულენოვანი ჩეტბოტი არსებობდეს, რომელიც თარგმანზე არ იქნება დაფუძნებული და თვითონ თავის თავშივე ექნება ენობრივი სტილის ცოდნა, ფაქტების ცოდნა და დაგვეხმარება ვიყოთ უფრო პროდუქტიულები…
წყარო: https://www.marketer.ge