Question-controlled Text-aware Image Captioning, Q&A
Automatic Dataset Construction
Overview về dataset
- Đầu vào và đầu ra của bài toán TextCaps thông thường sẽ là
<I, Y>. - Với nghiên cứu về của tác giả, đầu vào bài toán trở thành
<I, C_ini, Q, Y>. Cụ thể trong đó C_ini và Q được thêm vào, vai trò của từng thành phần trở thành:- I: Image
- C_ini: Caption no scene-text
- Q: Question
- Y: Caption scene-text
Initial Caption Generation:
- major visual object (w/o scene-text)
- initial captions show mention scene-text.
- Cách khởi tạo C~_init:
- Phát hiện văn bản cảnh trong Y
- Xác định từ trong Y là từ văn bản cảnh (tạm gọi là từ_Y1)
- Chạy OCR trên ảnh và so sánh kết quả OCR với từ_Y1
- Loại bỏ văn bản cảnh:
- sử dụng bộ phân tích cú pháp phụ thuộc (syntactic dependency parser) Spacy2 để xây dựng cây phụ thuộc (dependency tree) và cắt tỉa các nhánh chứa văn bản cảnh (scene text).
- Phát hiện văn bản cảnh trong Y
- Tổng quan qui trình: Extract C~_ini (I, Y) → (train) model - AoANet → C_ini
Question Generation
- T5 → tạo câu hỏi-câu trả lời từ Y
- Filter: Do một số cặp câu hỏi - trả lời không liên quan đến văn bản cảnh, nên chúng ta lọc ra các cặp này bằng cách kiểm tra xem câu trả lời có thể được tìm thấy trong kết quả nhận dạng ký tự quang học (OCR) không.
- Bên cạnh đó, các câu hỏi về một văn bản cảnh có thể chứa các câu trả lời dạng văn bản cảnh từ các câu hỏi khác hoặc mô tả đối tượng bổ sung không có trong chú thích ban đầu, điều này làm rò rỉ thông tin groundtruth cho mô hình và cần tránh.
Proposed Method (GQAM)
- (Tích hợp thông tin địa lí vào quá trình encode ảnh) → kết hợp region-level (obj f + ocr f) = spatial relationship.
- Q-guided encoder → relevant visual f
- Multimodal decoder → personalized text-aware caption.
-
Tóm gọn lại:
- Bộ mã hóa hình ảnh theo hình học (Geometry-informed Visual Encoder) kết hợp các đặc trưng vùng đối tượng và đặc trưng vùng văn bản cảnh với thông tin hình học tương đối. (region obj features và scene text region features) - Bộ mã hóa theo câu hỏi (Question-guided Encoder) lựa chọn động các đặc trưng hình ảnh liên quan để mã hóa các câu hỏi. (select relevants visual features to encode questions) - Bộ giải mã đa phương thức (Multimodal Decoder) nhận đầu vào là các đặc trưng hình ảnh, câu hỏi và chú thích ban đầu để tuần tự tạo ra chú thích có nhận biết văn bản cho câu hỏi. (visual - question - initial captions features → caption)
Geometry-informed Visual Encoder
Question-guided Encoder
Multimodal Decoder
Q&A:
- Sử dụng bộ phân tích cú pháp phụ thuộc (syntactic dependency parser) Spacy2 để xây dựng cây phụ thuộc (dependency tree) và cắt tỉa các nhánh chứa văn bản cảnh (scene text). -> Liệu bước filter này có thể sử dụng được trên dữ liệu tiếng Việt không?