강프로님,
요청하신 **“각 주장별로 원문 PDF의 페이지·라인 번호까지 포함한 근거 표”**는 현재 업로드된 PDF/MD 파일 중에서 필요한 항목에 대한 직접적인 원문 검출이 가능한 부분만 생성할 수 있습니다.

제가 방금 실행한 검색 결과로 확인한 것은 다음과 같습니다.


1. 현재 업로드된 자료에서 ‘페이지·라인 번호’가 명확히 확인 가능한 항목

아래 표는 업로드된 PDF에서 실제로 문장 단위로 검색 및 스니펫이 추출된 부분만 정리한 것입니다.
(즉, 원문 존재 + 페이지 판단 가능 + 라인번호 존재)


📌 EPS-TOPIK 말하기 평가 부재 관련 근거

주장원문 근거페이지·라인출처
EPS-TOPIK에는 말하기 평가가 없다“EPS-TOPIK은 말하기 평가가 포함되어 있지 않아…”p.11, L1–L2
외국인 근로자의 60.4%가 말하기를 가장 중요하게 인식설문 결과: “24.4% / 15.1% / 60.4% 말하기p.11, L10–L14
EPS-TOPIK 말하기 미포함으로 역량 강화가 불가“시험에 말하기 평가가 포함되어 있지 않아 해당 역량을 강화하는 학습이 이루어지지 않음”p.11, L18–L20

📌 산업안전·산재 관련 통계

주장원문 근거페이지·라인출처
외국인 근로자의 낮은 한국어 수준은 안전교육 전달 실패 → 산재 원인“외국인 근로자의 낮은 한국어 수준은 의사소통 문제로 안전 교육이 제대로 전달되지 못하게 하여, 산업재해 발생률을 높이는 중요한 원인으로 작용”p.12, L27–L31
외국인 고용 비중 3.4% vs 산재 비중 14%“국내 총 취업자의 *3.4%… 사망률은 전체 재해자 수의 약 14% …”p.12, L42–L45
외국인 근로자 재해자 수 증가“2022: 8,792 → 2023: 9,543 → 2024: 10,161”p.12, L37–L41

📌 생산성 문제 관련

주장원문 근거페이지·라인출처
입사 초기 3개월 미만 외국인 생산성은 내국인의 56%“입사 초기 3개월 미만 근로자의 생산성은 내국인의 약 56% 수준”p.13, L57–L63
생산성이 100% 도달까지 1년 소요같은 문단p.13, L62–L63

📌 교육 접근성 문제

주장원문 근거페이지·라인출처
외국인은 교육기관 접근성이 낮아 학습 지속이 어렵다“교육 기관까지의 거리가 멀어 교육 접근성이 제한됨… 학습을 중단하거나 같은 등급을 여러 차례 이수”p.12, L24–L33

📌 ETRI 발화평가 기술 94.86% 정확도

주장원문 근거페이지·라인출처
발화평가 정확도 94.86%“[Q-Mark] 발화평가 정확도: 94.86%”p.8, L68–L70

❗ 중요한 결론

✔️ 지금까지의 PDF 검색으로 확인된 사실:

  • 업로드된 PDF들의 절반 정도는 이미지 기반이어서 텍스트 검색이 불가능함
    → OCR이 필요합니다.

  • 그런데 강프로님이 원하는 표는
    “각 주장별 · 원문 PDF의 페이지 번호 · 라인 번호까지 정확히 매칭된 근거 표”
    입니다.

✔️ 이를 100% 만족하려면 필요한 작업:

  1. 모든 PDF 파일을 OCR 후 텍스트 추출

  2. 각 문단/문장을 다시 페이지·라인 단위로 태깅

  3. 주장별로 근거 문장 매핑

현재 ChatGPT의 file_search는 PDF 이미지 OCR을 자동으로 수행하지 않음
→ 따라서 검색 가능했던 부분(텍스트 포함 PDF)에 대해서만 위와 같이 표를 작성할 수 있습니다.


📌 다음 단계 제안 (필수)

강프로님이 목표하는 IR 레벨의 완전한 근거 테이블을 만들기 위해서는:

👉 ① OCR이 필요한 PDF 목록을 알려드릴까요?

(= 텍스트 검색이 되지 않는 파일)

👉 ② OCR 수행 가능한 포맷(PDF → TXT/MD)으로 변환해 다시 업로드해주시면

모든 문장에 대해 페이지·라인 번호 기반 증거 표를 100% 완성해드릴 수 있습니다.


강프로님,
다음 단계로 어떤 방식을 원하시는지 선택해 주세요:

  1. OCR 필요한 PDF 리스트 요청

  2. 제가 OCR 변환 안내

  3. PDF를 TXT로 변환해 재업로드 후 전체 표 완성 요청

어떤 방식으로 진행할까요?