Openlibrary: λ§ΉκΈ€λ§λœ μœ λ‹ˆμ½”λ“œλ‘œ μ±… 제λͺ© μˆ˜μ •

에 λ§Œλ“  2012λ…„ 01μ›” 23일  Β·  16μ½”λ©˜νŠΈ  Β·  좜처: internetarchive/openlibrary

이 λ¬Έμ œλŠ” ol-tech 메일링 λ¦¬μŠ€νŠΈμ— λ³΄κ³ λ©λ‹ˆλ‹€.

I don't know how widespread this problem is, but I noticed that these
two records have messed up book titles, but if you click through to
the associated MARC records on IA, the titles get rendered correctly.

http://openlibrary.org/books/OL7155555M/The_M%C2%A9%C3%98alavik%C2%A9%C3%98agnimitra
http://openlibrary.org/books/OL7165183M/The_Vikramorva%C2%A9%C3%98s%C2%A9%C4%90iyam
Data @hornc Import 2 Identifiers MARC records Bug

λͺ¨λ“  16 λŒ“κΈ€

이 두 기둝 λͺ¨λ‘ archive.orgμ—μ„œ κ°€μ Έμ™”μŠ΅λ‹ˆλ‹€.

archive.orgμ—μ„œ _marc.xml νŒŒμΌμ„ μ‚΄νŽ΄λ³΄μ•˜μŠ΅λ‹ˆλ‹€. 두 marc.xml 파일의 λ§ˆμ§€λ§‰ μˆ˜μ • μ‹œκ°„μ€ 2007년이고 이 λ ˆμ½”λ“œλŠ” 2008년에 μƒμ„±λ˜μ—ˆμŠ΅λ‹ˆλ‹€. λ¬Έμ œλŠ” ν•΄λ‹Ή 제λͺ©μ„ ꡬ문 λΆ„μ„ν•œ μŠ€ν¬λ¦½νŠΈμ— μžˆλŠ” 것 κ°™μŠ΅λ‹ˆλ‹€.

μ•…μ„ΌνŠΈκ°€ μžˆλŠ” λ¬Έμžκ°€ 잘λͺ»λ˜μ—ˆκ±°λ‚˜ 잘λͺ» 처리된 수천 개의 MARC κ°€μ Έμ˜€κΈ° λ ˆμ½”λ“œκ°€ μžˆμŠ΅λ‹ˆλ‹€. 또 λ‹€λ₯Έ 일반적인 μ‹œλ‚˜λ¦¬μ˜€λŠ” μ•…μ„ΌνŠΈ λ˜λŠ” 기타 발음 ꡬ별 κΈ°ν˜Έκ°€ λͺ¨μŒ μ•žμ΄λ‚˜ 뒀에 곡백으둜 λŒ€μ²΄λ˜μ—ˆλ‹€λŠ” κ²ƒμž…λ‹ˆλ‹€.

예λ₯Ό λ“€λ©΄ λ‹€μŒμ„ μ°Έμ‘°ν•˜μ‹­μ‹œμ˜€.

http://openlibrary.org/authors/OL4459814A/Heinrich_Schro_der

http://openlibrary.org/works/OL10684450W/Tonbandgera_te-Messpraxis

http://openlibrary.org/show-records/talis_openlibrary_contribution/talis-openlibrary-contribution.mrc :299045317:529

μ €μžμ™€ 제λͺ© λͺ¨λ‘μ—μ„œ μ›€λΌμš°νŠΈλŠ” λͺ¨μŒ 뒀에 곡백으둜 λ³€κ²½λ˜μ—ˆμŠ΅λ‹ˆλ‹€. μ—°κ²°λœ MARC λ ˆμ½”λ“œκ°€ λΈŒλΌμš°μ €μ— μ˜¬λ°”λ₯΄κ²Œ ν‘œμ‹œλ©λ‹ˆλ‹€.

μž¬μˆ˜μž…μ„ κ³ λ €ν•΄μ•Ό ν•©λ‹ˆκΉŒ? 그리고 https://bugs.launchpad.net/openlibrary/+bug/598204 도 μ°Έμ‘°ν•˜λŠ” #149 κ°€ μ’…μ†μ„±μž…λ‹ˆκΉŒ?

λ‚΄κ°€ μ΅œκ·Όμ— 찾은 것: https://openlibrary.org/works/OL17670297W
https://openlibrary.org/works/OL17677126W
이 μž‘κ°€μ˜ μ—¬λŸ¬ μž‘ν’ˆ:
https://openlibrary.org/authors/OL2450531A/Matthieu_Joseph_Bonaventure_Orfila

https://openlibrary.org/search?q=title%3A+%22 Β©β™­%22&mode=everything μ—¬μ „νžˆ 1,700만 개 μ΄μƒμ˜ 일치 ν•­λͺ©μ„ μ°ΎμŠ΅λ‹ˆλ‹€. 이것은 μ•„λ§ˆλ„ κ°€μž₯ 일반적인 μ•…μ„ΌνŠΈ 문자인 "Γ©"에 λŒ€ν•œ κ²ƒμž…λ‹ˆλ‹€. https://openlibrary.org/books/OL26303038M/Anatomie_gΓ©nΓ©rale_appliquΓ©e_Γ _la_physiologie_et_Γ _la_mΓ©decine?b=3&a=1&_compare=Compare&m=diff 와 같은 νŽΈμ§‘μ΄ λ°˜λ“œμ‹œ μˆ˜λ™μΌ ν•„μš”λŠ” μ—†μŠ΅λ‹ˆλ‹€.

@hornc re your 5μ›” 8일 λŒ“κΈ€, ν•΄λ‹Ή μž‘ν’ˆμ€ importμ—μ„œ λ§Œλ“  μ—λ””μ…˜μœΌλ‘œ λ§Œλ“€μ–΄μ‘ŒμŠ΅λ‹ˆλ‹€.
https://openlibrary.org/show-records/ia :b28044277_0001
그리고
https://openlibrary.org/show-records/ia :b2202010x
ia MARC λ ˆμ½”λ“œμ—μ„œ μˆ˜μ •λ  λ•ŒκΉŒμ§€ κ°€μ Έμ˜€κΈ°κ°€ μ •κ·œν™”λ₯Ό ν†΅κ³Όν•˜μ§€ μ•ŠλŠ” ν•œ λ‹€μ‹œ κ°€μ Έμ˜€κΈ°μ— κ°€μΉ˜κ°€ μ—†μŠ΅λ‹ˆλ‹€.

@LeadSongDog ν₯λ―Έλ‘­κ²Œλ„ λ§ν¬ν•œ MARC λ””μŠ€ν”Œλ ˆμ΄λŠ” λ¬Έμžκ°€ κΉ¨μ Έ λ³΄μ΄μ§€λ§Œ, XML ν‘œν˜„ https://ia800202.us.archive.org/34/items/b28044277_0001/b28044277_0001_marc.xml 을 ν΄λ¦­ν•˜λ©΄ μ•…μ„ΌνŠΈκ°€ μžˆλŠ” e의 λ””μŠ€ν”Œλ ˆμ΄κ°€ μ˜¬λ°”λ₯΄κ²Œ ν‘œμ‹œλ©λ‹ˆλ‹€. . 인코딩 μœ ν˜•μ΄ 잘λͺ» μ„€μ •λœ λ¬Έμ œκ°€ μžˆμ„ 수 μžˆμŠ΅λ‹ˆκΉŒ? 곧 이것을 μ„ νƒν•˜κ² μŠ΅λ‹ˆλ‹€. μƒˆλ‘œμš΄ openlibrary-clientλŠ” 이제 λŒ€λŸ‰ 데이터 μˆ˜μ •μ„ μˆ˜ν–‰ν•˜λŠ” 데 μ‚¬μš©ν•  수 μžˆλŠ” μƒνƒœμ— μžˆμŠ΅λ‹ˆλ‹€.

@LeadSongDog 이 μ˜ˆμ œμ—μ„œ mangling이 μ–΄λ–»κ²Œ λ°œμƒν•˜λŠ”μ§€ μ•Œμ•„
https://ia600208.us.archive.org/25/items/b2202010x/b2202010x_marc.xml

"Secours Γ  donner"의 a-graveκ°€ utf-8 μΈμ½”λ”©μœΌλ‘œ μ˜¬λ°”λ₯΄κ²Œ ν‘œμ‹œλ©λ‹ˆλ‹€.

a-graveλŠ” U+00E0이며 λ°”μ΄λ„ˆλ¦¬(파이썬 ν‘œκΈ°λ²•)μ—μ„œλŠ” \xC3\xA0

ν•΄λ‹Ή λ°”μ΄νŠΈκ°€ MARC8둜 ν•΄μ„λ˜κ³  "λ³€ν™˜λœ" 경우 C3 λŠ” μ €μž‘κΆŒ κΈ°ν˜Έκ°€ 되고 'A0'은 곡백이 λ©λ‹ˆλ‹€. μ΄λŠ” "Secours Β© donner"κ°€ μžˆλŠ” OL νŽ˜μ΄μ§€μ—μ„œ λ³Ό 수 μžˆλŠ” 것과 μ •ν™•νžˆ κ°™μŠ΅λ‹ˆλ‹€.

이제 μ΄λŸ¬ν•œ MARC λ ˆμ½”λ“œμ— utf-8 문자 인코딩이 μžˆλ‹€κ³  μƒκ°ν•˜μ§€λ§Œ MARC8인 κ²ƒμ²˜λŸΌ OL둜 κ°€μ Έμ˜€κΈ° λ•Œλ¬Έμ— 맹글링이 μ„€λͺ…λ©λ‹ˆλ‹€.

https://memory.loc.gov/diglib/codetables/45.html에 μžˆλŠ” ν…Œμ΄λΈ”μ—μ„œ μˆ˜λ™μœΌλ‘œ MARC8 λ³€ν™˜μ„ μˆ˜ν–‰ν–ˆμŠ΅λ‹ˆλ‹€. μ œλŒ€λ‘œ ν…ŒμŠ€νŠΈν•˜λ €λ©΄ yaz λ˜λŠ” 무언가λ₯Ό μ‚¬μš©ν•΄μ•Ό ν•˜μ§€λ§Œ 이것은 쒋은 경둜λ₯Ό μ œκ³΅ν•  κ²ƒμž…λ‹ˆλ‹€. ν”„λ‘œκ·Έλž˜λ° λ°©μ‹μœΌλ‘œ MARC 였λ₯˜λ₯Ό μˆ˜μ •ν•©λ‹ˆλ‹€.

Amazonμ—μ„œ κ°€μ Έμ˜¨ λ ˆμ½”λ“œμ— 영ν–₯을 μ£ΌλŠ” λ‹€λ₯Έ μœ λ‹ˆμ½”λ“œ 맹글링 였λ₯˜κ°€ μžˆλ‹€λŠ” 것을 μ•Œκ³  μžˆμ§€λ§Œ Windows λ˜λŠ” ISO 문자 μ§‘ν•©μ—μ„œ 잘λͺ»λœ λ³€ν™˜μœΌλ‘œ μΈν•œ 것 κ°™μŠ΅λ‹ˆλ‹€.

@LeadSongDog MARC λ ˆμ½”λ“œκ°€ μ‹€μ œλ‘œ 잘λͺ»λ˜μ—ˆλŠ”지 μ—¬λΆ€λ₯Ό νŒŒμ•…ν•˜λ €κ³  μ‹œλ„ν•˜λ©΄μ„œ 문제의 κ·Όλ³Έ 원인을 μš°μ—°νžˆ λ°œκ²¬ν•œ 것 κ°™μŠ΅λ‹ˆλ‹€.

@hornc MARC 맹글링 및/λ˜λŠ” 이 λ¬Έμ œκ°€ ν•΄κ²°

λ¬Έμ œλŠ” ν™•μ‹€νžˆ ν•΄κ²°λ˜μ§€ μ•Šμ•˜μŠ΅λ‹ˆλ‹€. κ°€μ Έμ˜€κΈ° μŠ€ν¬λ¦½νŠΈκ°€ μˆ˜μ •λ˜λ©΄ @bfalling μ—μ„œ λ‹€μ‹œ κ°€μ Έμ˜€κΈ° μ œμ•ˆμ΄ ν•„μš”ν•  κ°€λŠ₯성이 ν½λ‹ˆλ‹€.

λΆ„λ₯˜μ˜ κ΄€μ μ—μ„œ μ‹€μ œ 개수λ₯Ό μ–»λŠ” 것이 μœ μš©ν•  κ²ƒμž…λ‹ˆλ‹€. "천"은 2,500만 판 쀑 그리 큰 λΉ„μœ¨μ΄ μ•„λ‹™λ‹ˆλ‹€.

이것이 Python 3 λ³€κ²½ μ‚¬ν•­μœΌλ‘œ ν•΄κ²°λ˜μ—ˆκ±°λ‚˜ λˆ„κ΅°κ°€ Python 3μ—μ„œ μž¬ν˜„ 단계λ₯Ό μ œκ³΅ν•  수 μžˆμŠ΅λ‹ˆκΉŒ?

κΈ€μŽ„μš” https://openlibrary.org/books/OL12903648M/Etudes_Conomiques_De_L 'OcdeλŠ” ν™•μ‹€νžˆ μˆ˜μ •λ˜μ§€ μ•Šμ•˜μ§€λ§Œ μ•„λ§ˆλ„ μš°λ¦¬λŠ” ꡬ멍을 νŒŒλŠ” 것은 끝났을 κ²ƒμž…λ‹ˆλ‹€...
적어도 μ„Έ 가지 문제 ν΄λž˜μŠ€κ°€ μžˆμ—ˆμŠ΅λ‹ˆλ‹€.

  1. 쒋은 λ°μ΄ν„°μ˜ 잘λͺ»λœ κ°€μ Έμ˜€κΈ°
  2. 잘λͺ»λœ λ°μ΄ν„°μ˜ λ¦¬ν„°λŸ΄ κ°€μ Έμ˜€κΈ°
  3. μˆ˜μ •λœ 이후 1 λ˜λŠ” 2의 였래된 μ‚¬λ‘€μ—μ„œ 잘λͺ»λœ 데이터가 μžˆμŠ΅λ‹ˆλ‹€.
    py3으둜 μ΄λ™ν•˜λ©΄ 기껏해야 1번이 μˆ˜μ •λ©λ‹ˆλ‹€.

문제 클래슀 1을 μž¬ν˜„ν•˜λŠ” 단계?

초기의 μ˜ˆλŠ” 더 λ‚˜μ€ (μš°λ¦¬κ°€ κ°€μ Έμ˜¬ 수 μ—†μŠ΅λ‹ˆλ‹€ν•œλ‹€) 엉터리 μ•„λ§ˆμ‘΄ λ°μ΄ν„°μ—μ„œ κ°€μ Έ μ˜€κΈ°λŠ” κ°€μž₯ 졜근의 데이터가 μ•„λ‹Œ μžˆμŠ΅λ‹ˆλ‹€.
https://openlibrary.org/books/OL7165183M/The_Vikramorva%C2%A9%C3%98s%C2%A9%C4%90iyam
https://openlibrary.org/authors/OL4459814A/Heinrich_Schro_der
https://openlibrary.org/books/OL13956174M/Tonbandgera_te-Messpraxis
https://openlibrary.org/books/OL26280693M/Secours_%C2%A9_donner_aux_personnes_empoisonn%C2%A9%E2%99%ADes_ou_asphyxi%C2%A9%E2%99%ADes_suivis_des_moyens_propres_%

버그가 μˆ˜μ •λœ 경우 λ ˆμ½”λ“œλ₯Ό λ‹€μ‹œ κ°€μ Έμ˜€λ©΄ μ˜¬λ°”λ₯Έ 인코딩이 λ©λ‹ˆλ‹€. 그런 λ‹€μŒ μž‘μ—…μ€ 수백만 개의 μ†μƒλœ λ ˆμ½”λ“œλ₯Ό λ‹€μ‹œ κ°€μ Έμ˜€λŠ” κ²ƒμž…λ‹ˆλ‹€.

이전에 1,700만 개 μ΄μƒμ˜ λ ˆμ½”λ“œλ₯Ό λ°˜ν™˜ν•œλ‹€κ³  μ£Όμž₯된 검색: https://openlibrary.org/search?q=title%3A+%22%C2%A9%E2%99%AD%22&mode=everything
이제 2,340만 개의 κ²°κ³Όλ₯Ό λ°˜ν™˜ν•˜μ§€λ§Œ μ‹€μ œλ‘œλŠ” λ³„λ„μ˜ 버그이며 λ°μ΄ν„°λ² μ΄μŠ€μ˜ λͺ¨λ“  μž‘μ—…μ„ λ°˜ν™˜ν•˜λŠ” 것뿐이라고 μƒκ°ν•©λ‹ˆλ‹€.

@tfmorris https://openlibrary.org/search?q=title%3A+%22+%22&mode=everything 이 λ™μΌν•œ κ²°κ³Όλ₯Ό μ–»μœΌλ―€λ‘œ 예, 효과적인 곡백 λ¬Έμžμ—΄μ— λŒ€ν•œ 제λͺ© κ²€μƒ‰μ˜ κ°„λ‹¨ν•œ 경우인 것 κ°™μŠ΅λ‹ˆλ‹€.

검색 버그λ₯Ό μœ„ν•΄ #4223을 λ§Œλ“€μ—ˆμŠ΅λ‹ˆλ‹€.

이 νŽ˜μ΄μ§€κ°€ 도움이 λ˜μ—ˆλ‚˜μš”?
0 / 5 - 0 λ“±κΈ‰